통계에 대한 기초적인 이해
가설과 가설검증
R Cookbook
Chapter 1 Getting Started and Getting Help
Chapter 2 Some Basics
Chapter 3 Navigating the Software
Chapter 4 Input and Output
Chapter 5 Data Structures
Chapter 6 Data Transformations
Chapter 7 Strings and Dates
Chapter 8 Probability
Chapter 9 General Statistics
Chapter 10 Graphics
Chapter 11 Linear Regression and ANOVA
Chapter 12 Useful Tricks
Chapter 13 Beyond Basic Numerics and Statistics
Chapter 14 Time Series Analysis
Course Introduction –> syllabus
동영상 (R 관련)
Introduction to R and others
동영상 (통계관련 샘플링에 대한 설명)
기본용어
기술통계 (descriptive statistics)
추론통계 (inferential statistics)
아래의 개념은 샘플링 문서를 먼저 볼것
가설 (hypothesis)
변인 (variables)
Sampling
가설
지난 동영상 리캡 및 가설에 대한 소개
가설에 대한 소개 및 설명
가설이 만들어지는 이유
가설의 예
변인의 종류와 변인측정의수준
Some basics
from the previous lecture (research question and hypothesis)
가설을 만들게 된 이유에서 여러 개의 social science theory를 가지고 가설을 세워서 옳다는 결과가 나오면 법칙을 맞다고 증명하기 위해 가설을 만드는 것인지 아니면 하나의 social science theory가 맞는 지 틀리는 지 가설로 측정을 해본 다음 인정을 받기 위한 것인 지 (물론 이론이 100퍼센트 옳다고 확신할 수 없다고 하고)
3주차 온라인 강의 동영상은 4주에 걸쳐서 보시기 바랍니다. 즉, 4주 중에 따로 동영상 올리지 않습니다.
—–
—–
Howell, Ch. 4 내용 중 Variance와 (분산) Standard deviation은 (표준편차는) 이후 통계 검증방법을 이해하는데 기초가 되는 중요한 내용이니 꼭 숙지하시기 바랍니다.
Navigating software
Mean
Mode
Median
Variance
Standard Deviation
+-1 sd = 68% = +-1 sd
+-2 sd = 95% = +-1.96 sd
+-3 sd = 99% (99.7%) = +-3 sd
표준점수 (unit with a standard deviation) = z score
Sampling distribution via random sampling
Lecture materials for this week
# +-1SD = 68% # +-2SD = 95% # +-3SD = 99% 라고 했지만 # pnorm(2) = ? pnorm(2) pnorm(2) - pnorm(-2) pnorm(90,70,10) pnorm(90,70,10) - pnorm(50,70,10) pnorm(3) - pnorm(-3) qnorm(0.975) qnorm(0.025) qnorm(0.995) qnorm(0.005) pnorm(3) - pnorm(-3) # sa, http://commres.net/wiki/sampling_distribution_in_r?#n_4 m.ca <- 70 sd.ca <- 10 rnorm(n, m.ca, sd.ca) set.seed(1001) iter <- 10000 n <- 4 rnorm(n, m.ca, sd.ca) means <- rep (NA, iter) for(i in 1:iter){ means[i] = mean(rnorm(n, m.ca, sd.ca)) } # according to the prefessor m.means.should.be <- m.ca v.means.should.be <- sd.ca^2/n sd.means.should.be <- sqrt(v.means.should.be) m.means.should.be v.means.should.be sd.means.should.be m.means <- mean(means) v.means <- var(means) m.means v.means sd.means <- sd(means) sd.means se <- sd.means.should.be se2 <- se*2 m.means - se2 m.means + se2 s1 <- rnorm(n, m.ca, sd.ca) mean(s1)
다음 주 수요일 (6주차 첫시간) 퀴즈 있습니다.
퀴즈 범위는
문서
동영상 시청
아래 두번째 그림은 population의 평균이 102 일 때
400명을 (1600명이 아니라) 샘플로 취했을 때의
샘플평균들의 집합을 그린것입니다.
##### mu.pop <- 100 sd.pop <- 10 set.seed(101) treated.group <- rnorm(16, 112, 10) treated.group m.tg <- mean(treated.group) m.tg # install.packages("BSDA") # library(BSDA) z.test(treated.group, mu=mu.pop, sigma.x=sd.pop) mu.pop <- 100 sd.pop <- 10 set.seed(100) treated.group.2 <- rnorm(16, 102, 10) treated.group.2 m.treated.group.2 <- mean(treated.group.2) m.treated.group.2 # install.packages("BSDA") # library(BSDA) z.test(treated.group.2, mu=mu.pop, sigma.x=sd.pop) set.seed(100) treated.group.2 <- rnorm(1600, 102, 10) treated.group.2 m.treated.group.2 <- mean(treated.group.2) m.treated.group.2 # install.packages("BSDA") # library(BSDA) z.test(treated.group.2, mu=mu.pop, sigma.x=sd.pop)
이번 주 동영상
또한 R에서 데이터를 (테이블 혹은 어레이) 이용하여 function을 적용하는 것에 대해서 잘 익혀두시기 바랍니다. 이는 R cookbook의 아래 내용에 해당이 됩니다 (특히 sapply, tapply, by 등)
Strings and Dates
7주차 동영상
Probability calculation in R ← Probability in R cookbook (텍스트북)
8주차 정기시험기간 중에 2차 퀴즈
시험기간
보강영상 수업
영상 ANOVA
위키페이지 참조
vene . . . go or come
intervene
convene
contravene
prevent
advent
circumvent
그룹 assignment week09
cookies.xlsx –> 2-way ANOVA test 계산해보기
repeated_measures_anova_eg.xlsx –> Repeated measure ANOVA 계산해보기 (Repeated Measure ANOVA 참조).
과제 첫 번째 문제는 Repeated measure ANOVA 입니다. Factorial ANOVA가 아닙니다.
patient drug1 drung2 drug3 1 30 28 16 2 14 18 10 3 24 20 18 4 38 34 20 5 26 28 14
edited
ms.23.ga.w09.anova
—-
?ToothGrowth
를 친 후에 이 데이터가 무엇에 관한 것인지 설명하세요. 10주차 동영상입니다.
see w10.lecture.note
동영상 (총 5 개)
—-
repeated measure ANOVA
correlation
regression
multiple regression
using dummy variables
getting started
basics
navigating in r
input output in r
data structures
data transformations
과제명: ms23.w11.ga.covariance.exercise
제출파일명: ms23.w11.ga.covariance.exercise.group##.odc (docx)
과제내용:
아래 데이터를 다운로드 받아서 두 변인 간의 상관관계계수를 구하시오.
income.happiness.csv
데이터는 수입과 행복을 측정한 것입니다. 실제 데이터를 살펴보고 R로 읽어 온 후에 R을 이용하여 아래를 구하시오. R에서의 명령어와 아웃풋을 카피/패이스트 하여 제출하시오 (fixed-font를 사용하여).
==
연산자를 이용하여 확인하시오)
May 22 (월), 24 (수)
w12.lecture.note
동영상 Regression
chi-square test
probability
general statistics
Graphics
May 29 (월), 31 (수)
May 31 (수)
6월 5일 (월) 세번째 퀴즈
퀴즈 범위는
처음부터 multiple regression까지
퀴즈 범위는
stats part
r part
r은 주로 아웃풋에 대한 질문이 있을 예정입니다. 오픈 북이니 모든 명령어 등을 외울 필요는 없습니다.
영상
June 5(월), 7(수)
영상보기
* https://youtu.be/AXMtT5cYpZ4 Factor Analysis
Including Dummy variables
dummy variable with R
interaction effects in regression analysis
sequential regression
beta coefficients
mediation analysis
June 12, 14
그룹 assignment: ms.23.ga.w15.multiple.regression.groupID
그룹의 아래의 두 개 중 하나를 택하여 수행하시오. 6월 19일까지 완성 (ABB)
library(ISLR)
후 ?College
June 19, 21 (퀴즈일자에만 퀴즈를 보고 수업은 없음)
Final-term