Differences

This shows you the differences between two versions of the page.

--- t-test [2020/05/10 23:04] – [모집단의 평균만을 알고 있을 경우, 예] hkimscil
+++ t-test [2022/04/24 19:02] – [예 2] hkimscil
@@ Line 62: / Line 62: @@
 <WRAP info>
 그렇다면 이 감자 집단의 진짜 (그들만의 모집단) 평균은 어디일까?
-$ \displaystyle \pm t_{\alpha=.05}(399) = \pm 1.965927 = \frac {197 - \mu} {se} = \frac {197 - \mu} {\frac {20} {\sqrt{400}} } $
+$ \displaystyle \pm t_{\alpha=.05}(399) = \pm 1.965927 = \frac {197 - \mu} {se} = \frac {197 - \mu} {\frac {20} {\sqrt{400}} } = 197 - \mu $
 <code>
 qt(.05/2,399)
@@ Line 251: / Line 251: @@
 \end{eqnarray*}
 이 선언문을 (educated guess) 직접 테스트할 수는 없으므로, 이를 뒤집어서 영가설을 만든다.
-$$ \text{H0: } \;\; \overline{X} \;\; (=123) & = & \mu \;\;\; (=120)  $$
+\begin{eqnarray*}
-영가설은 [[:Central Limit Theorem|중심극한정리를]] (CLT) 이용하여, 모집단에 속한 임산부에서 취할 수 있는 샘플의 (n=15) 평균이 나올 수 있는 범위를 se를 구하여 알 수있고, 연구자의 샘플평균이 이 범위에서 나온다면, 포도주를 섭취하지 않은 평범한 샘플 중의 하나라고 판단할 수 있고, 이 범위 밖에서 나온다면 **__모집단에 속한 평범한 샘플이 아니라고 판단__**할 수 있게 된다.
+\text{H0: } \;\; \overline{X} \;\; (=123) & = & \mu \;\;\; (=120)  \\
+\end{eqnarray*}
+영가설은 [[:Central Limit Theorem|중심극한정리를]] (CLT) 이용하여, 모집단에 속한 임산부에서 취할 수 있는 샘플의 (n=15) 평균이 나올 수 있는 범위를 se를 구하여 알 수있고, 연구자의 샘플평균이 이 범위에서 나온다면, 포도주를 섭취하지 않은 평범한 샘플 중의 하나라고 판단할 수 있고, <fc #ff0000>이 범위 밖에서</fc> 나온다면 <fc #ff0000>모집단에 속한 평범한 샘플이 아니라고 판단</fc>할 수 있게 된다.
+t-test 일반에서 설명한 것처럼 이를 테스트하기 위해서는 <fc #008000>샘플평균과 모집단평균의 차이에</fc> <fc #ff0000>랜덤에러(표준오차)가</fc> <fc #00ff00>몇개나 들어가</fc>나 보아서 __2에 유사한 점수와__ ((t-test이므로 +-1.96(2)가 아닌, [[:t distribution table]]을 이용해서 판단한다)) 비교해 보려고 하는 것이다.
+아래는 이것을 R에서 확인해 보는 작업이다.
 <code>
+## 모집단의 평균값
 mu <- 120
+## 샘플들의 (n=15) 혈압 데이터
 bp <- c(131, 115, 118, 120, 126, 137,
 , 116, 117, 122, 123, 128,
 , 124, 133)
-m.bp <- mean(bp)
+m.bp <- mean(bp) ## 샘플평균
 m.bp
-sd.bp <- sd(bp)
+sd.bp <- sd(bp) ## 샘플표준편차
 sd.bp
-n.bp <- length(bp)
+n.bp <- length(bp) ## 샘플갯수
 n.bp
-diff <- m.bp-mu
+diff <- m.bp-mu ## 샘플-모집단 차이
-se.bp <- sd.bp/sqrt(n.bp)
+## 표준오차 = 샘플평균들의 표준편차
+## standard error = standard deviation of sample means
+## 즉, 랜덤에러
+se.bp <- sd.bp/sqrt(n.bp)
+## 차이를 랜덤에러로 나눈 값
 t.value <- diff/se.bp
 t.value
+## 우리가 비교해봐야 할 값
 qt(c(.025, .975), 14)
 </code>
+<code>
+> ## 모집단의 평균값
+> mu <- 120
+> ## 샘플들의 (n=15) 혈압 데이터
+> bp <- c(131, 115, 118, 120, 126, 137,
++         125, 116, 117, 122, 123, 128,
++         110, 124, 133)
+> m.bp <- mean(bp) ## 샘플평균
+> m.bp
+[1] 123
+> sd.bp <- sd(bp) ## 샘플표준편차
+> sd.bp
+[1] 7.329003
+> n.bp <- length(bp) ## 샘플갯수
+> n.bp
+[1] 15
+>
+> diff <- m.bp-mu ## 샘플-모집단 차이
+> ## 표준오차 = 샘플평균들의 표준편차
+> ## standard error = standard deviation of sample means
+> ## 즉, 랜덤에러
+> se.bp <- sd.bp/sqrt(n.bp)
+>
+> ## 차이를 랜덤에러로 나눈 값
+> t.value <- diff/se.bp
+> t.value
+[1] 1.585338
+>
+> ## 우리가 비교해봐야 할 값
+> qt(c(.025, .975), 14)
+[1] -2.144787  2.144787
+>
+</code>
+t.value가 (1.59) +-2.145점 안 쪽에 존재하므로 영가설을 부정할 수 없게 된다.
 ===== 두 집단 간의 평균과 표준편차만으로 판단하는 경우 =====
@@ Line 472: / Line 519: @@
 According to (1), $t_{cal}=3.844$ . Then what is the value of $df$ (case number-1)? = (16-1) = 15.
 When critical value = .05, $ t_{crit} = \pm{2.13} $
+==== 예 1 ====
 <code>
@@ Line 586: / Line 635: @@
 </code>
+==== 예 2 ====
+<code>
+# sample size = n
+n <- 36 # 36명이 있다
+# 이들이 평가한 네이버의 UI 점수는 76점이고
+# 이들이 시간을 두고 평가한 새로운 네이버의 UI는 80점이라고 하고.
+# 이 차이가 UI가 향상했다는 증거로 삼을 수 있는지 검증하고자 한다.
+n <- 36
+rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+set.seed(101)
+time1 <- rnorm2(n, 76, 5)
+time2 <- rnorm2(n, 80, 5)
+time1
+time2
+# 위에서 t1과 t2는 동일한 집단 (샘플)
+# 샘플의 평균이 다를 뿐
+time.diff <- time2 - time1
+mean.diff <- mean(time.diff)
+se.diff <- sd(time.diff)/sqrt(n)
+t.calc <- mean.diff/se.diff
+mean.diff
+se.diff
+t.calc
+# 위의 t calculated value를 t distribution table의 t값과 비교 (t critical value)
+# t.crit 값은 qt를 이용해서 구함
+t.crit <- qt(.975, 35) # n-1 = 35
+t.crit
+t.calc > t.crit
+# 위의 값이 true이므로 t2와 t1 간의 차이가 충분히 크다고 판단하여
+# naver의 UI 점수가 t2에서 좋아졌다고 검증한다.
+</code>
 ===== 가설테스트, 예 =====