Differences

This shows you the differences between two versions of the page.

--- c:ms:2026:schedule:week06_t-test_and_anova_note [2026/04/06 13:45] – created hkimscil
+++ c:ms:2026:schedule:week06_t-test_and_anova_note [2026/04/19 23:02] (current) – hkimscil
@@ Line 1: / Line 1: @@
 see [[:anova note]]
+{{.:pasted:20260419-224025.png}}
+전국 고1학년 학생들의 방학 중 하루에 게임을 하는데 쓰는 시간은 140분이고 표준편차는 20분이라고 한다. 정민기학생은 미디어학과에서 만든 게임과관련된 교육프로그램을 이수하게 되면 게임에 쓰는 시간을 자제할 수 있게 된다고 생각하여 이를 검증하려고 한다.
+  * 이럴 경우 어떤 테스트를 해야 하는가? [[:t-test]] 참조하여 고르시오.
+만약에 이 교육프로그램의 (media education, me) 효과가 -10분이라고 가정하자. 즉, me를 이수한 모집단은 140분이 아닌 130분을 게임에 사용하게 된다고 가정하자. 그런 상태에서 민기학생은 50명을 probability 샘플링하여 me를 이수하도록 한 후, 이를 근거로 판단을 하기로 하였다.
+  * standard error값을 구하기 위해서 아래 r에서 스크립트를 작성하였다. 가 와 나를 쓰시오.
+민기학생은 95% Confidence Interval을 구하기로 하고 두개의 se값을 모집단의 평균값인 (m.p)에 빼고 더하여 구간을 구하였다. 그 구간은 아래 스크립트에서 보듯이 133.6754 에서 146.3246 구간이었다. 민기학생은 이를 그래프로 도식화하여 (distribution of sample means) 표시하였다 (위에 제시). 오른 쪽 그래프가 모집단 학생들의 처치전 평균시간이고 (140), 오른 쪽이 처치 후 평균시간이라고 한다. 점선은 처치하지 않은 모집단의 샘플평균의 95% Confidence Interval 이고 왼쪽이 133.6754, 오른 쪽이 146.3246 라고 한다.
+<code>
+> c(m.p+flag, m.p, m.p-flag)
+[1] 133.6754 140.0000 146.3246
+</code>
+그런데, 민기학생의 me를 받은 샘플의 평균은 134 분이었다.
+  * 이럴 경우 가설 검증은 어떻게 되겠는가?
+    * 가설검증에 성공한다.
+    * 가설검증에 실패한다.
+  * 위 판단에서 범할 수 있는 에러는 무엇인가 (type을 말하시오)
+민기학생은 만약에 가설검증에 실패하게 되는 경우 범할 수 있는 에러의 크기를 구해보려고 한다. 강사가 구할 수 없다고 하였지만, 민기학생은  me교육을 받은 모집단 학생들의 평균이 -10 분이라는 것을 알고 있으므로 이 에러를 구할 수 있다고 생각한다. 구체적으로 R에서 어떻게 구해야 하는가? 그래프를 보고 판단하여 구하는 방법을 제시하시오.
+  * pnorm(133.6754, 130, lower.tail=F)  혹은
+  * 1 - pnorm(133.6754, 130)
+민기학생은 이런 에러는 쉽게 극복할 수 있다고 생각한다. 어떤 방법이 가장 좋은가?
+  * probability sampling에 최선을 다한다.
+  * 샘플 숫자를 늘린다.
+<code>
+> m.p <- 140
+> sigma <- 20
+> e <- -10
+> m.pe <- m.p+e
+> n <- 40
+> se <- 가/ 나
+> paste(m.p, sigma, m.p+e, n, se)
+[1] "140 20 130 40 3.16227766016838"
+>
+> if(m.p>m.pe) {
++   left <- m.p+se*3
++   right <- m.pe-se*3
++   flag <- -2*se
++ } else {
++   left <- m.p-se*3
++   right <- m.pe+se*3
++   flag <- 2*se
++ }
+>
+> curve(dnorm(x, m.p, se), from = left, to = right,
++       main = "normalized distribution of sample means",
++       ylab = "Density", xlab = "z-value", col = "black", lwd = 2)
+> abline(v=m.p, col="black", lwd=2)
+> curve(dnorm(x, m.pe, se), from = left, to = right,
++       main = "normalized distribution of sample means",
++       ylab = "Density", xlab = "z-value", col = "blue", lwd = 2, add=T)
+> abline(v=m.p+e, col="blue", lwd=2)
+> abline(v=m.p+flag, col='red', lwd=2, lty=2)
+> abline(v=m.p-flag, col='red', lwd=2, lty=2)
+>
+> c(m.p+flag, m.p, m.p-flag)
+[1] 133.6754 140.0000 146.3246
+> c((m.p+e)-se*2, m.p+e, (m.p+e)+se*2)
+[1] 123.6754 130.0000 136.3246
+> q.05 <- (m.p)+flag
+> q.05
+[1] 133.6754
+> if(m.pe < m.p+flag) {
++   p.out <- 1 - pnorm(q.05, m.pe, se)
++ } else {
++   p.out <- pnorm(q.05, m.pe, se)
++ }
+> p.out
+[1] 0.1225613
+>
+> yrng <- (dnorm(m.p, m.p, se))
+> yrng
+[1] 0.1261566
+> text(x=q.05, y=yrng/2, labels=paste(" p.value for p2:", round(p.out,6),
++                                     "\n",
++                                     "decision line:", round(q.05,6)),
++      pos = 4, col='red')
+>
+</code>
+아래는 스트레스를 조절하는 treatment종류와 (처치종류), 나이가 (Age) 스트레스를 얼마나 줄여주는 지에 대한 연구를 진행한 결과이다.
+<code>
+> a.mod <- aov(StressReduction~Treatment*Age, data=stressdata)
+> summary(a.mod)
+              Df Sum Sq Mean Sq F value  Pr(>F)
+Treatment      2      b       9       h 0.00195 **
+Age            2      c      81       i   1e-09 ***
+Treatment:Age  a      0       f       j 1.00000
+Residuals     18      d       1
+Total         26      e       g
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+>
+</code>
+  * 연구에 사용된 treatment의 종류는 모두 몇가지인가?
+  * 연구에 참여한 사람들의 나이는 어떻게 분류되었는가?
+  * a
+  * b
+  * c
+  * d
+  * e
+  * f
+  * g
+  * h
+  * i
+  * j 값을 채우시오