see [[:anova note]]

{{.:pasted:20260419-224025.png}}

전국 고1학년 학생들의 방학 중 하루에 게임을 하는데 쓰는 시간은 140분이고 표준편차는 20분이라고 한다. 정민기학생은 미디어학과에서 만든 게임과관련된 교육프로그램을 이수하게 되면 게임에 쓰는 시간을 자제할 수 있게 된다고 생각하여 이를 검증하려고 한다. 

  * 이럴 경우 어떤 테스트를 해야 하는가? [[:t-test]] 참조하여 고르시오. 

만약에 이 교육프로그램의 (media education, me) 효과가 -10분이라고 가정하자. 즉, me를 이수한 모집단은 140분이 아닌 130분을 게임에 사용하게 된다고 가정하자. 그런 상태에서 민기학생은 50명을 probability 샘플링하여 me를 이수하도록 한 후, 이를 근거로 판단을 하기로 하였다. 

  * standard error값을 구하기 위해서 아래 r에서 스크립트를 작성하였다. 가 와 나를 쓰시오.

민기학생은 95% Confidence Interval을 구하기로 하고 두개의 se값을 모집단의 평균값인 (m.p)에 빼고 더하여 구간을 구하였다. 그 구간은 아래 스크립트에서 보듯이 133.6754 에서 146.3246 구간이었다. 민기학생은 이를 그래프로 도식화하여 (distribution of sample means) 표시하였다 (위에 제시). 오른 쪽 그래프가 모집단 학생들의 처치전 평균시간이고 (140), 오른 쪽이 처치 후 평균시간이라고 한다. 점선은 처치하지 않은 모집단의 샘플평균의 95% Confidence Interval 이고 왼쪽이 133.6754, 오른 쪽이 146.3246 라고 한다. 
<code>
> c(m.p+flag, m.p, m.p-flag)
[1] 133.6754 140.0000 146.3246
</code>

그런데, 민기학생의 me를 받은 샘플의 평균은 134 분이었다. 
  * 이럴 경우 가설 검증은 어떻게 되겠는가?
    * 가설검증에 성공한다.
    * 가설검증에 실패한다.

  * 위 판단에서 범할 수 있는 에러는 무엇인가 (type을 말하시오) 

민기학생은 만약에 가설검증에 실패하게 되는 경우 범할 수 있는 에러의 크기를 구해보려고 한다. 강사가 구할 수 없다고 하였지만, 민기학생은  me교육을 받은 모집단 학생들의 평균이 -10 분이라는 것을 알고 있으므로 이 에러를 구할 수 있다고 생각한다. 구체적으로 R에서 어떻게 구해야 하는가? 그래프를 보고 판단하여 구하는 방법을 제시하시오.

  * pnorm(133.6754, 130, lower.tail=F)  혹은 
  * 1 - pnorm(133.6754, 130)

민기학생은 이런 에러는 쉽게 극복할 수 있다고 생각한다. 어떤 방법이 가장 좋은가?

  * probability sampling에 최선을 다한다.
  * 샘플 숫자를 늘린다.


<code>
> m.p <- 140
> sigma <- 20
> e <- -10
> m.pe <- m.p+e
> n <- 40
> se <- 가/ 나
> paste(m.p, sigma, m.p+e, n, se)
[1] "140 20 130 40 3.16227766016838"
> 
> if(m.p>m.pe) {
+   left <- m.p+se*3
+   right <- m.pe-se*3
+   flag <- -2*se
+ } else {
+   left <- m.p-se*3
+   right <- m.pe+se*3
+   flag <- 2*se
+ }
> 
> curve(dnorm(x, m.p, se), from = left, to = right, 
+       main = "normalized distribution of sample means",
+       ylab = "Density", xlab = "z-value", col = "black", lwd = 2)
> abline(v=m.p, col="black", lwd=2)
> curve(dnorm(x, m.pe, se), from = left, to = right, 
+       main = "normalized distribution of sample means",
+       ylab = "Density", xlab = "z-value", col = "blue", lwd = 2, add=T)
> abline(v=m.p+e, col="blue", lwd=2)
> abline(v=m.p+flag, col='red', lwd=2, lty=2)
> abline(v=m.p-flag, col='red', lwd=2, lty=2)
> 
> c(m.p+flag, m.p, m.p-flag)
[1] 133.6754 140.0000 146.3246
> c((m.p+e)-se*2, m.p+e, (m.p+e)+se*2)
[1] 123.6754 130.0000 136.3246
> q.05 <- (m.p)+flag
> q.05
[1] 133.6754
> if(m.pe < m.p+flag) {
+   p.out <- 1 - pnorm(q.05, m.pe, se)
+ } else {
+   p.out <- pnorm(q.05, m.pe, se)
+ }
> p.out
[1] 0.1225613
> 
> yrng <- (dnorm(m.p, m.p, se))
> yrng
[1] 0.1261566
> text(x=q.05, y=yrng/2, labels=paste(" p.value for p2:", round(p.out,6), 
+                                     "\n", 
+                                     "decision line:", round(q.05,6)), 
+      pos = 4, col='red')
>
</code>

아래는 스트레스를 조절하는 treatment종류와 (처치종류), 나이가 (Age) 스트레스를 얼마나 줄여주는 지에 대한 연구를 진행한 결과이다. 
<code>
> a.mod <- aov(StressReduction~Treatment*Age, data=stressdata)
> summary(a.mod)
              Df Sum Sq Mean Sq F value  Pr(>F)    
Treatment      2      b       9       h 0.00195 ** 
Age            2      c      81       i   1e-09 ***
Treatment:Age  a      0       f       j 1.00000    
Residuals     18      d       1                    
Total         26      e       g
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> 
</code>
  * 연구에 사용된 treatment의 종류는 모두 몇가지인가?
  * 연구에 참여한 사람들의 나이는 어떻게 분류되었는가?
  * a
  * b
  * c
  * d
  * e
  * f
  * g
  * h
  * i
  * j 값을 채우시오