see [[:anova note]] {{.:pasted:20260419-224025.png}} 전국 고1학년 학생들의 방학 중 하루에 게임을 하는데 쓰는 시간은 140분이고 표준편차는 20분이라고 한다. 정민기학생은 미디어학과에서 만든 게임과관련된 교육프로그램을 이수하게 되면 게임에 쓰는 시간을 자제할 수 있게 된다고 생각하여 이를 검증하려고 한다. * 이럴 경우 어떤 테스트를 해야 하는가? [[:t-test]] 참조하여 고르시오. 만약에 이 교육프로그램의 (media education, me) 효과가 -10분이라고 가정하자. 즉, me를 이수한 모집단은 140분이 아닌 130분을 게임에 사용하게 된다고 가정하자. 그런 상태에서 민기학생은 50명을 probability 샘플링하여 me를 이수하도록 한 후, 이를 근거로 판단을 하기로 하였다. * standard error값을 구하기 위해서 아래 r에서 스크립트를 작성하였다. 가 와 나를 쓰시오. 민기학생은 95% Confidence Interval을 구하기로 하고 두개의 se값을 모집단의 평균값인 (m.p)에 빼고 더하여 구간을 구하였다. 그 구간은 아래 스크립트에서 보듯이 133.6754 에서 146.3246 구간이었다. 민기학생은 이를 그래프로 도식화하여 (distribution of sample means) 표시하였다 (위에 제시). 오른 쪽 그래프가 모집단 학생들의 처치전 평균시간이고 (140), 오른 쪽이 처치 후 평균시간이라고 한다. 점선은 처치하지 않은 모집단의 샘플평균의 95% Confidence Interval 이고 왼쪽이 133.6754, 오른 쪽이 146.3246 라고 한다. > c(m.p+flag, m.p, m.p-flag) [1] 133.6754 140.0000 146.3246 그런데, 민기학생의 me를 받은 샘플의 평균은 134 분이었다. * 이럴 경우 가설 검증은 어떻게 되겠는가? * 가설검증에 성공한다. * 가설검증에 실패한다. * 위 판단에서 범할 수 있는 에러는 무엇인가 (type을 말하시오) 민기학생은 만약에 가설검증에 실패하게 되는 경우 범할 수 있는 에러의 크기를 구해보려고 한다. 강사가 구할 수 없다고 하였지만, 민기학생은 me교육을 받은 모집단 학생들의 평균이 -10 분이라는 것을 알고 있으므로 이 에러를 구할 수 있다고 생각한다. 구체적으로 R에서 어떻게 구해야 하는가? 그래프를 보고 판단하여 구하는 방법을 제시하시오. * pnorm(133.6754, 130, lower.tail=F) 혹은 * 1 - pnorm(133.6754, 130) 민기학생은 이런 에러는 쉽게 극복할 수 있다고 생각한다. 어떤 방법이 가장 좋은가? * probability sampling에 최선을 다한다. * 샘플 숫자를 늘린다. > m.p <- 140 > sigma <- 20 > e <- -10 > m.pe <- m.p+e > n <- 40 > se <- 가/ 나 > paste(m.p, sigma, m.p+e, n, se) [1] "140 20 130 40 3.16227766016838" > > if(m.p>m.pe) { + left <- m.p+se*3 + right <- m.pe-se*3 + flag <- -2*se + } else { + left <- m.p-se*3 + right <- m.pe+se*3 + flag <- 2*se + } > > curve(dnorm(x, m.p, se), from = left, to = right, + main = "normalized distribution of sample means", + ylab = "Density", xlab = "z-value", col = "black", lwd = 2) > abline(v=m.p, col="black", lwd=2) > curve(dnorm(x, m.pe, se), from = left, to = right, + main = "normalized distribution of sample means", + ylab = "Density", xlab = "z-value", col = "blue", lwd = 2, add=T) > abline(v=m.p+e, col="blue", lwd=2) > abline(v=m.p+flag, col='red', lwd=2, lty=2) > abline(v=m.p-flag, col='red', lwd=2, lty=2) > > c(m.p+flag, m.p, m.p-flag) [1] 133.6754 140.0000 146.3246 > c((m.p+e)-se*2, m.p+e, (m.p+e)+se*2) [1] 123.6754 130.0000 136.3246 > q.05 <- (m.p)+flag > q.05 [1] 133.6754 > if(m.pe < m.p+flag) { + p.out <- 1 - pnorm(q.05, m.pe, se) + } else { + p.out <- pnorm(q.05, m.pe, se) + } > p.out [1] 0.1225613 > > yrng <- (dnorm(m.p, m.p, se)) > yrng [1] 0.1261566 > text(x=q.05, y=yrng/2, labels=paste(" p.value for p2:", round(p.out,6), + "\n", + "decision line:", round(q.05,6)), + pos = 4, col='red') > 아래는 스트레스를 조절하는 treatment종류와 (처치종류), 나이가 (Age) 스트레스를 얼마나 줄여주는 지에 대한 연구를 진행한 결과이다. > a.mod <- aov(StressReduction~Treatment*Age, data=stressdata) > summary(a.mod) Df Sum Sq Mean Sq F value Pr(>F) Treatment 2 b 9 h 0.00195 ** Age 2 c 81 i 1e-09 *** Treatment:Age a 0 f j 1.00000 Residuals 18 d 1 Total 26 e g --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > * 연구에 사용된 treatment의 종류는 모두 몇가지인가? * 연구에 참여한 사람들의 나이는 어떻게 분류되었는가? * a * b * c * d * e * f * g * h * i * j 값을 채우시오