{{description>types of error, 오류의 종류, 1종 오류, 2종 오류, type I error, type II error}} {{keywords>types of error, 오류의 종류, 1종 오류, 2종 오류, type I error, type II error}} 이 예는 감자의 예랑은 방향이 달라서 안 맞으므로 머리가 좋아지는 약 혹은 XR을 이용해서 공부하는 방법으로 통계점수가 달라지는 가설을 생각한다. 모집단의 평균은 0이고 샘플사이즈에 따른 표준오차는 1 이 되는데, 내 샘플의 평균이 어디선가 발견되는 순간이다 (see [[:hypothesis_testing#eg01|Hypothesis testing example]] ) ====== Types of error ====== {{ :pasted:20200501-173355.png?600}} 요약 * black line(bl): $\overline{x}=0, \text{sd}=1$ 의 distribution of sample means 곡선 (샘플링분포) = 영가설 Null Hypothesis = z test의 경우 내 테스트점수가 z score로 +- 2 안에 있는지 확인하고자 한다. 내가 알고 있는 모집단에서 구한 샘플링분포이다. * red line(rl): $\overline{x}=3, \text{sd}=1$ 정규분포곡선 = 연구가설 Alternative Hypothesis = 대개는 알수 없지만 효과를 알아보려고 하는 모집단의 평균을 갖는 샘플링분포이다. 여기서는 표준점수로 3점으로 나타난다. 현실에서는 거의 알아낼 수 없는 점수이다. * green line: 가설테스트를 했을 때 영가설을 부정하게 되는 기준 (sd=2). * 노란색 부분: type I error * 회색 부분: type II error 설명 * H1: $\mu_{\text{black}} \neq \mu_{\text{red}} \;\;\; (0 \neq 3) $ * H0: $\mu_{\text{black}} = \mu_{\text{red}} \;\;\; (0 = 3) $ * H1: 새로운 약의 효과는 기존 약과 다를 것이다. * H0: 새로운 약의 효과가 없을 것이다. 실제 현상이 (약의 효과가) 있는 것으로 가정하면 붉은 선이 현실이 된다. 그러나 연구자는 붉은 선은 가정을 할 뿐, 실제로는 알 수 없으며, 검은 선을 가지고 (즉 영가설을 가지고) 판단을 하게 된다. 이 때 판단의 기준은 녹색 선이며, 이는 SE 단위 둘을 사용한 .05를 가르킨다. **__Type I Error__** 가설검증을 위해서 녹색선을 사용하였을 때, //샘플의 평균이 노란색 부분에서 나타났다면//, 연구자는 이것이 영가설의 평균과 통계적으로 유의미한 차이를 나타내 주는 것이라고 생각한다. 따라서 영가설을 부정하고 연구가설을 지지하게 된다. 즉, 영가설은 거짓이며, 연구가설은 참이라고 결론을 내린다 (테이블에서 A). 만약에 사실은 이 평균이 검은색의 모집단에서 나온 것이라면 (즉, 영가설 집단에서 나온 것이라면 혹은 1/20의 샘플링 확률에 걸린 것이라면), 연구자는 영가설이 참, 연구가설이 거짓인 실제(reality)를 영가설이 거짓, 연구가설이 참으로 결론 지은 것이 된다 (B). 이렇게 잘못 결론지을 확률이 .05이다. 이를 type I error라고 부르며, 이는 연구자가 가설검증을 설계할 단계에 이를 미리 지정해 놓고 알고 있는 (감수하고 있는) 오차의 한계이다. 이것을 알파($\alpha$)라고도 부른다. **__Type II Error__** 그러나, 만약에 //샘플의 평균이 회색 부분의 선에서 나타났다면//, 연구자는 critical region을 넘지 못하였으므로 이것을 영가설의 모집단에서 나온 샘플의 평균으로 생각하게 된다. 따라서 영가설 부정에 실패하여, 연구가설을 지지하지 못하게 된다 (C). 그런데, 사실은 그 샘플의 평균이 붉은선의 모집단에서 나왔다고 한다면, 옳은 결론은 영가설은 거짓이어야 한다. 그런데, 이 가설검증에서 연구자는 영가설이 참, 따라서 연구가설은 거짓으로 잘못 진단한 것이다 (D). 이 범위를 type II error 혹은 베타($\beta$)라고 한다. {{tabembedded>:types_of_error:code01|R script, types_of_error:output01|R output}} 아래는 고등학교2년생들의 방학중 하루에 게임에 쓰는 시간을 분으로 가정한 것이다. 모집단의 (population) 평균은 (m.p) 140 분이고, 표준편차값은 20이다 (sigma). 그리고 미디어교육을 받은 모집단을 가정하여 (현실에서 이런 일은 거의 이러나지 않는다) 이 모집단의 평균이 140에서 10분을 뺀 130분이라고 가정한다 (m.pe). 이제 n = 40 인 샘플을 취하여 그 샘플에게 미디어교육을 시킨 후, 효과를 검증하려고 한다. m.p <- 140 sigma <- 20 e <- -10 m.pe <- m.p+e n <- 40 se <- sigma / sqrt(n) paste(m.p, sigma, m.p+e, n, se) if(m.p>m.pe) { left <- m.p+se*3 right <- m.pe-se*3 flag <- -2*se } else { left <- m.p-se*3 right <- m.pe+se*3 flag <- 2*se } curve(dnorm(x, m.p, se), from = left, to = right, main = "normalized distribution of sample means", ylab = "Density", xlab = "z-value", col = "black", lwd = 2) abline(v=m.p, col="black", lwd=2) curve(dnorm(x, m.pe, se), from = left, to = right, main = "normalized distribution of sample means", ylab = "Density", xlab = "z-value", col = "blue", lwd = 2, add=T) abline(v=m.p+e, col="blue", lwd=2) abline(v=m.p+flag, col='red', lwd=2, lty=2) abline(v=m.p-flag, col='red', lwd=2, lty=2) c(m.p+flag, m.p, m.p-flag) c((m.p+e)-se*2, m.p+e, (m.p+e)+se*2) q.05 <- (m.p)+flag q.05 if(m.pe < m.p+flag) { p.out <- 1 - pnorm(q.05, m.pe, se) } else { p.out <- pnorm(q.05, m.pe, se) } p.out yrng <- (dnorm(m.p, m.p, se)) yrng text(x=q.05, y=yrng/2, labels=paste("decision line =", '\n', round(q.05,6), '\n', "p-value (reference to", '\n', "130) =", round(p.out,6)), pos = 4, col='red') > m.p <- 140 > sigma <- 20 > e <- -10 > m.pe <- m.p+e > n <- 40 > se <- sigma / sqrt(n) > paste(m.p, sigma, m.p+e, n, se) [1] "140 20 130 40 3.16227766016838" > > if(m.p>m.pe) { + left <- m.p+se*3 + right <- m.pe-se*3 + flag <- -2*se + } else { + left <- m.p-se*3 + right <- m.pe+se*3 + flag <- 2*se + } > > curve(dnorm(x, m.p, se), from = left, to = right, + main = "normalized distribution of sample means", + ylab = "Density", xlab = "z-value", col = "black", lwd = 2) > abline(v=m.p, col="black", lwd=2) > curve(dnorm(x, m.pe, se), from = left, to = right, + main = "normalized distribution of sample means", + ylab = "Density", xlab = "z-value", col = "blue", lwd = 2, add=T) > abline(v=m.p+e, col="blue", lwd=2) > abline(v=m.p+flag, col='red', lwd=2, lty=2) > abline(v=m.p-flag, col='red', lwd=2, lty=2) > > c(m.p+flag, m.p, m.p-flag) [1] 133.6754 140.0000 146.3246 > c((m.p+e)-se*2, m.p+e, (m.p+e)+se*2) [1] 123.6754 130.0000 136.3246 > q.05 <- (m.p)+flag > q.05 [1] 133.6754 > if(m.pe < m.p+flag) { + p.out <- 1 - pnorm(q.05, m.pe, se) + } else { + p.out <- pnorm(q.05, m.pe, se) + } > p.out [1] 0.1225613 > > yrng <- (dnorm(m.p, m.p, se)) > yrng [1] 0.1261566 > text(x=q.05, y=yrng/2, labels=paste("decision line =", + '\n', round(q.05,6), + '\n', "p-value (reference to", + '\n', "130) =", round(p.out,6)), + pos = 4, col='red') > {{pasted:20260420-042828.png}} n=40 샘플의 점수가 붉은 색 점선 사이에서 나오게 되면 가설검증에 실패하게 된다. 이 때 범할 수 있는 오류는 type ii error이다. 이 때 범할 수 있는 에러를 파란 색의 효과가 있는 모집단에 비교해서 생각하면 그 probability는 * ''pnorm(검증에실패하는점수, 130, se, lower.tail=F) = 0.123'' 가 된다. 즉, 내가 얻은 점수가 p2 집단에서 나왔을 확률이 12.3%나 된다는 뜻이다. 이것은 내 판단이 (가설검증에 실패한다는 판단이) 잘못일 확률이 12.3%라는 뜻이다. {{pasted:20260420-042902.png}} 위의 그래프는 n = 40에서 n = 400으로 늘린 것이다. 이 때 가설 검증에 실패하는 구간을 정해놓고 내가 구한 샘플의 평균이 그 구간에 속하더라도, 이 점수가 p2에서 나왔을 확률이 0이 된다. 즉, 내가 내린 "가설검증 실패"라는 판단이 잘 못일 확률이 0이라는 뜻이다. {{pasted:20260420-043927.png}} 극단적으로 샘플의 크기가 10이라면 이 때의 se값이 상대적으로 크므로 (20/sqrt(10)) 두 그래프는 더욱 많이 겹치게 된다. 이럴 경우, 가설 검증에서 실패하여도, 그 점수가 p2에서 나왔을 확률은 33.7% 나 된다. 위의 설명은 아래 표와 같이 정리할 수 있다. ^ Table of \\ types of error ^^ Null Hypothesis(H0)가 ^^ ^ ::: ^^ Valid/True ^ Invalid/False ^ ^ Null Hypothesis \\ (H0)에 대한 판단 ^ Reject \\ (부정) | B: \\ Type I error \\ (alpha) | A: \\ 옳은 결정 | ^ ::: ^ Fail to reject \\ (부정에 실패) | C: \\ 옳은 결정 | D: \\ Type II error \\ (beta) | 알파의 경우는 연구자가 정하는 방법으로 컨트롤할 수 있다. 그러나, 베타의 경우는 알파와 같은 방법을 사용할 수는 없다. 베타를 줄이는, 즉 영가설이 거짓으로 부정을 해야하는데 그렇게 하지 못하는 경우를 줄이는 방법으로 상식, 보편적인 것은 샘플의 n을 키우는 것이다. 좀 더 설명하자면, 위의 그래프 에서 각각은 샘플링분포곡선을 의미하므로 각 라인의 표준편차는 표준오차를 의미한다. 표준오차가를 줄이게 되면 두 라인이 서로 겹쳐질 경우가 줄어들게 되고, 이는 곧 베타의 감소를 의미한다. {{:pasted:20200501-173355.png?300}} {{:pasted:20200501-184558.png?300}} {{tag>"1종오류" "2종오류" "오류의 종류" "types of error" "type 1 error" "type 2 error"}}