{{description>types of error, 오류의 종류, 1종 오류, 2종 오류, type I error, type II error}}
{{keywords>types of error, 오류의 종류, 1종 오류, 2종 오류, type I error, type II error}}

이 예는 감자의 예랑은 방향이 달라서 안 맞으므로 머리가 좋아지는 약 혹은 XR을 이용해서 공부하는 방법으로 통계점수가 달라지는 가설을 생각한다. 모집단의 평균은 0이고 샘플사이즈에 따른 표준오차는 1 이 되는데, 내 샘플의 평균이 어디선가 발견되는 순간이다 (see [[:hypothesis_testing#eg01|Hypothesis testing example]] )


====== Types of error ======
<imgcaption fig1|Types of error>{{ :pasted:20200501-173355.png?600}}</imgcaption> 
요약
  * black line(bl): $\overline{x}=0, \text{sd}=1$ 의 distribution of sample means 곡선 (샘플링분포) = 영가설 Null Hypothesis = z test의 경우 내 테스트점수가 z score로 +- 2 안에 있는지 확인하고자 한다. 내가 알고 있는 모집단에서 구한 샘플링분포이다.
  * red line(rl):  $\overline{x}=3, \text{sd}=1$ 정규분포곡선 = 연구가설 Alternative Hypothesis = 대개는 알수 없지만 효과를 알아보려고 하는 모집단의 평균을 갖는 샘플링분포이다. 여기서는 표준점수로 3점으로 나타난다. 현실에서는 거의 알아낼 수 없는 점수이다. 
  * green line: 가설테스트를 했을 때 영가설을 부정하게 되는 기준 (sd=2).
  * 노란색 부분: type I error
  * 회색 부분: type II error

설명
  * H1: $\mu_{\text{black}} \neq \mu_{\text{red}} \;\;\; (0 \neq 3) $ 
  * H0: $\mu_{\text{black}} = \mu_{\text{red}} \;\;\; (0 = 3) $ 

  * H1: 새로운 약의 효과는 기존 약과 다를 것이다. 
  * H0: 새로운 약의 효과가 없을 것이다.

실제 현상이 (약의 효과가) 있는 것으로 가정하면 붉은 선이 현실이 된다. 그러나 연구자는 붉은 선은 가정을 할 뿐, 실제로는 알 수 없으며, 검은 선을 가지고 (즉 영가설을 가지고) 판단을 하게 된다. 이 때 판단의 기준은 녹색 선이며, 이는 SE 단위 둘을 사용한 .05를 가르킨다.

<WRAP classes #type_i_error width :language>**__Type I Error__**</WRAP>
가설검증을 위해서 녹색선을 사용하였을 때, //샘플의 평균이 노란색 부분에서 나타났다면//, 연구자는 이것이 영가설의 평균과 통계적으로 유의미한 차이를 나타내 주는 것이라고 생각한다. 따라서 영가설을 부정하고 연구가설을 지지하게 된다. 즉, 영가설은 거짓이며, 연구가설은 참이라고 결론을 내린다 (테이블에서 A). 만약에 사실은 이 평균이 검은색의 모집단에서 나온 것이라면 (즉, 영가설 집단에서 나온 것이라면 혹은 1/20의 샘플링 확률에 걸린 것이라면), 연구자는 영가설이 참, 연구가설이 거짓인 실제(reality)를 영가설이 거짓, 연구가설이 참으로 결론 지은 것이 된다 (B). 이렇게 잘못 결론지을 확률이 .05이다. 이를 type I error라고 부르며, 이는 연구자가 가설검증을 설계할 단계에 이를 미리 지정해 놓고 알고 있는 (감수하고 있는) 오차의 한계이다. 이것을 <wrap classes #alpha>알파</wrap>($\alpha$)라고도 부른다. 

<WRAP classes #type_ii_error width :language>**__Type II Error__**</WRAP>
그러나, 만약에 //샘플의 평균이 회색 부분의 선에서 나타났다면//, 연구자는 critical region을 넘지 못하였으므로 이것을 영가설의 모집단에서 나온 샘플의 평균으로 생각하게 된다. 따라서 영가설 부정에 실패하여, 연구가설을 지지하지 못하게 된다 (C). 그런데, 사실은 그 샘플의 평균이 붉은선의 모집단에서 나왔다고 한다면, 옳은 결론은 영가설은 거짓이어야 한다. 그런데, 이 가설검증에서 연구자는 영가설이 참, 따라서 연구가설은 거짓으로 잘못 진단한 것이다 (D). 이 범위를 type II error 혹은 베타($\beta$)라고 한다.

{{tabembedded>:types_of_error:code01|R script, types_of_error:output01|R output}}

아래는 고등학교2년생들의 방학중 하루에 게임에 쓰는 시간을 분으로 가정한 것이다. 모집단의 (population) 평균은 (m.p) 140 분이고, 표준편차값은 20이다 (sigma). 그리고 미디어교육을 받은 모집단을 가정하여 (현실에서 이런 일은 거의 이러나지 않는다) 이 모집단의 평균이 140에서 10분을 뺀 130분이라고 가정한다 (m.pe). 이제 n = 40 인 샘플을 취하여 그 샘플에게 미디어교육을 시킨 후, 효과를 검증하려고 한다. 

<tabbox rs.type.ii.error>
<code>
m.p <- 140
sigma <- 20
e <- -10
m.pe <- m.p+e
n <- 40
se <- sigma / sqrt(n)
paste(m.p, sigma, m.p+e, n, se)

if(m.p>m.pe) {
  left <- m.p+se*3
  right <- m.pe-se*3
  flag <- -2*se
} else {
  left <- m.p-se*3
  right <- m.pe+se*3
  flag <- 2*se
}

curve(dnorm(x, m.p, se), from = left, to = right, 
      main = "normalized distribution of sample means",
      ylab = "Density", xlab = "z-value", col = "black", lwd = 2)
abline(v=m.p, col="black", lwd=2)
curve(dnorm(x, m.pe, se), from = left, to = right, 
      main = "normalized distribution of sample means",
      ylab = "Density", xlab = "z-value", col = "blue", lwd = 2, add=T)
abline(v=m.p+e, col="blue", lwd=2)
abline(v=m.p+flag, col='red', lwd=2, lty=2)
abline(v=m.p-flag, col='red', lwd=2, lty=2)

c(m.p+flag, m.p, m.p-flag)
c((m.p+e)-se*2, m.p+e, (m.p+e)+se*2)
q.05 <- (m.p)+flag
q.05
if(m.pe < m.p+flag) {
  p.out <- 1 - pnorm(q.05, m.pe, se)
} else {
  p.out <- pnorm(q.05, m.pe, se)
}
p.out

yrng <- (dnorm(m.p, m.p, se))
yrng
text(x=q.05, y=yrng/2, labels=paste("decision line =", 
                                    '\n', round(q.05,6),
                                    '\n', "p-value (reference to", 
                                    '\n', "130) =", round(p.out,6)), 
     pos = 4, col='red')


</code>
<tabbox ro.type.ii.error>
<code>
> m.p <- 140
> sigma <- 20
> e <- -10
> m.pe <- m.p+e
> n <- 40
> se <- sigma / sqrt(n)
> paste(m.p, sigma, m.p+e, n, se)
[1] "140 20 130 40 3.16227766016838"
> 
> if(m.p>m.pe) {
+   left <- m.p+se*3
+   right <- m.pe-se*3
+   flag <- -2*se
+ } else {
+   left <- m.p-se*3
+   right <- m.pe+se*3
+   flag <- 2*se
+ }
> 
> curve(dnorm(x, m.p, se), from = left, to = right, 
+       main = "normalized distribution of sample means",
+       ylab = "Density", xlab = "z-value", col = "black", lwd = 2)
> abline(v=m.p, col="black", lwd=2)
> curve(dnorm(x, m.pe, se), from = left, to = right, 
+       main = "normalized distribution of sample means",
+       ylab = "Density", xlab = "z-value", col = "blue", lwd = 2, add=T)
> abline(v=m.p+e, col="blue", lwd=2)
> abline(v=m.p+flag, col='red', lwd=2, lty=2)
> abline(v=m.p-flag, col='red', lwd=2, lty=2)
> 
> c(m.p+flag, m.p, m.p-flag)
[1] 133.6754 140.0000 146.3246
> c((m.p+e)-se*2, m.p+e, (m.p+e)+se*2)
[1] 123.6754 130.0000 136.3246
> q.05 <- (m.p)+flag
> q.05
[1] 133.6754
> if(m.pe < m.p+flag) {
+   p.out <- 1 - pnorm(q.05, m.pe, se)
+ } else {
+   p.out <- pnorm(q.05, m.pe, se)
+ }
> p.out
[1] 0.1225613
> 
> yrng <- (dnorm(m.p, m.p, se))
> yrng
[1] 0.1261566
> text(x=q.05, y=yrng/2, labels=paste("decision line =", 
+                                     '\n', round(q.05,6),
+                                     '\n', "p-value (reference to", 
+                                     '\n', "130) =", round(p.out,6)), 
+      pos = 4, col='red')
>
</code>
</tabbox>
{{pasted:20260420-042828.png}}
n=40 샘플의 점수가 붉은 색 점선 사이에서 나오게 되면 가설검증에 실패하게 된다. 이 때 범할 수 있는 오류는 type ii error이다. 이 때 범할 수 있는 에러를 파란 색의 효과가 있는 모집단에 비교해서 생각하면 그 probability는 
  * ''pnorm(검증에실패하는점수, 130, se, lower.tail=F) = 0.123''
가 된다. 즉, 내가 얻은 점수가 p2 집단에서 나왔을 확률이 12.3%나 된다는 뜻이다. 이것은 내 판단이 (가설검증에 실패한다는 판단이) 잘못일 확률이 12.3%라는 뜻이다. 

{{pasted:20260420-042902.png}}
위의 그래프는 n = 40에서 n = 400으로 늘린 것이다. 이 때 가설 검증에 실패하는 구간을 정해놓고 내가 구한 샘플의 평균이 그 구간에 속하더라도, 이 점수가 p2에서 나왔을 확률이 0이 된다. 즉, 내가 내린 "가설검증 실패"라는 판단이 잘 못일 확률이 0이라는 뜻이다. 

{{pasted:20260420-043927.png}}
극단적으로 샘플의 크기가 10이라면 이 때의 se값이 상대적으로 크므로 (20/sqrt(10)) 두 그래프는 더욱 많이 겹치게 된다. 이럴 경우, 가설 검증에서 실패하여도, 그 점수가 p2에서 나왔을 확률은 33.7% 나 된다.


위의 설명은 아래 표와 같이 정리할 수 있다.

^  Table of \\ types of error  ^^  Null Hypothesis(H0)가  ^^
^  :::  ^^  Valid/True  ^  Invalid/False  ^
^ Null Hypothesis  \\ (H0)에 대한 판단  ^  Reject \\ (부정)  |  B: \\ Type I error \\ (alpha)  |  A: \\ 옳은 결정  |
^ :::  ^  Fail to reject \\ (부정에 실패)  |  C: \\ 옳은 결정  |  D: \\ Type II error \\ (beta)  |

알파의 경우는 연구자가 정하는 방법으로 컨트롤할 수 있다. 그러나, 베타의 경우는 알파와 같은 방법을 사용할 수는 없다. 베타를 줄이는, 즉 영가설이 거짓으로 부정을 해야하는데 그렇게 하지 못하는 경우를 줄이는 방법으로 상식, 보편적인 것은 샘플의 n을 키우는 것이다. 좀 더 설명하자면, 위의 그래프 <imgref fig1>에서 각각은 샘플링분포곡선을 의미하므로 각 라인의 표준편차는 표준오차를 의미한다. 표준오차가를 줄이게 되면 두 라인이 서로 겹쳐질 경우가 줄어들게 되고, 이는 곧 베타의 감소를 의미한다. 

<imgcaption fig1|standard error = 1 일 경우>{{:pasted:20200501-173355.png?300}}</imgcaption> 
<imgcaption fig2|standard error = 0.5 일 경우. 회색부분이 생길 가능성이 거의 없다는 것에 주목하라.>{{:pasted:20200501-184558.png?300}}</imgcaption> 


{{tag>"1종오류" "2종오류" "오류의 종류" "types of error" "type 1 error" "type 2 error"}}