User Tools

Site Tools


hypothesis_testing

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
hypothesis_testing [2020/04/20 20:40] – [z test] hkimscilhypothesis_testing [2023/11/27 07:25] (current) – [가설검증] hkimscil
Line 1: Line 1:
-====== Hypothesis testing ======+====== 측정수준과 관련된 가설검증 이야기 ======
 가설에는 차이와 관련을 나타내는 것이 있다고 하였다 ([[Hypothesis]] 참조). 가설에 나타나는 IV 와 DV 가 어떻게 측정(measure)이 되었는가에 따라서 차이와 관련의 가설로 나누게 된다. 아래 가설들은 각각의 변인(독립, 종속변인)들이 어떻게 측정되었는가에 따라서 예를 들기 위해 만들어진 것이다.  가설에는 차이와 관련을 나타내는 것이 있다고 하였다 ([[Hypothesis]] 참조). 가설에 나타나는 IV 와 DV 가 어떻게 측정(measure)이 되었는가에 따라서 차이와 관련의 가설로 나누게 된다. 아래 가설들은 각각의 변인(독립, 종속변인)들이 어떻게 측정되었는가에 따라서 예를 들기 위해 만들어진 것이다. 
  
Line 85: Line 85:
  
  
-====== Hypothesis testing ======+====== 가설검증 ====== 
 +Hypothesis testing.
 Hypothesis test란, 샘플을 이용한 통계학 방법을 가르키는 말로서, 모집단의 성격에 대한 가설을 평가하는 작업을 말한다. Hypothesis test란, 샘플을 이용한 통계학 방법을 가르키는 말로서, 모집단의 성격에 대한 가설을 평가하는 작업을 말한다.
  
Line 95: Line 96:
 가설은 대개 위와 같이 현 상태를 진단하기 위해서 세워지기 보다는 약품, 방법, 처치 등의 (일종의) 자극의 효과를 알아보기 위해서 세워지는 경우가 많다.  가설은 대개 위와 같이 현 상태를 진단하기 위해서 세워지기 보다는 약품, 방법, 처치 등의 (일종의) 자극의 효과를 알아보기 위해서 세워지는 경우가 많다. 
  
-가령 예를 들면, 어느 시간 강사가 강의에 사용하는 wiki의 효과를 측정해 보기 위해서 가설 테스트(hypothesis testing)를 하는 것이다. 즉, 강사의 wiki 사용(treatment)으로 학생들의 학습효과가 높아 졌는가를 확인(test)하기 위해서 wiki를 사용한 그룹(mean=?)과 사용하지 않은 그룹 (mean=50)간의 차이를 확인해 보는 것이다 (이를 위해서 강사는 16명의 샘플을 구하였고 이들의 성적 평균을 60점이었다고 가정을 하자). 위의 예에서 연구자는 wiki를 사용한 그룹의 평균이 wiki를 사용치 않은 그룹과 다르다는 것을 선언하고 이것이 통계적으로 의미가 있는가를 진단하고 결정하는 것이다. +가령 예를 들면, 어느 시간 강사가 강의에 사용하는 wiki의 효과를 측정해 보기 위해서 가설 테스트(hypothesis testing)를 하는 것이다. 즉, 강사의 wiki 사용(treatment)으로 학생들의 학습효과가 높아 졌는가를 확인(test)하기 위해서 wiki를 사용한 그룹(mean=?)과 사용하지 않은 그룹 (mean=50, sd=10)간의 차이를 확인해 보는 것이다 (이를 위해서 강사는 16명의 샘플을 구하였고 이들의 성적 평균을 60점이었다고 가정을 하자). 위의 예에서 연구자는 wiki를 사용한 그룹의 평균이 wiki를 사용치 않은 그룹과 다르다는 것을 선언하고 이것이 통계적으로 의미가 있는가를 진단하고 결정하는 것이다. 
  
 {{:pasted:20200420-194734.png?400}} {{:pasted:20200420-194734.png?400}}
Line 103: Line 104:
 연구자는 wiki를 사용하여 한 학기의 수업을 한 후에 같은 종류의 테스트를 wiki사용자들에게 하여, 이들의 평균이 wiki를 사용하지 않는 평범한 학생들의 성적과 차이가 있음을 밝힌다면, 가설검증이 성공된다.  연구자는 wiki를 사용하여 한 학기의 수업을 한 후에 같은 종류의 테스트를 wiki사용자들에게 하여, 이들의 평균이 wiki를 사용하지 않는 평범한 학생들의 성적과 차이가 있음을 밝힌다면, 가설검증이 성공된다. 
  
-{{anchor:null_hypothesis}} 이를 위해서 흔히 연구자는 **null hypothesis**를 세우게 되는데, 이것은 아래와 같이 나타낸다.+<wrap #null_hypothesis /> 이를 위해서 흔히 연구자는 **null hypothesis**를 세우게 되는데, 이것은 아래와 같이 나타낸다.
  
-$\displaystyle  \text{H(0): } \mu_{\text{student with wiki}} = 50 $+$\displaystyle  \text{H(0): } \overline{X}_{\text{student with wiki}} = \mu \;\;\; \text{where } \mu = 50 $
  
 즉, $ \text{H(0):} $ 는 wiki의 사용에도 불구하고 학생들의 성적이 일반 성적인 50점에 머문다는 것을 선언하는 것이다. 다시 말하면, $ \text{H(0):} $ 는 변화가 없음, 차이가 없음, 관계가 없음을 나타내는 선언문이다. 이를 풀어서 말하자면, wiki라는 independent variable(teatment)가 학생들의 실력(dependent variable)에 아무 효과가 없다(no effects)는 것을 나타낸다.  즉, $ \text{H(0):} $ 는 wiki의 사용에도 불구하고 학생들의 성적이 일반 성적인 50점에 머문다는 것을 선언하는 것이다. 다시 말하면, $ \text{H(0):} $ 는 변화가 없음, 차이가 없음, 관계가 없음을 나타내는 선언문이다. 이를 풀어서 말하자면, wiki라는 independent variable(teatment)가 학생들의 실력(dependent variable)에 아무 효과가 없다(no effects)는 것을 나타낸다. 
 +
 +위의 영가설은 정확한 의미에서 내 샘플이 50점 모집단에서 나오지 않았다는, 즉 모집단에 속한 샘플이 아니라 다른 집단에 (존재하지는 않지만 위키를 사용해서 성적이 다른 모집단) 속한다는 뜻이다. 
 +
 +$\displaystyle  \text{H(0): } \overline{X}_{\text{student with wiki}} \subseteq \mu \;\;\; \text{where } \mu = 50 $
  
 alternative hypothesis 혹은 research hypothesis는 위의 $ \text{H(0):} $ 를 반대로 선언하는 것을 말한다. 위의 예를 계속 사용하자면,  alternative hypothesis 혹은 research hypothesis는 위의 $ \text{H(0):} $ 를 반대로 선언하는 것을 말한다. 위의 예를 계속 사용하자면, 
  
-$\text{H(1): } \mu_{\text{student with wiki}} \neq 50 $+$\text{H(1): } \overline{X}_{\text{student with wiki}} \neq \mu $ 
 +$\text{H(1): } \overline{X}_{\text{student with wiki}} \not\subseteq \mu  $
  
 라고 선언하는 것을 말한다. 위의 선언문은 treatment인 wiki가 효과가 있다는 것을 의미한다. 단, 이 선언에서 주의해서 봐야 할 점은 wiki가 점수를 올리거나 내린다는 선언을 한 것은 아니라는 점이다. 단지 일반 population과 다를 것이라는 점만을 선언하였다 ((만약에 연구자가 wiki의 사용이 학생들의 성적을 올릴 것을 확신한다면, $\text{H(1)}$ 는 다음과 같이 같이 바뀌어야 한다. $\text{H(1): } \mu_{\text{student with wiki}} > 50 $ 이런 종류의 research hypothesis 를 directional hypothesis라고 한다. 당분간은 이와 같은 directional hypothesis는 다루지 않겠다.)) 라고 선언하는 것을 말한다. 위의 선언문은 treatment인 wiki가 효과가 있다는 것을 의미한다. 단, 이 선언에서 주의해서 봐야 할 점은 wiki가 점수를 올리거나 내린다는 선언을 한 것은 아니라는 점이다. 단지 일반 population과 다를 것이라는 점만을 선언하였다 ((만약에 연구자가 wiki의 사용이 학생들의 성적을 올릴 것을 확신한다면, $\text{H(1)}$ 는 다음과 같이 같이 바뀌어야 한다. $\text{H(1): } \mu_{\text{student with wiki}} > 50 $ 이런 종류의 research hypothesis 를 directional hypothesis라고 한다. 당분간은 이와 같은 directional hypothesis는 다루지 않겠다.))
Line 124: Line 130:
   * 그런데, 이 특정한 샘플의 평균은 60점이다. 이 점수가 의미하는 것은 두 가지이다.    * 그런데, 이 특정한 샘플의 평균은 60점이다. 이 점수가 의미하는 것은 두 가지이다. 
     * 첫 째는 100중 95는 샘플의 평균이 45에서 55에서 나와야 하는데, 이 번 샘플은 이 확률에 걸리지 않은 특이한 케이스이다. 즉, 나머지 5%의 확률에 걸려 60점이라는 점수가 나왔다. 이는 위키의 효과가 없었음을 가정하고, 그럼에도 불구하고, 특이하게 높은 점수가 나왔다고 주장하는 것이 된다. 그러나, 이 주장의 확률은 5%에 불과하다.     * 첫 째는 100중 95는 샘플의 평균이 45에서 55에서 나와야 하는데, 이 번 샘플은 이 확률에 걸리지 않은 특이한 케이스이다. 즉, 나머지 5%의 확률에 걸려 60점이라는 점수가 나왔다. 이는 위키의 효과가 없었음을 가정하고, 그럼에도 불구하고, 특이하게 높은 점수가 나왔다고 주장하는 것이 된다. 그러나, 이 주장의 확률은 5%에 불과하다.
-    * 다른 하나는, 이 위키 샘플이 평범한 학생의 샘플이 아니다. 즉, N(50, 10)의 모집단에서 추출되는 그런 샘플이 아닌, 특별한 샘플이기에 학생들의 평균이 높은 것이다. 이를 알기 쉽게 이야기하면 오른 쪽 빨간 집단에 속하는 학생이기에 그런 점수가 나온 것이다. 이것이 의미하는 것은 위키를 이용한 학생은 평범한 모집단에 속하지 않는다는 것을 말하는데, 이는 곧 위키의 효과가 있다는 것을 주장하는 것이 된다. 그런데, 이 주장이 맞을 확률이 이 전과 같이 5%가 아닌, 95%이다. 따라서, 후자를 택하는 것이 더 안전한 결론이 된다. 이는 곧 영가설을 부정하고 (위키가 효과가 없다는 것), 연구가설을 채택하는 것이 된다. **이로써 우리는 연구가설을 검증한 것이 된다**.+    * 다른 하나는, 이 위키 샘플이 평범한 학생의 샘플이 아니다. 즉, $\overline{X} \sim N(50, 100)$의 모집단에서 추출되는 그런 샘플이 아닌, 특별한 샘플이기에 학생들의 평균이 높은 것이다. 이를 알기 쉽게 이야기하면 오른 쪽 빨간 집단에 속하는 학생이기에 그런 점수가 나온 것이다. 이것이 의미하는 것은 위키를 이용한 학생은 평범한 모집단에 속하지 않는다는 것을 말하는데, 이는 곧 위키의 효과가 있다는 것을 주장하는 것이 된다. 그런데, 이 주장이 맞을 확률이 이 전과 같이 5%가 아닌, 95%이다. 따라서, 후자를 택하는 것이 더 안전한 결론이 된다. 이는 곧 영가설을 부정하고 (위키가 효과가 없다는 것), 연구가설을 채택하는 것이 된다. **이로써 우리는 연구가설을 검증한 것이 된다**. 
 +    * 그리고 위에서 구한 $45 ~ 55$의 구간을 우리는 confidence interval이라고 부르며 
 +    * standard error 두 단위를 쓴 95%를 confidence level 이라고 부른다.  
 +    * 반면에 5%의 error 가능성을 type I error 혹은 probability level이라고 (줄여서 p-level 혹은 p-value) 부른다.  
 + 
 +위에서 언급한 두개의 standard error를 사용하여 confidence interval을 구하는 것을 책에서는  
 +$ a = 2 (1.96)$ 
 +$ a = 3 (2.58)$ 
 + 
 +$$ \overline{X} \pm a * \frac{\sigma}{\sqrt{n}} $$ 
 +$$ \overline{X} \pm a * \frac{s}{\sqrt{n}} $$
  
 ====== z test ====== ====== z test ======
hypothesis_testing.1587382851.txt.gz · Last modified: 2020/04/20 20:40 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki