Differences

This shows you the differences between two versions of the page.

--- hypothesis_testing [2018/04/30 09:53] – hkimscil
+++ hypothesis_testing [2022/05/15 11:19] – hkimscil
@@ Line 1: / Line 1: @@
-====== Hypothesis testing ======
+====== 측정수준과 관련된 가설검증 이야기 ======
 가설에는 차이와 관련을 나타내는 것이 있다고 하였다 ([[Hypothesis]] 참조). 가설에 나타나는 IV 와 DV 가 어떻게 측정(measure)이 되었는가에 따라서 차이와 관련의 가설로 나누게 된다. 아래 가설들은 각각의 변인(독립, 종속변인)들이 어떻게 측정되었는가에 따라서 예를 들기 위해 만들어진 것이다.
@@ Line 6: / Line 6: @@
 가설1] 여성과 남성 간의 수학점수에는 차이가 있을 것이다.
-위의 가설관 관련된 변인은 성(gender)과 수학점수(math score) 이 있다. 전자는 독립변인(IV) 후자는 종속변인(DV)으로 볼 수 있다 ([[:Types of Variable|Variable Identification]] 참조). 각각의 변인은 어떻게 측정되어야 할까? 이 가설의 경우에는 쉽다.
+위의 가설관 관련된 변인은 성(gender)과 수학점수(math score) 이 있다. 전자는 독립변인(IV) 후자는 종속변인(DV)으로 볼 수 있다 ([[:Types of Variables|Variable Identification]] 참조). 각각의 변인은 어떻게 측정되어야 할까? 이 가설의 경우에는 쉽다.
-  * 성: 남/여   Gender: Male / Female ==> 종류변인 (Nominal)
+  * 성: 남/여   Gender: Male / Female ''%%==>%%'' 종류변인 (Nominal)
-  * 수학점수: 0-100 점 사이의 점수  ==> 숫자변인 (Interval)
+  * 수학점수: 0-100 점 사이의 점수  ''%%==>%%'' 숫자변인 (Interval)
   - 위의 측정을 위해서 연구자인 당신이 해야할 일은 무엇인가? --> 사람을 구하는 것이다. 이를 샘플링이라고 한다. 구한 사람들의 집합을 샘플이라고 한다.
@@ Line 58: / Line 58: @@
-위의 데이터 테이블을 간단히 정리하자면, 위의 집단 간 평균을 구해서 기록하는 방법으로는 잘 안된다. 왜냐하면, 두 변인이 모두 종류변인 (Nominal variable)이기 때문이다. 종류의 변인이 정리가 되는 경우, 대개는 빈도수가 사용된다.
+위의 데이터 테이블을 간단히 정리하자면, 위의 집단 간 평균을 구해서 기록하는 방법으로는 잘 안된다. 왜냐하면, 두 변인이 모두 종류변인 (Nominal variable)이기 때문이다. 종류의 변인이 정리가 되는 경우, 대개는 빈도수가 사용된다. 빈도수(머리수)를 센 결과를 아래와 같이 정리할 수 있고, 이를 **관측결과**라고도 부를 수 있다.
 ^ ^^  이타심  ^^
@@ Line 72: / Line 72: @@
 | :::  |  female  |  50  |    |
-그리고, 성별 간의 차이가 없다고 가정을 한다면 아래와 같은 테이블을 얻을 수 있을 것이다.
+그리고, 성별 간의 차이가 없다고 가정을 한다면 아래와 같은 테이블을 **기대해 볼 수** 있을 것이다.
@@ Line 81: / Line 81: @@
-그렇지만 현실적으로 이런 상태의 데이터를 얻을 수는 없을 것이다. 따라서 연구자는 위의 테이블의 결과를 가지고 남성과 여성 사이에서 이타심은 서로 다르게 나타난다고 판단해야 한다.
+그렇지만 현실적으로 이런 상태의 데이터를 얻을 수는 없을 것이다. 따라서 연구자는 위의 **기대치의 테이블**과 **관측치의 테이블**을 비교하여 남성과 여성사이에 이타심이 다르게 나타나는 지를 **비교, 판단**해야 한다.
-====== Hypothesis testing ======
+====== 가설검증 ======
+Hypothesis testing.
 Hypothesis test란, 샘플을 이용한 통계학 방법을 가르키는 말로서, 모집단의 성격에 대한 가설을 평가하는 작업을 말한다.
@@ Line 93: / Line 96: @@
 가설은 대개 위와 같이 현 상태를 진단하기 위해서 세워지기 보다는 약품, 방법, 처치 등의 (일종의) 자극의 효과를 알아보기 위해서 세워지는 경우가 많다.
-가령 예를 들면, 어느 시간 강사가 강의에 사용하는 wiki의 효과를 측정해 보기 위해서 가설 테스트(hypothesis testing)를 하는 것이다. 즉, 강사의 wiki 사용(treatment)으로 학생들의 학습효과가 높아 졌는가를 확인(test)하기 위해서 wiki를 사용한 그룹(mean=?)과 사용하지 않은 그룹 (mean=50)간의 차이를 확인해 보는 것이다 (이를 위해서 강사는 16명의 샘플을 구하였다고 가정을 하자). 위의 예에서 연구자는 wiki를 사용한 그룹의 평균이 wiki를 사용치 않은 그룹과 다르다는 것을 선언하고 이것이 통계적으로 의미가 있는가를 진단하고 결정하는 것이다.
+가령 예를 들면, 어느 시간 강사가 강의에 사용하는 wiki의 효과를 측정해 보기 위해서 가설 테스트(hypothesis testing)를 하는 것이다. 즉, 강사의 wiki 사용(treatment)으로 학생들의 학습효과가 높아 졌는가를 확인(test)하기 위해서 wiki를 사용한 그룹(mean=?)과 사용하지 않은 그룹 (mean=50, sd=10)간의 차이를 확인해 보는 것이다 (이를 위해서 강사는 16명의 샘플을 구하였고 이들의 성적 평균을 60점이었다고 가정을 하자). 위의 예에서 연구자는 wiki를 사용한 그룹의 평균이 wiki를 사용치 않은 그룹과 다르다는 것을 선언하고 이것이 통계적으로 의미가 있는가를 진단하고 결정하는 것이다.
-{{  hypothesis-testing.jpg  }}
+{{:pasted:20200420-194734.png?400}}
-우선 연구자가 조사방법론 수업을 듣는 전체 모집단 학생들의 평균(이런 종류의 테스트가 있다고 가정)이 얼마인지를 알고 있다는 가정을 하자 (평균 = 50, stdev = 10).
+연구자는 조사방법론 수업을 듣는 전체 모집단 학생들의 평균(이런 종류의 테스트가 있다고 가정)이 얼마인지를 알고 있다(평균 = 50, stdev = 10).
 연구자는 wiki를 사용하여 한 학기의 수업을 한 후에 같은 종류의 테스트를 wiki사용자들에게 하여, 이들의 평균이 wiki를 사용하지 않는 평범한 학생들의 성적과 차이가 있음을 밝힌다면, 가설검증이 성공된다.
-{{anchor:null_hypothesis}} 이를 위해서 흔히 연구자는 **null hypothesis**를 세우게 되는데, 이것은 아래와 같이 나타낸다.
+<wrap #null hypothesis /> 이를 위해서 흔히 연구자는 **null hypothesis**를 세우게 되는데, 이것은 아래와 같이 나타낸다.
 $\displaystyle  \text{H(0): } \mu_{\text{student with wiki}} = 50 $
@@ Line 111: / Line 114: @@
 $\text{H(1): } \mu_{\text{student with wiki}} \neq 50 $
-라고 선언하는 것을 말한다. 위의 선언문은 treatment인 wiki가 효과가 있다는 것을 의미한다. 단, 이 선언에서 주의해서 봐야 할 점은 wiki가 점수를 올리거나 내린다는 선언을 한 것은 아니라는 점이다. 단지 일반 population과 다를 것이라는 점만을 선언하였다.
+라고 선언하는 것을 말한다. 위의 선언문은 treatment인 wiki가 효과가 있다는 것을 의미한다. 단, 이 선언에서 주의해서 봐야 할 점은 wiki가 점수를 올리거나 내린다는 선언을 한 것은 아니라는 점이다. 단지 일반 population과 다를 것이라는 점만을 선언하였다 ((만약에 연구자가 wiki의 사용이 학생들의 성적을 올릴 것을 확신한다면, $\text{H(1)}$ 는 다음과 같이 같이 바뀌어야 한다. $\text{H(1): } \mu_{\text{student with wiki}} > 50 $ 이런 종류의 research hypothesis 를 directional hypothesis라고 한다. 당분간은 이와 같은 directional hypothesis는 다루지 않겠다.))
-만약에 연구자가 wiki의 사용이 학생들의 성적을 올릴 것을 확신한다면, $\text{H(1)}$ 는 다음과 같이 같이 바뀌어야 한다.
+가설을 검증하기 위해서는 (즉, 위키페이지를 효과를 검증하기 위해서는) 영가설을 이용하여 테스트를 하는 수 밖에 도리가 없다. 이를 설명하고자 한다. 만약에 위키의 효과가 없다고 하면, 위키를 사용한 16명의 학생은 (위키를 사용했음에도 불구하고) 원래의 모집단에  (N(50, 10)) 속하는 학생일 것이다. 만약에 이 시나리오가 맞다면, 16명의 시험점수는
-$\text{H(1): } \mu_{\text{student with wiki}} > 50 $
+  * 모집단 평균 = 50, 표준편차 = 10 의 집합에서
+  * n=16의 사이즈를 갖는 샘플을 구해 평균을 낸 집합에 속하는 (distribution of sample means) 성격을 갖을 것이다.
+  * 즉, CLT의 논리에 따라서
+    * 이 집합의 평균은 = 50
+    * SD 는 (샘플평균의 표준편차) = $\dfrac{\sigma}{n} = \dfrac{10}{\sqrt{16}} = \dfrac{10}{4} = 2.5 $ 일것이다 (우리는 이를 standard error라고 부른다).
+    * 위에 따라서, 우리는 100번의 샘플링한다면 그 중 95번은 모집단의 평균인 50을 중심으로 +- 2se값에서 그 샘플의 평균이 나타날 것을 알 수 있다. 이 값은 45에서 55점이다.
+  * 그런데, 이 특정한 샘플의 평균은 60점이다. 이 점수가 의미하는 것은 두 가지이다.
+    * 첫 째는 100중 95는 샘플의 평균이 45에서 55에서 나와야 하는데, 이 번 샘플은 이 확률에 걸리지 않은 특이한 케이스이다. 즉, 나머지 5%의 확률에 걸려 60점이라는 점수가 나왔다. 이는 위키의 효과가 없었음을 가정하고, 그럼에도 불구하고, 특이하게 높은 점수가 나왔다고 주장하는 것이 된다. 그러나, 이 주장의 확률은 5%에 불과하다.
+    * 다른 하나는, 이 위키 샘플이 평범한 학생의 샘플이 아니다. 즉, N(50, 10)의 모집단에서 추출되는 그런 샘플이 아닌, 특별한 샘플이기에 학생들의 평균이 높은 것이다. 이를 알기 쉽게 이야기하면 오른 쪽 빨간 집단에 속하는 학생이기에 그런 점수가 나온 것이다. 이것이 의미하는 것은 위키를 이용한 학생은 평범한 모집단에 속하지 않는다는 것을 말하는데, 이는 곧 위키의 효과가 있다는 것을 주장하는 것이 된다. 그런데, 이 주장이 맞을 확률이 이 전과 같이 5%가 아닌, 95%이다. 따라서, 후자를 택하는 것이 더 안전한 결론이 된다. 이는 곧 영가설을 부정하고 (위키가 효과가 없다는 것), 연구가설을 채택하는 것이 된다. **이로써 우리는 연구가설을 검증한 것이 된다**.
-이런 종류의 research hypothesis 를 directional hypothesis라고 한다. 당분간은 이와 같은 directional hypothesis는 다루지 않겠다.
+====== z test ======
-아뭏든, 앞에서 다루었듯이, 연구자는 테스트를 위해서 샘플들의 평균값들이 어떻게 분포하는 지를 살펴 볼 것이다. 이 예의 경우,
+위의 테스트 방법에서 우리는 모집단의 평균에서 표준오차 점수 2단위를 빼고 더한 범위에 우리 샘플의 평균이 존재하는가를 보았다. 이를 보다 편리하게 결정하는 방법은 내 샘플의 평균이 모집단의 평균에서 표준오차를 하나의 유닛으로 몇개나 떨어져 있는가를 보는 것이다. 즉, 내 샘플의 평균점수는 60이므로 모집단 평균의 50에서 10만큼 떨어져 있는데, 이 점수차이 10은 표준오차로 4개만큼 오른 쪽으로 떨어져 있는 것을 의미한다. 그런데, 위의 논리에 의하면 우리는 표준오차가 2개보다 더 많이 떨어진 점수는 확률 95%에 드는 점수가 아니므로 영가설 부정에 사용하기로 하였다. 따라서, 4라는 점수는 2보다 크므로 영가설을 부정하고, 연구가설을 채택한다.
-$n = 16; \mu = 50$ 이다.
+이런 비교를 z-score 변환을 통한 비교라고 한다.
-이 분포는 다시 두개의 종류로 나위어서 생각될 수 있는데,
+sampling mean을 위한 z -score 의 공식은 아래와 같다:
-  - 첫 째는 nh가 참인 경우 나올 수 있는 샘플의 평균값 범위에 포함되는 샘플평균값과
-  - 둘 째는, nh가 참인 경우에 나올 수 있는 샘플의 평균값 범위에 속하지 않는 샘플의 평균값이다.
-이것을 그래프로 나타내면, sampling distribution에서 본것과 마찬가지로 아래와 같은 sampling distribution 곡선을 생각해 볼 수 있다. 여기서 가운데 몰려 있는 부분은 전체 모집단에서 n=16인 샘플들의 평균값을 기록했을 때, 나오기 쉬운 샘플의 평균값들의 범위이다.
-{{  h-testing.jpg  }}
-이와는 반대로 양 쪽의 부분은 이 sampling distribution에서 나오기 어려운 sample mean들의 범위이다. 그런데, 이 sampling distribution 분포는 null hypothesis 가 참이라는 것을 가정했을 때 나타나는 normal distribution이므로, 만약에 wiki를 사용한 학생들의 점수가 이 범위안에서 발견된다면, wiki라는 treatment(IV)가 없었을 때에도 평범하게 나타날 수 있는 실력의 범위에서 학생들의 실력이 발견되었으므로, wiki가 효과가 없다고 이야기 할 수 있다.
-만약에 이와 반대로 양 쪽 끝에서 sample의 평균점수가 발견되었다면, 이제는 평범한(IV, treatment를 받지 않은) 학생들을 모집단으로 하는 sampling distribution에서는 거의 나오지 않는 점수대(범위)에서 샘플의 평균값이 나왔으므로, 연구자는 이 샘플이 일반(평범한, IV, treatment를 받지않은) 모집단과는 다르다고 주장할 수 있는 근거가 된다. 만약에 이렇게 연구결과가 진행된다면, 연구자는 wiki의 효과가 있었다고 결론지을 것이다.
-양 쪽의 rare 부분(Extreme, low-probability values if H0 is true)의 경계선은 누가 정하는가 하는 문제가 생기게 된다. 대개 연구자는 2개의 standard deviation unit을 기준으로 삼는데 이를 **alpha level** 혹은 **level of significance** 이라고 한다.
-개의 standard deviation units이 의미하는 것은 위의 그림에서 빗금친 부분의 합이 5%라는 것을 의미한다. 즉, H0가 참일 때, 양 쪽의 빗금 친 부분에서 mean이 발견될 확률은 **100 중 5** 즉, **5%** 라는 의미이다. 이 빗금친 부분을 **critical region** 이라고 한다. 다시 말하자면, 강사의 샘플의 평균값이 이 빗금친 부분에서 발견되었다면, 강사가 주장할 수 있는 것은:
-<WRAP box>
-... 만약에 wiki의 효과가 없었다고 하면, 이 샘플의 평균은 보통 샘플들(H0가 참인 경우의 샘플들)의 distribution 곡선에 따라서 나타나야 하는데, 빗금친 부분은 흔치 않은 경우(5%의 확률)이므로, 이 샘플은 H0이 참인 경우에 나타나는 샘플과는 다른 성격을 가진다. 즉, wiki의 효과가 있었다고 생각된다....
-</WRAP>
-라는 의미의 해석을 할 것이다.
-아래의 그래프는 위의 그래프를 z-score로 변환을 한것이다.
-{{  h-testing-z2.jpg  }}
-이 단계에서 강사는 실제로 샘플들에게 테스트를 실시하여 샘플의 statistics를 얻어 낸 후, 이 샘플의 statistics를 H0의 것과 비교를 하게 된다. 보통 이런 비교는 z-score 변환을 통해서 한다.
-sampling mean을 위한 z -score 의 공식은:
 $\displaystyle z = \frac{ \overline{X} - \mu } {\sigma_{\overline{X}}} $
@@ Line 156: / Line 139: @@
 위의 공식에서 $\overline{X}$ 는 샘플에서 얻은 평균 값이며, $\mu=50$ 과 $\sigma_{\overline{X}}$ 는 $\text{H(0)}$ 에서 얻은 것이다.
-다음으로 우선 샘플의 평균값이 57.5이었다는 가정을 하면 (case A),
+만약에 한 샘플의 평균값이 57.5이었다는 가정을 하면 (case A),
 $\displaystyle \sigma_{\overline{X}}=\frac{10}{\sqrt{16}}=2.5$
@@ Line 169: / Line 152: @@
 이 경우에는 z-score = 1 이고, 이는 critical region에 포함되므로, 즉, 일반학생들을 샘플링했을 때 얻을 수 있는 평균점수가 나왔으므로 wiki학생들의 점수가 일반학생들과 다르지 않다고 결론을 내릴 수 있다. 다시 말하자면, 강사는 null hypothesis를 부정(reject)하는데 실패하였다.
+z test는 이와 같이 샘플의 점수와 모집단 평균 점수 차이를 표준오차로 나눈 점수를 가지고 영가설 부정을 하는 판단에 사용하는 것을 말한다.
+====== 질문 ======
+만약에 n = 16이 아닌 n = 36 이었고, 이 샘플의 평균이 위의 case b 처럼 52.5였다면 어떻게 판단해야 할까?
 ====== check ======
@@ Line 174: / Line 163: @@
 # n = 16일 경우 se는 2.5 이므로
 -pnorm(57.5, mean=50, sd=2.5)
+pnorm(115, mean=100, sd=5)
+pnorm(3, mean=0, sd=1)
 </code>