Differences

This shows you the differences between two versions of the page.

--- sampling_distribution [2016/05/17 15:28] – [CLT] hkimscil
+++ sampling_distribution [2016/05/17 15:56] – hkimscil
@@ Line 2: / Line 2: @@
 Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다.
-<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?300|}}</imgcaption> Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)).
+<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?192|}}</imgcaption> Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)).
 위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자.
@@ Line 13: / Line 13: @@
 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까?
-<imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?300}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다.
+<imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?192}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다.
 연구자는 위의 사실에서 다른 사람들에게 다음과 같이 이야기 할 수 있다. "만약에 당신이 N으로 이루어진 샘플을 뽑아서 평균을 낸다면, 그 평균값은 70일 확율이 100%입니다". 이와 같이 샘플들의 평균을 모아서 분포곡선을 그려보면, 그 샘플의 평균이 어떻게 나올 것인가를 알 수 있는 방법이 있게 된다.
@@ Line 37: / Line 37: @@
 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까?
-<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?300|}}</imgcaption> 위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다.
+<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?192|}}</imgcaption> 위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다.
 <WRAP clear />
 그렇다면 n = 16일 경우에는 어떨까?
-<imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?300|}}</imgcaption>
+<imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?192|}}</imgcaption>
   * n = 25인 경우는?
   * n = 36인 경우는?