Differences

This shows you the differences between two versions of the page.

--- sampling_distribution [2016/05/17 15:56] – hkimscil
+++ sampling_distribution [2016/05/17 15:57] – [Sampling Distribtution, 표본분포] hkimscil
@@ Line 1: / Line 1: @@
 ====== Sampling Distribtution, 표본분포 ======
-Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다.
+<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?192|}}</imgcaption> Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다.
-<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?192|}}</imgcaption> Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)).
+Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)).
 위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자.
@@ Line 30: / Line 30: @@
 그렇다면 n = 4로 하여 샘플을 뽑는 경우는 어떨까?
 ===== n = 4 인 경우 =====
-이 모집단에서:
+<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?192|}}</imgcaption> 이 모집단에서:
   - 샘플 구성원의 숫자가 4 인 샘플 (sample size, n = 4) 을 뽑아서 평균을 기록하고
   - 다시 그 샘플을 모집단에 넣은 다음
@@ Line 37: / Line 37: @@
 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까?
-<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?192|}}</imgcaption> 위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다.
+위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다.
 <WRAP clear />
 그렇다면 n = 16일 경우에는 어떨까?