User Tools

Site Tools


sampling_distribution

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
sampling_distribution [2016/05/17 15:24] – [n = 4 인 경우] hkimscilsampling_distribution [2021/04/01 08:43] – [in R] hkimscil
Line 1: Line 1:
 ====== Sampling Distribtution, 표본분포 ====== ====== Sampling Distribtution, 표본분포 ======
-Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다. +이 글을 읽고 [[:mean and variance of the sample mean]] 문서를 읽을 것. 
 +[[:sampling distribution in R]] 
 +<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?192|}}</imgcaption> Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다. 
  
-<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?300|}}</imgcaption> Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)). +Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)). 
  
 위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자. 위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자.
Line 13: Line 15:
 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까?  의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? 
  
-<imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?300}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다. +<imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?192}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다. 
  
 연구자는 위의 사실에서 다른 사람들에게 다음과 같이 이야기 할 수 있다. "만약에 당신이 N으로 이루어진 샘플을 뽑아서 평균을 낸다면, 그 평균값은 70일 확율이 100%입니다". 이와 같이 샘플들의 평균을 모아서 분포곡선을 그려보면, 그 샘플의 평균이 어떻게 나올 것인가를 알 수 있는 방법이 있게 된다.  연구자는 위의 사실에서 다른 사람들에게 다음과 같이 이야기 할 수 있다. "만약에 당신이 N으로 이루어진 샘플을 뽑아서 평균을 낸다면, 그 평균값은 70일 확율이 100%입니다". 이와 같이 샘플들의 평균을 모아서 분포곡선을 그려보면, 그 샘플의 평균이 어떻게 나올 것인가를 알 수 있는 방법이 있게 된다. 
Line 30: Line 32:
 그렇다면 n = 4로 하여 샘플을 뽑는 경우는 어떨까? 그렇다면 n = 4로 하여 샘플을 뽑는 경우는 어떨까?
 ===== n = 4 인 경우 ===== ===== n = 4 인 경우 =====
-이 모집단에서: +<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?192|}}</imgcaption> 이 모집단에서: 
   - 샘플 구성원의 숫자가 4 인 샘플 (sample size, n = 4) 을 뽑아서 평균을 기록하고    - 샘플 구성원의 숫자가 4 인 샘플 (sample size, n = 4) 을 뽑아서 평균을 기록하고 
   - 다시 그 샘플을 모집단에 넣은 다음   - 다시 그 샘플을 모집단에 넣은 다음
Line 37: Line 39:
 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까?  의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? 
  
-<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?300|}}</imgcaption> 위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다. +위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다. 
 <WRAP clear /> <WRAP clear />
 그렇다면 n = 16일 경우에는 어떨까? 그렇다면 n = 16일 경우에는 어떨까?
-<imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?300|}}</imgcaption> +<imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?192|}}</imgcaption> 
   * n = 25인 경우는?   * n = 25인 경우는?
   * n = 36인 경우는?   * n = 36인 경우는?
Line 48: Line 50:
   * n = 1600인 경우?   * n = 1600인 경우?
 <WRAP clear /> <WRAP clear />
-===== CLT ===== 
-위에서 언급한 가상의 샘플평균들의 분포를 구한다면 그 분포곡선은 아래의 성질을 갖게 된다. 
  
 +===== in R =====
 +R에서 살펴보는 것이 더 이해가 쉬울 수 있다. 
 +[[:sampling distribution in R]]
 +
 +===== CLT =====
 +위에서 언급한 가상의 **샘플평균들의 분포**를 구한다면 그 분포곡선은 아래의 성질을 갖게 된다.
   * $\mu_{\overline{\tiny{X}}} = \mu$   * $\mu_{\overline{\tiny{X}}} = \mu$
   * $\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$   * $\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$
  
-(sampling distribution은 [Central Limit Theorem] 을 이해하기 위해서 꼭 필요한 개념이다.)+(sampling distribution은 [[Central Limit Theorem]] 을 이해하기 위해서 꼭 필요한 개념이다.)
  
-$\mu=70$ 이며 $\sigma=15$ 인 모집단의 경우에서 n = 100인 샘플을 뽑는다고 가정을 해보면, +<imgcaption fig05|>{{ :sampling_distribution_m70sd1.5.png?192|}}</imgcaption> $\mu=70$ 이며 $\sigma=15$ 인 모집단의 경우에서 n = 100인 샘플을 뽑는다고 가정을 해보면, 
  
   * $\mu_{\tiny\overline{X}} = \mu = 70$   * $\mu_{\tiny\overline{X}} = \mu = 70$
sampling_distribution.txt · Last modified: 2021/04/01 08:44 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki