User Tools

Site Tools


central_limit_theorem

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Next revisionBoth sides next revision
central_limit_theorem [2020/04/12 06:21] hkimscilcentral_limit_theorem [2020/04/22 17:02] – [Summary] hkimscil
Line 1: Line 1:
-====== CLT ====== +====== 중심극한정리 (Central Limit Theorem) ====== 
-===== Introduction ===== +수학적으로 간단히 표현하면, 
-Central Limit Theorem (CLT) 이란:: 평균이 $ \mu$ , 그리고 표준편차( $ s$ )가 $ \sigma$ 인 모든 종류의 모집단에서, 샘플 숫자를 $ n$ 으로 하여 샘플평균을 분포시키면, 그 분포는 정규분포(normal distribution)를 이루며, 그 분포의 평균(mean, $ \mu_{\overline{x}}$ )은 $ \mu$ 와 같은 값이 되고((참조: [[mean of the sample mean]])), 표준편차(stdev, $ s_{\overline{x}}$ )는 $ \sigma / \sqrt{n}$가 ((참조: [[:variance of the sample mean]])) 된다는 것이다. +$\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 혹은 
 +$\overline{X} \sim \displaystyle \text{N} \left(\mu, \left(\dfrac{\sigma}{\sqrt{n}}\right)^{2} \right)$ 을 말한다. 
 + 
 +===== 소개 ===== 
 +Central Limit Theorem (CLT) 이란:: 평균이 $ \mu$ , 그리고 표준편차( $ s$ )가 $ \sigma$ 인 모든 종류의 모집단에서, 샘플 숫자를 $ n$ 으로 하여 샘플평균을 분포시키면, 그 분포는 정규분포(normal distribution)를 이루며, 그 분포의 평균(mean, $ \mu_{\overline{x}}$ )은 $ \mu$ 와 같은 값이 되고((참조: [[mean and variance of the sample mean]])), 표준편차(stdev, $ s_{\overline{x}}$ )는 $ \sigma / \sqrt{n}$가 된다는 것이다.  
 + 
 +{{  :pasted:20200420-135017.png?450}} 
 +위는 사이즈, n=36 의 샘플을 무한반복해서 (여기서는 무한반복할 수 없으므로 10,000번) 취한 샘플들의 평균을 기록한 히스토그램. 여기서 우리는 그림만으로 "아, 이 그래프의 최소값은 60정도이고 최대값은 80 정도로군" 이라고 파악할 수 있다. 따라서, 대략이지만 우리는 아래 같은 이야기를 할 수 있다.  
 + 
 +  * 우리가 만약 n=36개짜리 샘플을 하나 뽑는다면, 그 샘플의 평균은 위의 그래프 어딘가에 존재하게 된다. 
 +  * 그림이지만, 우리는 최소, 최대값이 각각 60과 80이므로 그 샘플의 평균이 60에서 80사이에 존재할 확률은 거의 1이 될 것이라고 할 수 있다. 그러나, 그림만으로는 그 최소값이 (최대값이) 정확이 어디에 위치하는지는 모른다. 
 +  * 만약에 우리가 위 그래프의 [[:standard deviation|표준편차를]] 알고 있다면 우리는 이의 특징인 68-95-99%법칙을 이용해서 n=36짜리 샘플의 평균이 나올 확률을 이야기해볼 수 있다. 즉, 그래프의 sd값이 a라고 한다면, 우리는 전체 평균인 70을 중심으로 왼쪽으로 a, 오른 쪽으로 a만큼 떨어진 부분이 약 68%이므로 70 +- a 에서 평균이 나올 확률은 68%라고 한다. 만약에 2a를 사용한다면, 우리는 70 +- 2a 부분만큼이 95%이므로 70 +- 2a 사이에서 그 평균이 나올 확률은 95%라고 한다. 70 +- 3a 또한 마찬가지 논리로 99%의 확률로 그 평균이 이 구간에서 존재하게 된다.  
 +  * 그런데 우리는 [[:mean and variance of the sample mean]]이라는 문서를 통해서 아래를 알고 있다.  
 +    * $\mu_{\overline{X}} = E[\overline{X}] = \mu $ 
 +    * $\sigma_{\overline{X}} = Var[\overline{X}] = \dfrac{\sigma^{2}}{n}$ 
 +  * 이를 위의 상황에 대입해보면 
 +    * $\text{mean of population} = \mu = 70$이고,  
 +    * $\text{standard deviation of population} = \sigma = 15 일 때$ 
 +    * $n = 36$ 크기의 샘플을 무한 반복해서 뽑아 그 평균을 기록한다면 
 + 
 +    * 그 샘플평균들의 평균은, 즉, $\mu_{\overline{X}} = E[\overline{X}] = \mu = 70 $ 일 것이고 
 +    * 그 샘플평균들의 분산값은, $\sigma^{2}_{\overline{X}} = Var[\overline{X}] = \dfrac{\sigma^{2}}{n} = \dfrac{15^2}{36} = 225/36 = 6.25$ 일 것이며, 따라서 
 +    * 그 샘플평균들의 표준편차 값은 $\sigma_{\overline{X}} = \sqrt{6.25} = 2.5 $ 임을 알 수 있다.  
 + 
 +  * 위로 인해 우리는 언급하였던 a가 2.5 임을 알게 되었다. 따라서, 우리는  
 +  * 70 +- 2.5인 67.5 -- 72.5 에서 n=36 짜리 샘플의 평균이 나타날 확률은, 다시 이야기 하면 n=36짜리 샘플의 평균이 67.5 -- 72.5 사이에 존재할 확률은 68% 라고 주장할 수 있다.  
 +  * 마찬가지로 65 -- 75 사이에서 그 샘플의 평균이 존재할 확률은 95% 이다.  
 +  * 62.5 -- 77.5 사이에서 평균이 나타날 확률은 99% 일 것이다 라고 주장할 수 있다. 
 + 
 +{{:pasted/20200414-213151.png}} 
 + 
 +우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았. 그리고, 이는 [[:mean and variance of the sample mean]]이라는 문서를 통해서도 그을 알수 있다 
 +  * n = 4 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{2} = 7.5$ 
 +  * n = 36 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{6} = 2.5$  
 +  * n = 100 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{10} = 1.5$ 
 +  * n = 400 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{20} = 0.75$ 
 +  * n = 900 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{30} = 0.5$ 
 +  * . . .  
 +  * n = 2500 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{50} = 0.3$ 
 +  * n = 3600 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{60} = 0.25$ 
 + 
 +그런데, 각 단계에서 $\sigam_{\overline{X}} $의 차값은 
 +  * n = 4,  
 +  * n = 36, 7.5 - 2.5 = 5 
 +  * n = 100, 2.5 - 1.5 = 1 
 +  * n = 400, 1.5 - 0.75  = 0.75 
 +  * n = 900, 0.75 - 0.5  = 0.25 
 +  * n = 2500, 0.5 - 0.3  = 0.2 
 +  * n = 3600, 0.3 - 0.25  = 0.05 
 + 
 +즉, 샘플의 숫자가 커질 수록 $\sigam_{\overline{X}} $ 의 단위는 작아지는데, 작아지는 정도가 (스케일이) 점차 줄어든다. 즉, 처음에는 5만큼으로 드라마틱하게 줄고, 다음은 1만큼, 다음은 3/4만큼, 다음은 1/4만큼, . . . .  
 + 
 +위의 이야기는 아래와 같이 정리할 수 있다.  
 + 
 +$\text{N} \left(\mu, \sigma \right)$ 인 분포에서 n = n인 샘플을 계속 취해서 그 샘플들의 평균을 모은 분포는
  
 __정규분포에 가까와 진다__. __정규분포에 가까와 진다__.
-  * 정규분포에 가까와 진다고 표현한 것은 샘플의 숫자가 작을 경우에는 정규분포와 완전하게 일치하지 않기 때문이다. 그러나, n=30 정도만 되면 샘플평균들의 분포는 거의 완벽한 정규분포곡선을 만든다. 사실, 아래의 두 조건 중 어느 하나만을 만족하면, distribution of sample means은 완전한 normal distribution을 만든다. 즉,+  * 정규분포에 가까와 진다고 표현한 것은 샘플의 숫자가 작을 경우에는 정규분포와 완전하게 일치하지 않기 때문이다. 그러나, n=30 정도만 되면 샘플평균들의 분포는 거의 완벽한 정규분포곡선을 만든다. 사실, 아래의 두 조건 중 어느 하나만을 만족하면, distribution of sample means는 ([[:sampling distribution]]완전한 normal distribution을 만든다. 즉,
   * sample을 취하는 population이 normal distribution을 이룬다   * sample을 취하는 population이 normal distribution을 이룬다
  
-__n이 비교적 클 때. 약 30 이상일 때__.+__그 샘플평균분포의 평균은 모집단의 평균을 따른다__.
   * "mean of sample means은 population의 mean값과 같다" 즉, 샘플평균들의 평균은 모집단의 평균값과 같아진다.   * "mean of sample means은 population의 mean값과 같다" 즉, 샘플평균들의 평균은 모집단의 평균값과 같아진다.
   * 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서, the mean of the distribution of sample means를 expected value of $ \overline{X}$ 라고 부른다.)    * 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서, the mean of the distribution of sample means를 expected value of $ \overline{X}$ 라고 부른다.) 
 +  * 이는 $E[\overline{X}] = \mu $ 라고 설명한 부분이다.
  
-__Standard Error__  \\ +__샘플평균분포의 분산은__ $\dfrac{\sigma^{2}}{n}$ __을 따른다__ 
-standard deviation of the distribution of sample means를 특별히 standard error of $ \overline{X}$ 라고 부다. +standard deviation of the distribution of the sample mean를 (샘플평균들의 표준편차를) 특별히  
 +standard error of $ \overline{X}$ 라고 (샘플평균의 표준오차)르는데 그 값은 $ \dfrac{\sigma}{\sqrt{n}}$를 따르게 된다.
  
 [[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $ \sigma_{\overline{X}}$ = standard deviation distance between $ \overline{X}$ and $ \mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다.  [[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $ \sigma_{\overline{X}}$ = standard deviation distance between $ \overline{X}$ and $ \mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다. 
Line 37: Line 93:
 \end{eqnarray} \end{eqnarray}
  
 +즉, 이는 
 +$\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 를 말한다.
 ===== e.g., ===== ===== e.g., =====
 Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\ Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\
central_limit_theorem.txt · Last modified: 2020/12/10 21:32 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki