central_limit_theorem
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionNext revisionBoth sides next revision | ||
central_limit_theorem [2018/03/19 08:54] – hkimscil | central_limit_theorem [2020/04/22 17:00] – hkimscil | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== | + | ====== |
- | ===== Introduction ===== | + | 수학적으로 |
- | Central Limit Theorem (CLT) 이란:: 평균이 $ \mu$ , 그리고 표준편차( $ s$ )가 $ \sigma$ 인 모든 종류의 모집단에서, | + | $\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 혹은 |
+ | $\overline{X} \sim \displaystyle \text{N} \left(\mu, \left(\dfrac{\sigma}{\sqrt{n}}\right)^{2} \right)$ 을 말한다. | ||
- | 정규분포에 가까와 진다고 표현한 것은 | + | ===== 소개 ===== |
+ | Central Limit Theorem (CLT) 이란:: 평균이 $ \mu$ , 그리고 표준편차( $ s$ )가 $ \sigma$ 인 모든 종류의 모집단에서, | ||
- | | + | {{ : |
- | - n이 비교적 클 때. 약 30 이상일 때. | + | 위는 사이즈, n=36 의 샘플을 무한반복해서 (여기서는 무한반복할 수 없으므로 10, |
- | "mean of sample means은 population의 mean값과 | + | * 우리가 만약 n=36개짜리 샘플을 하나 뽑는다면, |
+ | * 그림이지만, | ||
+ | * 만약에 우리가 위 그래프의 [[:standard deviation|표준편차를]] 알고 있다면 우리는 이의 특징인 68-95-99%법칙을 이용해서 n=36짜리 | ||
+ | * 그런데 우리는 [[:mean and variance of the sample mean]]이라는 문서를 통해서 아래를 알고 있다. | ||
+ | * $\mu_{\overline{X}} = E[\overline{X}] = \mu $ | ||
+ | * $\sigma_{\overline{X}} = Var[\overline{X}] = \dfrac{\sigma^{2}}{n}$ | ||
+ | * 이를 위의 상황에 대입해보면 | ||
+ | * $\text{mean of population} = \mu = 70$이고, | ||
+ | * $\text{standard deviation of population} = \sigma = 15 일 때$ | ||
+ | * $n = 36$ 크기의 샘플을 무한 반복해서 뽑아 그 평균을 기록한다면 | ||
- | 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 | + | * 그 샘플평균들의 평균은, 즉, $\mu_{\overline{X}} = E[\overline{X}] = \mu = 70 $ 일 것이고 |
+ | * 그 샘플평균들의 분산값은, | ||
+ | * 그 샘플평균들의 표준편차 값은 | ||
- | __Standard Error__ | + | * 위로 인해 우리는 언급하였던 a가 2.5 임을 알게 되었다. 따라서, 우리는 |
- | standard deviation of the distribution of sample | + | * 70 +- 2.5인 67.5 -- 72.5 에서 n=36 짜리 샘플의 평균이 나타날 확률은, 다시 이야기 하면 n=36짜리 샘플의 평균이 67.5 -- 72.5 사이에 존재할 확률은 68% 라고 주장할 수 있다. |
+ | * 마찬가지로 65 -- 75 사이에서 그 샘플의 평균이 존재할 확률은 95% 이다. | ||
+ | * 62.5 -- 77.5 사이에서 평균이 나타날 확률은 99% 일 것이다 라고 주장할 수 있다. | ||
+ | |||
+ | {{: | ||
+ | |||
+ | 우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았다. 그리고, 이는 [[:mean and variance of the sample mean]]이라는 문서를 통해서도 그것을 알수 있다 | ||
+ | * n = 4 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{2} = 7.5$ | ||
+ | * n = 36 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{6} = 2.5$ | ||
+ | * n = 100 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{10} = 1.5$ | ||
+ | * n = 400 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{20} = 0.75$ | ||
+ | * n = 900 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{30} = 0.5$ | ||
+ | * . . . | ||
+ | * n = 2500 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{50} = 0.3$ | ||
+ | * n = 3600 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{60} = 0.25$ | ||
+ | |||
+ | 그런데, 각 단계에서 $\sigam_{\overline{X}} $의 차이값은 | ||
+ | * n = 4, | ||
+ | * n = 36, 7.5 - 2.5 = 5 | ||
+ | * n = 100, 2.5 - 1.5 = 1 | ||
+ | * n = 400, 1.5 - 0.75 = 0.75 | ||
+ | * n = 900, 0.75 - 0.5 = 0.25 | ||
+ | * n = 2500, 0.5 - 0.3 = 0.2 | ||
+ | * n = 3600, 0.3 - 0.25 = 0.05 | ||
+ | |||
+ | 즉, 샘플의 숫자가 커질 수록 $\sigam_{\overline{X}} $ 의 단위는 작아지는데, | ||
+ | |||
+ | 위의 이야기는 아래와 같이 정리할 수 있다. | ||
+ | |||
+ | $\text{N} \left(\mu, \sigma \right)$ 인 분포에서 n = n인 샘플을 계속 취해서 그 샘플들의 평균을 모은 분포는 | ||
+ | |||
+ | __정규분포에 가까와 진다__. | ||
+ | * 정규분포에 가까와 진다고 표현한 것은 샘플의 숫자가 작을 경우에는 정규분포와 완전하게 일치하지 않기 때문이다. 그러나, n=30 정도만 되면 샘플평균들의 분포는 거의 완벽한 정규분포곡선을 만든다. 사실, 아래의 두 조건 중 어느 하나만을 만족하면, | ||
+ | * sample을 취하는 population이 normal distribution을 이룬다 | ||
+ | |||
+ | __그 샘플평균분포의 평균은 모집단의 평균을 따른다__. | ||
+ | * "mean of sample means은 population의 mean값과 같다" | ||
+ | * 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서, | ||
+ | * 이는 $E[\overline{X}] = \mu $ 라고 설명한 부분이다. | ||
+ | |||
+ | __샘플평균분포의 분산은__ $\dfrac{\sigma^{2}}{n}$ __을 따른다__ | ||
+ | standard deviation of the distribution of the sample | ||
+ | standard error of $ \overline{X}$ 라고 | ||
[[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $ \sigma_{\overline{X}}$ = standard deviation distance between $ \overline{X}$ and $ \mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다. | [[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $ \sigma_{\overline{X}}$ = standard deviation distance between $ \overline{X}$ and $ \mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다. | ||
Line 27: | Line 82: | ||
위에서 첫번째를 살펴보면, | 위에서 첫번째를 살펴보면, | ||
- | 위의 방법은 숫자로 측정된(([[: | + | 위의 방법은 숫자로 측정된(([[: |
===== Summary | ===== Summary | ||
- | [[Central Limit Theorem]] 을 다시 정리하자면, | + | Central Limit Theorem 을 다시 정리하자면, |
\begin{eqnarray} | \begin{eqnarray} | ||
Line 39: | Line 94: | ||
===== e.g., ===== | ===== e.g., ===== | ||
- | [[Central Limit Theorem]]이 사용되는 예를 들어보면 . . . . \\ | + | Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\ |
McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다. | McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다. | ||
central_limit_theorem.txt · Last modified: 2020/12/10 21:32 by hkimscil