Table of Contents
중심극한정리 (Central Limit Theorem)
수학적으로 간단히 표현하면,
$\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 을 말한다.
소개
Central Limit Theorem (CLT) 이란:: 평균이 $ \mu$ , 그리고 표준편차( $ s$ )가 $ \sigma$ 인 모든 종류의 모집단에서, 샘플 숫자를 $ n$ 으로 하여 샘플평균을 분포시키면, 그 분포는 정규분포(normal distribution)를 이루며, 그 분포의 평균(mean, $ \mu_{\overline{x}}$ )은 $ \mu$ 와 같은 값이 되고1), 표준편차(stdev, $ s_{\overline{x}}$ )는 $ \sigma / \sqrt{n}$가 된다는 것이다.
위는 사이즈, n=36 의 샘플을 무한반복해서 (여기서는 무한반복할 수 없으므로 10,000번) 취한 샘플들의 평균을 기록한 히스토그램. 여기서 우리는 그림만으로 “아, 이 그래프의 최소값은 60정도이고 최대값은 80 정도로군” 이라고 파악할 수 있다. 따라서, 대략이지만 우리는 아래 같은 이야기를 할 수 있다.
- 우리가 만약 n=36개짜리 샘플을 하나 뽑는다면, 그 샘플의 평균은 위의 그래프 어딘가에 존재하게 된다.
- 그림이지만, 우리는 최소, 최대값이 각각 60과 80이므로 그 샘플의 평균이 60에서 80사이에 존재할 확률은 거의 1이 될 것이라고 할 수 있다. 그러나, 그림만으로는 그 최소값이 (최대값이) 정확이 어디에 위치하는지는 모른다.
- 만약에 우리가 위 그래프의 표준편차를 알고 있다면 우리는 이의 특징인 68-95-99%법칙을 이용해서 n=36짜리 샘플의 평균이 나올 확률을 이야기해볼 수 있다. 즉, 그래프의 sd값이 a라고 한다면, 우리는 전체 평균인 70을 중심으로 왼쪽으로 a, 오른 쪽으로 a만큼 떨어진 부분이 약 68%이므로 70 +- a 에서 평균이 나올 확률은 68%라고 한다. 만약에 2a를 사용한다면, 우리는 70 +- 2a 부분만큼이 95%이므로 70 +- 2a 사이에서 그 평균이 나올 확률은 95%라고 한다. 70 +- 3a 또한 마찬가지 논리로 99%의 확률로 그 평균이 이 구간에서 존재하게 된다.
- 그런데 우리는 mean and variance of the sample mean이라는 문서를 통해서 아래를 알고 있다.
- $\mu_{\overline{X}} = E[\overline{X}] = \mu $
- $\sigma_{\overline{X}} = Var[\overline{X}] = \dfrac{\sigma^{2}}{n}$
- 이를 위의 상황에 대입해보면
- $\text{mean of population} = \mu = 70$이고,
- $\text{standard deviation of population} = \sigma = 15 일 때$
- $n = 36$ 크기의 샘플을 무한 반복해서 뽑아 그 평균을 기록한다면
- 그 샘플평균들의 평균은, 즉, $\mu_{\overline{X}} = E[\overline{X}] = \mu = 70 $ 일 것이고
- 그 샘플평균들의 분산값은, $\sigma^{2}_{\overline{X}} = Var[\overline{X}] = \dfrac{\sigma^{2}}{n} = \dfrac{15^2}{36} = 225/36 = 6.25$ 일 것이며, 따라서
- 그 샘플평균들의 표준편차 값은 $\sigma_{\overline{X}} = \sqrt{6.25} = 2.5 $ 임을 알 수 있다.
- 위로 인해 우리는 언급하였던 a가 2.5 임을 알게 되었다. 따라서, 우리는
- 70 +- 2.5인 67.5 – 72.5 에서 n=36 짜리 샘플의 평균이 나타날 확률은, 다시 이야기 하면 n=36짜리 샘플의 평균이 67.5 – 72.5 사이에 존재할 확률은 68% 라고 주장할 수 있다.
- 마찬가지로 65 – 75 사이에서 그 샘플의 평균이 존재할 확률은 95% 이다.
- 62.5 – 77.5 사이에서 평균이 나타날 확률은 99% 일 것이다 라고 주장할 수 있다.
우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았다. 그리고, 이는 mean and variance of the sample mean이라는 문서를 통해서도 그것을 알수 있다
- n = 4 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{2} = 7.5$
- n = 36 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{6} = 2.5$
- n = 100 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{10} = 1.5$
- n = 400 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{20} = 0.75$
- n = 900 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{30} = 0.5$
- . . .
- n = 2500 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{50} = 0.3$
- n = 3600 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{60} = 0.25$
그런데, 각 단계에서 $\sigma_{\overline{X}} $의 차이값은
- n = 4,
- n = 36, 7.5 - 2.5 = 5
- n = 100, 2.5 - 1.5 = 1
- n = 400, 1.5 - 0.75 = 0.75
- n = 900, 0.75 - 0.5 = 0.25
- n = 2500, 0.5 - 0.3 = 0.2
- n = 3600, 0.3 - 0.25 = 0.05
즉, 샘플의 숫자가 커질 수록 $\sigma_{\overline{X}} $ 의 단위는 작아지는데, 작아지는 정도가 (스케일이) 점차 줄어든다. 즉, 처음에는 5만큼으로 드라마틱하게 줄고, 다음은 1만큼, 다음은 3/4만큼, 다음은 1/4만큼, . . . .
위의 이야기는 아래와 같이 정리할 수 있다.
$\text{N} \left(\mu, \sigma \right)$ 인 분포에서 n = n인 샘플을 계속 취해서 그 샘플들의 평균을 모은 분포는
정규분포에 가까와 진다.
- 정규분포에 가까와 진다고 표현한 것은 샘플의 숫자가 작을 경우에는 정규분포와 완전하게 일치하지 않기 때문이다. 그러나, n=30 정도만 되면 샘플평균들의 분포는 거의 완벽한 정규분포곡선을 만든다. 사실, 아래의 두 조건 중 어느 하나만을 만족하면, distribution of sample means는 (sampling distribution은) 완전한 normal distribution을 만든다. 즉,
- sample을 취하는 population이 normal distribution을 이룬다
그 샘플평균분포의 평균은 모집단의 평균을 따른다.
- “mean of sample means은 population의 mean값과 같다” 즉, 샘플평균들의 평균은 모집단의 평균값과 같아진다.
- 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서, the mean of the distribution of sample means를 expected value of $ \overline{X}$ 라고 부른다.)
- 이는 $E[\overline{X}] = \mu $ 라고 설명한 부분이다.
샘플평균분포의 분산은 $\dfrac{\sigma^{2}}{n}$ 을 따른다
standard deviation of the distribution of the sample mean를 (샘플평균들의 표준편차를) 특별히
standard error of $ \overline{X}$ 라고 (샘플평균의 표준오차)부르는데 그 값은 $ \dfrac{\sigma}{\sqrt{n}}$를 따르게 된다.
Standard Error 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가의 가능성(확율)을 나타내는 값이다. 즉, standard error = $ \sigma_{\overline{X}}$ = standard deviation distance between $ \overline{X}$ and $ \mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다.
Standard error의 공식을 다시 써보면 아래와 같은데,
$ \;\;\;\; \sigma_{\overline{X}} = \displaystyle \frac{\sigma}{\sqrt{n}} $
위의 standard error 값의 크기에 영향을 주는 것에는
- 샘플의 크기 (n)
- population의 standard deviation 가 있다.
위에서 첫번째를 살펴보면, 샘플의 크기가 커질 수록 분모의 숫자인 $ \sqrt{n}$ 의 값은 커지고, 따라서 se의 값은 작아진다는 것을 의미한다. se가 작아진다는 것은 distribution of samples means 의 전체적인 분포곡선이 평균을 중심으로 좁게 분포되어 있다는 것을 의미하고, 이는 곧 n값이 크게 되면, 한 샘플의 평균이 원래 평균에서 크게 벗어나지 않게 된다는 것을 의미한다. 우리가 샘플의 크기를 적당히 크게 잡는 이유는 한 샘플의 평균이 원래의 모집단 평균에서 크게 벗어나지 않기를 바라기 때문이다.
위의 방법은 숫자로 측정된2) 변인(variables)의 표준오차(standard error)를 구하는 경우에 사용되는 방법이다. 종류로 측정된 변인의 경우에는 다른 방법으로 표준오차값을 구하게 되는데 이에 대해서는 Standard Error 문서에 자세하게 기록하여 두었다.
Summary
Central Limit Theorem 을 다시 정리하자면, 아래의 세가지로 요약된다.
\begin{eqnarray} & & \text{Normal distribution of sample means.} \\ & & \mu_{\overline{X}} = \mu \\ & & (\sigma_{\overline{X}})^2 = \frac{\sigma^2}{n} \;\; \text{or} \;\; \sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}} \end{eqnarray}
즉, 이는
$\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 를 말한다.
e.g.,
Central Limit Theorem이 사용되는 예를 들어보면 . . . .
McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다.
Q
McDonald 본사의 총괄 매니저인 A는 감자튀김의 원료인 감자의 공급자가 일정 수준의 감자를 꾸준하게 공급해 줄 것을 요구하여 왔다. 공급자는 자사의 감자가 평균 200g이며, 표준편차 값이 15라고 주장하였다. 그러나, 웬일인지 요사이 감자 튀김의 매출이 떨어지게 되었는데. . . . A는 공급되는 감자의 품질검사를 실시하기로 한다. .
품질 검사를 위해서 모든 감자를 다 체크해 볼 수는 없는 일이다. 샘플을 이용해서 하는 수 밖에 없다는 생각에 우선 A는 공급사인 C사의 말이 사실이라고 가정을 해본다. A는 공급된 감자에서 900개의 감자를 샘플로 뽑아서 이 샘플의 특징(Statistics)을 살펴보고, 이를 통해서 C사의 진실성에 대한 판단을 하기로 한다 (n = 900).
우선, A는 감자를 뽑기 전에 아래와 같은 가정을 한다.
- $ n=900$ 인 감자의 샘플을 계속 뽑아서, 각 샘플의 평균으로 분포도를 만들어 본다면, 이 분포도는 정규분포를 이룰 것이고,
- 샘플 평균들의 평균은 C사가 주장하는 원래 평균인 200g일 것이며,
- 이 특별한 샘플평균 분포의 표준편차(standard deviation 즉, standard error )는 $ \frac{\sigma}{\sqrt{n}}$ 일 것이다. 이를 직접 계산해 보면, $ n=900$ 이므로, $ \frac{15}{30}=0.5$ 이다.
위는 900개짜리 샘플을 뽑았을 때, 나올수 있는 샘플 평균의 범위를 보여준다.
A는 여기까지 가정을 한후에 샘플을 뽑아 보았다. 뽑은 결과, 그 평균이 198g 이 나왔다. 이제 A는 이 결과를 가지고 다음과 같이 생각할 수 있다.
Standard error 값이 .5 이므로 2 단위의 standard error 값을 사용하여 범위를 구하여도 199-201 이다. 이는 n=900인 샘플을 취한다고 가정할 때 100번의 샘플링을 한다고 가정하면 95번 (95%) 은 이 범위에서 샘플의 평균이 나온다고 생각할 수 있다. 그런데, 지금 A가 취한 샘플의 평균은 198g이다. 이것이 의미하는 것은 두 가지인데 . . . .
- 100번의 95번에 걸리질 않아서 이번 샘플의 평균이 극단치를 가졌다. 그러나, 이렇게 될 확률은 5%정도 밖에 안된다. . . .
- C사가 거짓말을 하고 있다. 애초 계약인 200g 에 못 미치는 감자를 공급하고 있다. 즉, A는 C사가 거짓말을 하고 있지 않다고 가정하고 정상적인 샘플링을 하였을 때 나타날 수 있는 샘플 평균의 범위를 그려 보았는데 이번 평균은 그 범위를 벗어났으니, 처음 생각인 A는 C사가 거짓말을 하고 있지 않다는 생각을 부정(혹은 기각) 할 수 있다 . 그러나, 이렇게 생각하여도 위의 1번에서의 오류를 무시할 수는 없다. 즉, C사가 거짓말을 하고 있다고 확신하기에는 5%의 '유별난' 샘플링의 확률이 있다. 따라서, 5% 판단의 잘못을 염두에 두고 C사가 거짓말을 한다고 판단하는 것이 옳다.