### Site Tools

central_limit_theorem

# Differences

This shows you the differences between two versions of the page.

 central_limit_theorem [2018/03/26 08:30]hkimscil [e.g.,] central_limit_theorem [2020/04/22 17:02] (current)hkimscil [Summary] Both sides previous revision Previous revision 2020/04/22 17:02 hkimscil [Summary] 2020/04/22 17:00 hkimscil 2020/04/22 16:59 hkimscil 2020/04/22 16:57 hkimscil 2020/04/22 16:55 hkimscil 2020/04/22 16:53 hkimscil 2020/04/22 16:51 hkimscil [중심극한정리 (Central Limit Theorem)] 2020/04/22 16:50 hkimscil [중심극한정리 (Central Limit Theorem)] 2020/04/22 16:49 hkimscil [중심극한정리 (Central Limit Theorem)] 2020/04/22 16:33 hkimscil 2020/04/20 16:12 hkimscil 2020/04/20 16:10 hkimscil 2020/04/20 16:10 hkimscil 2020/04/20 16:09 hkimscil 2020/04/20 14:49 hkimscil 2020/04/20 14:30 hkimscil 2020/04/20 14:30 hkimscil 2020/04/20 14:20 hkimscil 2020/04/20 14:20 hkimscil 2020/04/20 14:15 hkimscil [Introduction] 2020/04/12 08:07 hkimscil 2020/04/12 06:21 hkimscil 2020/01/20 00:20 hkimscil 2018/03/26 08:30 hkimscil [e.g.,] 2018/03/26 08:30 hkimscil [Summary] 2018/03/26 08:30 hkimscil 2018/03/19 08:54 hkimscil 2018/03/19 08:54 hkimscil 2016/06/23 13:46 hkimscil 2016/06/23 13:45 hkimscil 2016/06/23 13:45 hkimscil 2016/06/23 13:44 hkimscil 2016/06/23 13:44 hkimscil 2016/06/23 13:43 hkimscil 2016/03/25 19:06 hkimscil 2016/03/25 19:05 hkimscil 2016/03/23 10:13 hkimscil 2016/03/23 10:11 hkimscil 2016/03/23 10:07 hkimscil 2016/03/23 08:23 hkimscil 2016/03/23 08:22 hkimscil 2016/03/23 08:01 hkimscil 2016/03/23 07:52 hkimscil 2015/09/22 08:40 hkimscil 2015/09/22 08:38 hkimscil created Next revision Previous revision 2020/04/22 17:02 hkimscil [Summary] 2020/04/22 17:00 hkimscil 2020/04/22 16:59 hkimscil 2020/04/22 16:57 hkimscil 2020/04/22 16:55 hkimscil 2020/04/22 16:53 hkimscil 2020/04/22 16:51 hkimscil [중심극한정리 (Central Limit Theorem)] 2020/04/22 16:50 hkimscil [중심극한정리 (Central Limit Theorem)] 2020/04/22 16:49 hkimscil [중심극한정리 (Central Limit Theorem)] 2020/04/22 16:33 hkimscil 2020/04/20 16:12 hkimscil 2020/04/20 16:10 hkimscil 2020/04/20 16:10 hkimscil 2020/04/20 16:09 hkimscil 2020/04/20 14:49 hkimscil 2020/04/20 14:30 hkimscil 2020/04/20 14:30 hkimscil 2020/04/20 14:20 hkimscil 2020/04/20 14:20 hkimscil 2020/04/20 14:15 hkimscil [Introduction] 2020/04/12 08:07 hkimscil 2020/04/12 06:21 hkimscil 2020/01/20 00:20 hkimscil 2018/03/26 08:30 hkimscil [e.g.,] 2018/03/26 08:30 hkimscil [Summary] 2018/03/26 08:30 hkimscil 2018/03/19 08:54 hkimscil 2018/03/19 08:54 hkimscil 2016/06/23 13:46 hkimscil 2016/06/23 13:45 hkimscil 2016/06/23 13:45 hkimscil 2016/06/23 13:44 hkimscil 2016/06/23 13:44 hkimscil 2016/06/23 13:43 hkimscil 2016/03/25 19:06 hkimscil 2016/03/25 19:05 hkimscil 2016/03/23 10:13 hkimscil 2016/03/23 10:11 hkimscil 2016/03/23 10:07 hkimscil 2016/03/23 08:23 hkimscil 2016/03/23 08:22 hkimscil 2016/03/23 08:01 hkimscil 2016/03/23 07:52 hkimscil 2015/09/22 08:40 hkimscil 2015/09/22 08:38 hkimscil created Line 1: Line 1: - ====== ​CLT ====== + ====== ​중심극한정리 (Central Limit Theorem) ​====== - ===== Introduction ​===== + 수학적으로 간단히 표현하면,​ - Central Limit Theorem (CLT) 이란:: 평균이 $\mu$ , 그리고 표준편차( $s$ )가 $\sigma$ 인 모든 종류의 모집단에서,​ 샘플 숫자를 $n$ 으로 하여 샘플평균을 분포시키면,​ 그 분포는 정규분포(normal distribution)에 가까와지며, 그 분포의 평균(mean,​ $\mu_{\overline{x}}$ )은 $\mu$ 와 같은 값이 되고, 표준편차(stdev,​ $s_{\overline{x}}$ )는 $\sigma / \sqrt{n}$ 가 된다는 것이다. ​ + $\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 혹은 + $\overline{X} \sim \displaystyle \text{N} \left(\mu, \left(\dfrac{\sigma}{\sqrt{n}}\right)^{2} \right)$ 을 말한다. + + ===== 소개 ​===== + Central Limit Theorem (CLT) 이란:: 평균이 $\mu$ , 그리고 표준편차( $s$ )가 $\sigma$ 인 모든 종류의 모집단에서,​ 샘플 숫자를 $n$ 으로 하여 샘플평균을 분포시키면,​ 그 분포는 정규분포(normal distribution)를 이루며, 그 분포의 평균(mean,​ $\mu_{\overline{x}}$ )은 $\mu$ 와 같은 값이 되고((참조: [[mean and variance of the sample mean]])), 표준편차(stdev,​ $s_{\overline{x}}$ )는 $\sigma / \sqrt{n}$가 된다는 것이다. ​ + + {{  :​pasted:​20200420-135017.png?​450}} + 위는 사이즈, n=36 의 샘플을 무한반복해서 (여기서는 무한반복할 수 없으므로 10,000번) 취한 샘플들의 평균을 기록한 히스토그램. 여기서 우리는 그림만으로 "아, 이 그래프의 최소값은 60정도이고 최대값은 80 정도로군"​ 이라고 파악할 수 있다. 따라서, 대략이지만 우리는 아래 같은 이야기를 할 수 있다. + + * 우리가 만약 n=36개짜리 샘플을 하나 뽑는다면,​ 그 샘플의 평균은 위의 그래프 어딘가에 존재하게 된다. + * 그림이지만,​ 우리는 최소, 최대값이 각각 60과 80이므로 그 샘플의 평균이 60에서 80사이에 존재할 확률은 거의 1이 될 것이라고 할 수 있다. 그러나, 그림만으로는 그 최소값이 (최대값이) 정확이 어디에 위치하는지는 모른다. + * 만약에 우리가 위 그래프의 [[:standard deviation|표준편차를]] 알고 있다면 우리는 이의 특징인 68-95-99%법칙을 이용해서 n=36짜리 샘플의 평균이 나올 확률을 이야기해볼 수 있다. 즉, 그래프의 sd값이 a라고 한다면, 우리는 전체 평균인 70을 중심으로 왼쪽으로 a, 오른 쪽으로 a만큼 떨어진 부분이 약 68%이므로 70 +- a 에서 평균이 나올 확률은 68%라고 한다. 만약에 2a를 사용한다면,​ 우리는 70 +- 2a 부분만큼이 95%이므로 70 +- 2a 사이에서 그 평균이 나올 확률은 95%라고 한다. 70 +- 3a 또한 마찬가지 논리로 99%의 확률로 그 평균이 이 구간에서 존재하게 된다. + * 그런데 우리는 [[:mean and variance of the sample mean]]이라는 문서를 통해서 아래를 알고 있다. + * $\mu_{\overline{X}} = E[\overline{X}] = \mu$ + * $\sigma_{\overline{X}} = Var[\overline{X}] = \dfrac{\sigma^{2}}{n}$ + * 이를 위의 상황에 대입해보면 + * $\text{mean of population} = \mu = 70$이고, + * $\text{standard deviation of population} = \sigma = 15 일 때$ + * $n = 36$ 크기의 샘플을 무한 반복해서 뽑아 그 평균을 기록한다면 + + * 그 샘플평균들의 평균은, 즉, $\mu_{\overline{X}} = E[\overline{X}] = \mu = 70$ 일 것이고 + * 그 샘플평균들의 분산값은,​ $\sigma^{2}_{\overline{X}} = Var[\overline{X}] = \dfrac{\sigma^{2}}{n} = \dfrac{15^2}{36} = 225/36 = 6.25$ 일 것이며, 따라서 + * 그 샘플평균들의 표준편차 값은 $\sigma_{\overline{X}} = \sqrt{6.25} = 2.5$ 임을 알 수 있다. + + * 위로 인해 우리는 언급하였던 a가 2.5 임을 알게 되었다. 따라서, 우리는 + * 70 +- 2.5인 67.5 -- 72.5 에서 n=36 짜리 샘플의 평균이 나타날 확률은, 다시 이야기 하면 n=36짜리 샘플의 평균이 67.5 -- 72.5 사이에 존재할 확률은 68% 라고 주장할 수 있다. + * 마찬가지로 65 -- 75 사이에서 그 샘플의 평균이 존재할 확률은 95% 이다. + * 62.5 -- 77.5 사이에서 평균이 나타날 확률은 99% 일 것이다 라고 주장할 수 있다. + + {{:​pasted/​20200414-213151.png}} + + 우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았다. 그리고, 이는 [[:mean and variance of the sample mean]]이라는 문서를 통해서도 그것을 알수 있다 + * n = 4 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{2} = 7.5$ + * n = 36 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{6} = 2.5$ + * n = 100 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{10} = 1.5$ + * n = 400 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{20} = 0.75$ + * n = 900 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{30} = 0.5$ + * . . . + * n = 2500 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{50} = 0.3$ + * n = 3600 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{60} = 0.25$ + + 그런데, 각 단계에서 $\sigam_{\overline{X}}$의 차이값은 + * n = 4, + * n = 36, 7.5 - 2.5 = 5 + * n = 100, 2.5 - 1.5 = 1 + * n = 400, 1.5 - 0.75  = 0.75 + * n = 900, 0.75 - 0.5  = 0.25 + * n = 2500, 0.5 - 0.3  = 0.2 + * n = 3600, 0.3 - 0.25  = 0.05 + + 즉, 샘플의 숫자가 커질 수록 $\sigam_{\overline{X}}$ 의 단위는 작아지는데,​ 작아지는 정도가 (스케일이) 점차 줄어든다. 즉, 처음에는 5만큼으로 드라마틱하게 줄고, 다음은 1만큼, 다음은 3/4만큼, 다음은 1/4만큼, . . . . + + 위의 이야기는 아래와 같이 정리할 수 있다. + + $\text{N} \left(\mu, \sigma \right)$ 인 분포에서 n = n인 샘플을 계속 취해서 그 샘플들의 평균을 모은 분포는 __정규분포에 가까와 진다__. __정규분포에 가까와 진다__. - * 정규분포에 가까와 진다고 표현한 것은 샘플의 숫자가 작을 경우에는 정규분포와 완전하게 일치하지 않기 때문이다. 그러나, n=30 정도만 되면 샘플평균들의 분포는 거의 완벽한 정규분포곡선을 만든다. 사실, 아래의 두 조건 중 어느 하나만을 만족하면,​ distribution of sample means은 완전한 normal distribution을 만든다. 즉, + * 정규분포에 가까와 진다고 표현한 것은 샘플의 숫자가 작을 경우에는 정규분포와 완전하게 일치하지 않기 때문이다. 그러나, n=30 정도만 되면 샘플평균들의 분포는 거의 완벽한 정규분포곡선을 만든다. 사실, 아래의 두 조건 중 어느 하나만을 만족하면,​ distribution of sample means는 ([[:​sampling distribution]]은) 완전한 normal distribution을 만든다. 즉, * sample을 취하는 population이 normal distribution을 이룬다 * sample을 취하는 population이 normal distribution을 이룬다 - __n이 비교적 클 때. 약 30 이상일 때__. + __그 샘플평균분포의 평균은 모집단의 평균을 따른다__. * "mean of sample means은 population의 mean값과 같다"​ 즉, 샘플평균들의 평균은 모집단의 평균값과 같아진다. * "mean of sample means은 population의 mean값과 같다"​ 즉, 샘플평균들의 평균은 모집단의 평균값과 같아진다. * 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서,​ the mean of the distribution of sample means를 expected value of $\overline{X}$ 라고 부른다.) ​ * 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서,​ the mean of the distribution of sample means를 expected value of $\overline{X}$ 라고 부른다.) ​ + * 이는 $E[\overline{X}] = \mu$ 라고 설명한 부분이다. - __Standard Error__  ​\\ + __샘플평균분포의 분산은__ $\dfrac{\sigma^{2}}{n}$ __을 따른다__ - standard deviation of the distribution of sample ​means를 특별히 standard error of $\overline{X}$ 라고 부른다. + standard deviation of the distribution of the sample ​mean를 (샘플평균들의 표준편차를) ​특별히 ​ + standard error of $\overline{X}$ 라고 ​(샘플평균의 표준오차)부르는데 그 값은 $\dfrac{\sigma}{\sqrt{n}}$를 따르게 된다. [[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $\sigma_{\overline{X}}$ = standard deviation distance between $\overline{X}$ and $\mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다. ​ [[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $\sigma_{\overline{X}}$ = standard deviation distance between $\overline{X}$ and $\mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다. ​ Line 26: Line 82: 위에서 첫번째를 살펴보면,​ 샘플의 크기가 커질 수록 분모의 숫자인 $\sqrt{n}$ 의 값은 커지고, 따라서 se의 값은 작아진다는 것을 의미한다. se가 작아진다는 것은 distribution of samples means 의 전체적인 분포곡선이 평균을 중심으로 좁게 분포되어 있다는 것을 의미하고,​ 이는 곧 n값이 크게 되면, 한 샘플의 평균이 원래 평균에서 크게 벗어나지 않게 된다는 것을 의미한다. 우리가 샘플의 크기를 적당히 크게 잡는 이유는 한 샘플의 평균이 원래의 모집단 평균에서 크게 벗어나지 않기를 바라기 때문이다. 위에서 첫번째를 살펴보면,​ 샘플의 크기가 커질 수록 분모의 숫자인 $\sqrt{n}$ 의 값은 커지고, 따라서 se의 값은 작아진다는 것을 의미한다. se가 작아진다는 것은 distribution of samples means 의 전체적인 분포곡선이 평균을 중심으로 좁게 분포되어 있다는 것을 의미하고,​ 이는 곧 n값이 크게 되면, 한 샘플의 평균이 원래 평균에서 크게 벗어나지 않게 된다는 것을 의미한다. 우리가 샘플의 크기를 적당히 크게 잡는 이유는 한 샘플의 평균이 원래의 모집단 평균에서 크게 벗어나지 않기를 바라기 때문이다. - 위의 방법은 숫자로 측정된(([[:​Level of Measurement]] 참조)) 변인([[:variable]])의 표준오차([[:​standard error]])를 구하는 경우에 사용되는 방법이다. 종류로 측정된 변인의 경우에는 다른 방법으로 표준오차값을 구하게 되는데 이에 대해서는 [[:Standard Error##​standard_error_nominal|Standard Error]] 문서에 자세하게 기록하여 두었다.  ​ + 위의 방법은 숫자로 측정된(([[:​Level of Measurement]] 참조)) 변인([[:variables]])의 표준오차([[:​standard error]])를 구하는 경우에 사용되는 방법이다. 종류로 측정된 변인의 경우에는 다른 방법으로 표준오차값을 구하게 되는데 이에 대해서는 [[:Standard Error##​standard_error_nominal|Standard Error]] 문서에 자세하게 기록하여 두었다.  ​ ===== Summary ​ ===== ===== Summary ​ ===== Line 37: Line 93: \end{eqnarray} \end{eqnarray} + 즉, 이는 ​ + $\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 를 말한다. ===== e.g., ===== ===== e.g., ===== Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\ Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\