degrees_of_freedom
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionNext revisionBoth sides next revision | ||
degrees_of_freedom [2016/06/23 19:01] – hkimscil | degrees_of_freedom [2020/04/11 18:06] – hkimscil | ||
---|---|---|---|
Line 14: | Line 14: | ||
모집단의 평균치인 $\mu$ 를 쓰는 대신에 샘플의 평균인 $\overline{X}$ 를 사용하였다는 점과 | 모집단의 평균치인 $\mu$ 를 쓰는 대신에 샘플의 평균인 $\overline{X}$ 를 사용하였다는 점과 | ||
- | 모집단 구성원의 숫자인 $ N $ 대신에 샘플의 숫자인 $ n $ 에서 $1$ 을 뺀, $n-1$ 을 사용하였다는 점이다 (n-1을 사용하는 이유에 대해서는 다른 곳에서 언급을 하였다 ([estimated standard deviation])). | + | 모집단 구성원의 숫자인 $ N $ 대신에 샘플의 숫자인 $ n $ 에서 $1$ 을 뺀, $n-1$ 을 사용하였다는 점이다 (n-1을 사용하는 이유에 대해서는 다른 곳에서 언급을 하였다 ([[:estimated standard deviation]])). |
여기에서 사용된 n-1을 degrees of freedom 혹은 자유도라고 말한다. 자유도는 해당 샘플의 평균 값을 유지하면서 자유롭게 어떤 값을 가질 수 있는 사례 수를 말한다. | 여기에서 사용된 n-1을 degrees of freedom 혹은 자유도라고 말한다. 자유도는 해당 샘플의 평균 값을 유지하면서 자유롭게 어떤 값을 가질 수 있는 사례 수를 말한다. | ||
Line 22: | Line 22: | ||
* 샘플 개체 중 `n-1`개의 개체는 자유롭게 아무 값이나 가져도 되지만, 샘플의 평균인 $\overline{X}$ 를 유지하기 위해서 마지막의 갯체는 어쩔 수 없는 고정값을 가져야 한다. | * 샘플 개체 중 `n-1`개의 개체는 자유롭게 아무 값이나 가져도 되지만, 샘플의 평균인 $\overline{X}$ 를 유지하기 위해서 마지막의 갯체는 어쩔 수 없는 고정값을 가져야 한다. | ||
- | 샘플 평균을 유지하면서 각 개체의 점수가 자유로울 수 있는, 최대 허용된 사례수를 | + | 샘플 평균을 유지하면서 각 개체의 점수가 자유로울 수 있는, 최대 허용된 사례수를 |
예를 들면 아래는 어느 한 모집단의 구성원이 한달 동안 읽는 책의 숫자를 정리한 표이다. | 예를 들면 아래는 어느 한 모집단의 구성원이 한달 동안 읽는 책의 숫자를 정리한 표이다. | ||
Line 30: | Line 30: | ||
| | Xi | ds | ds< | | | Xi | ds | ds< | ||
- | | | + | | 1 | 2 | -1 | 1 | |
- | | | + | | 2 | 3 | 0 | 0 | |
- | | | + | | 3 | 2 | -1 | 1 | |
- | | | + | | 4 | 4 | 1 | 1 | |
- | | | + | | 5 | 5 | 2 | 4 | |
- | | | + | | 6 | 5 | 2 | 4 | |
- | | | + | | 7 | 2 | -1 | 1 | |
- | | | + | | 8 | 2 | -1 | 1 | |
- | | | + | | 9 | 4 | 1 | 1 | |
- | | | + | | 10 | 1 | -2 | 4 | |
| sum | 30 | 0 | 18 | | | sum | 30 | 0 | 18 | | ||
| N | 10 | | | N | 10 | | ||
Line 58: | Line 58: | ||
|variance | |variance | ||
- | 위에서 보면, 샘플의 평균은 3.5이고 (모집단 분산에서 사용되는 분산식을 사용한) 분산은 1.25이다. 이는 실제 모집단의 분산값인 1.8에 훨씬 못 미치는 수치이다. 그러나 n대신에 n-1로 나누어 주면, 샘플의 분산값은 1.67이 | + | 위에서 보면, 샘플의 평균은 3.5이고 (모집단 분산에서 사용되는 분산식을 사용한) 분산은 1.25이다. 이는 실제 모집단의 분산값인 1.8에 훨씬 못 미치는 수치이다. 그러나 n대신에 n-1로 나누어 주면, 샘플의 분산값은 1.67이 |
+ | |||
+ | 아래는 r에서 이를 확인하는 작업이다. 집합 k의 parameter가 아래와 같을 때 | ||
+ | * n = 10, | ||
+ | * mean = 3, | ||
+ | * sd = sqrt(2) = 1.414214 | ||
+ | |||
+ | 4개의 샘플을 (ks) 구했을 때, ks의 statistics는 아래와 같다. | ||
+ | * mean = 2.25 | ||
+ | * sd = 1.258306 | ||
+ | * n-1 대신 n을 사용했을 때는 0.9437293 | ||
+ | |||
+ | < | ||
+ | ############ | ||
+ | set.seed(1010) | ||
+ | n.pop <- 20 | ||
+ | k <- sample(1: | ||
+ | k.mean <- mean(k) | ||
+ | k.pvar <- var(k)*((n.pop-1)/ | ||
+ | k.mean | ||
+ | k.pvar | ||
+ | ############ | ||
+ | n.samp <- 3 | ||
+ | ks <- sample(k, n.samp) | ||
+ | ks | ||
+ | ks.mean <- mean(ks) | ||
+ | ks.var <- var(ks) | ||
+ | ks.pvar <- var(ks)*((n.samp-1)/ | ||
+ | |||
+ | ks.mean ## sample mean | ||
+ | ks.var ## sample variance | ||
+ | ks.pvar ## sample variance as population | ||
+ | k.mean ## population mean | ||
+ | k.pvar ## population variance as pop | ||
+ | ############ | ||
+ | </ | ||
수학적인 증명을 보려면 [[:why n-1]] 참조 | 수학적인 증명을 보려면 [[:why n-1]] 참조 | ||
+ | |||
{{tag>" | {{tag>" | ||
degrees_of_freedom.txt · Last modified: 2021/03/03 11:24 by hkimscil