Differences

This shows you the differences between two versions of the page.

--- degrees_of_freedom [2019/09/24 12:37] – hkimscil
+++ degrees_of_freedom [2020/04/14 15:33] – hkimscil
@@ Line 30: / Line 30: @@
 |   | Xi  | ds  | ds<sup>2</sup>  |
-|   | 2  | -1  | 1  |
+| 1 | 2  | -1  | 1  |
-|   | 3  | 0  | 0  |
+| 2 | 3  | 0  | 0  |
-|   | 2  | -1  | 1  |
+| 3 | 2  | -1  | 1  |
-|   | 4  | 1  | 1  |
+| 4 | 4  | 1  | 1  |
-|   | 5  | 2  | 4  |
+| 5 | 5  | 2  | 4  |
-|   | 5  | 2  | 4  |
+| 6 | 5  | 2  | 4  |
-|   | 2  | -1  | 1  |
+| 7 | 2  | -1  | 1  |
-|   | 2  | -1  | 1  |
+| 8 | 2  | -1  | 1  |
-|   | 4  | 1  | 1  |
+| 9 | 4  | 1  | 1  |
-|   | 1  | -2  | 4  |
+| 10 | 1  | -2  | 4  |
 | sum  | 30  | 0  | 18  |
 | N  | 10  |   |   |
@@ Line 58: / Line 58: @@
 |variance  |n-1  | 3  |  | 1.67  |
-위에서 보면, 샘플의 평균은 3.5이고 (모집단 분산에서 사용되는 분산식을 사용한) 분산은 1.25이다. 이는 실제 모집단의 분산값인 1.8에 훨씬 못 미치는 수치이다. 그러나 n대신에 n-1로 나누어 주면, 샘플의 분산값은 1.67이 된다. 이 분산 값이 모집단의 분산값에 더 가깝다. 또한 샘플의 분산값 계산에 쓰인 n-1인 3은 3개의 개체가 어떤 값을 가져도 나머지 한개의 값이 조정만된다면 전체 샘플의 평균값인 3.5를 유지할 수 있다. 다시 이야기 하면, 마지막 한 개의 값은 다른 개체와는 달리 어떤 숫자라도 가질 수 있는 자유를 잃게 된다. 따라서 우리는 이 샘플이 n-1의 자유도를 가졌다고 한다. 이 자유도는 'df'로 줄여서 많이 쓰인다.
+위에서 보면, 샘플의 평균은 3.5이고 (모집단 분산에서 사용되는 분산식을 사용한) 분산은 1.25이다. 이는 실제 모집단의 분산값인 1.8에 훨씬 못 미치는 수치이다. 그러나 n대신에 n-1로 나누어 주면, 샘플의 분산값은 1.67이 된다. 이 분산 값이 모집단의 분산값에 더 가깝다.
-수학적인 증명을 보려면 [[:why n-1]] 참조
+또한 샘플의 분산값 계산에 쓰인 n-1인 3은 3개의 개체가 어떤 값을 가져도 나머지 한개의 값이 조정만된다면 전체 샘플의 평균값인 3.5를 유지할 수 있다. 다시 이야기 하면, 마지막 한 개의 값은 다른 개체와는 달리 어떤 숫자라도 가질 수 있는 자유를 잃게 된다. 따라서 우리는 이 샘플이 n-1의 자유도를 가졌다고 한다. 이 자유도는 'df'로 줄여서 많이 쓰인다.
+아래는 r에서 이를 확인하는 작업이다. 집합 k의 parameter가 아래와 같을 때
+  * n = 10,
+  * mean = 3,
+  * sd = sqrt(2) = 1.414214
+개의 샘플을 (ks) 구했을 때, ks의 statistics는 아래와 같다.
+  * mean = 2.25
+  * sd = 1.258306
+  * n-1 대신 n을 사용했을 때는 0.9437293
 <code>
-k <- c(2, 3, 2, 4, 5, 5, 2, 2, 4, 1)
+############
-set.seed(1024)
+set.seed(1010)
-ks <- sample(k, 4)
+n.pop <- 20
-mean(ks)
+k <- sample(1:20, n.pop, replace = T)
-sd(ks)
+k.mean <- mean(k)
-(sd(ks)*3)/4
+k.pvar <- var(k)*((n.pop-1)/n.pop) ## population var(k)
-#########
+k.mean
-mean(k)
+k.pvar
-sd(k)
+############
+n.samp <- 3
+ks <- sample(k, n.samp)
+ks
+ks.mean <- mean(ks)
+ks.var <- var(ks)
+ks.pvar <- var(ks)*((n.samp-1)/n.samp)
+ks.mean ## sample mean
+ks.var ## sample variance
+ks.pvar ## sample variance as population
+k.mean ## population mean
+k.pvar ## population variance as pop
+############
 </code>
-<code>
-> k <- c(2, 3, 2, 4, 5, 5, 2, 2, 4, 1)
+수학적인 증명을 보려면 [[:why n-1]] 참조
-> k
- [1] 2 3 2 4 5 5 2 2 4 1
->
-> set.seed(1024)
-> ks <- sample(k, 4)
-> mean(ks)
-[1] 2.25
-> sd(ks)
-[1] 1.258306
-> (sd(ks)*3)/4
-[1] 0.9437293
->
-> sd(k)
-[1] 1.414214
->
-> mean(k)
-[1] 3
-</code>
 {{tag>"research methods" statistics n-1 "degrees of freedom" 자유도}}