User Tools

Site Tools


degrees_of_freedom

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Next revisionBoth sides next revision
degrees_of_freedom [2017/03/17 09:33] hkimscildegrees_of_freedom [2020/04/14 15:33] hkimscil
Line 14: Line 14:
  
 모집단의 평균치인 $\mu$ 를 쓰는 대신에 샘플의 평균인 $\overline{X}$ 를 사용하였다는 점과  모집단의 평균치인 $\mu$ 를 쓰는 대신에 샘플의 평균인 $\overline{X}$ 를 사용하였다는 점과 
-모집단 구성원의 숫자인 $ N $ 대신에 샘플의 숫자인 $ n $ 에서 $1$ 을 뺀, $n-1$ 을 사용하였다는 점이다 (n-1을 사용하는 이유에 대해서는 다른 곳에서 언급을 하였다 ([estimated standard deviation])). +모집단 구성원의 숫자인 $ N $ 대신에 샘플의 숫자인 $ n $ 에서 $1$ 을 뺀, $n-1$ 을 사용하였다는 점이다 (n-1을 사용하는 이유에 대해서는 다른 곳에서 언급을 하였다 ([[:estimated standard deviation]])). 
  
 여기에서 사용된 n-1을 degrees of freedom 혹은 자유도라고 말한다. 자유도는 해당 샘플의 평균 값을 유지하면서 자유롭게 어떤 값을 가질 수 있는 사례 수를 말한다.  여기에서 사용된 n-1을 degrees of freedom 혹은 자유도라고 말한다. 자유도는 해당 샘플의 평균 값을 유지하면서 자유롭게 어떤 값을 가질 수 있는 사례 수를 말한다. 
Line 30: Line 30:
  
 |   | Xi  | ds  | ds<sup>2</sup>  | |   | Xi  | ds  | ds<sup>2</sup>  |
-  | 2  | -1  | 1  | +| 2  | -1  | 1  | 
-  | 3  | 0  | 0  | +| 3  | 0  | 0  | 
-  | 2  | -1  | 1  | +| 2  | -1  | 1  | 
-  | 4  | 1  | 1  | +| 4  | 1  | 1  | 
-  | 5  | 2  | 4  | +| 5  | 2  | 4  | 
-  | 5  | 2  | 4  | +| 5  | 2  | 4  | 
-  | 2  | -1  | 1  | +| 2  | -1  | 1  | 
-  | 2  | -1  | 1  | +| 2  | -1  | 1  | 
-  | 4  | 1  | 1  | +| 4  | 1  | 1  | 
-  | 1  | -2  | 4  |+10 | 1  | -2  | 4  |
 | sum  | 30  | 0  | 18  | | sum  | 30  | 0  | 18  |
 | N  | 10  |     | | N  | 10  |     |
Line 58: Line 58:
 |variance  |n-1  | 3  |  | 1.67  | |variance  |n-1  | 3  |  | 1.67  |
  
-위에서 보면, 샘플의 평균은 3.5이고 (모집단 분산에서 사용되는 분산식을 사용한) 분산은 1.25이다. 이는 실제 모집단의 분산값인 1.8에 훨씬 못 미치는 수치이다. 그러나 n대신에 n-1로 나누어 주면, 샘플의 분산값은 1.67이 되는 이 분산 값이 모집단의 분산값에 더 가깝다. 또한 샘플의 분산값 계산에 쓰인 n-1인 3은 3개의 개체가 어떤 값을 가져도 나머지 한개의 값이 조정만된다면 전체 샘플의 평균값인 3.5를 유지할 수 있다. 다시 이야기 하면, 마지막 한 개의 값은 다른 개체와는 달리 어떤 숫자라도 가질 수 있는 자유를 잃게 된다. 따라서 우리는 이 샘플이 n-1의 자유도를 가졌다고 한다. 이 자유도는 'df'로 줄여서 많이 쓰인다.+위에서 보면, 샘플의 평균은 3.5이고 (모집단 분산에서 사용되는 분산식을 사용한) 분산은 1.25이다. 이는 실제 모집단의 분산값인 1.8에 훨씬 못 미치는 수치이다. 그러나 n대신에 n-1로 나누어 주면, 샘플의 분산값은 1.67이 된다. 이 분산 값이 모집단의 분산값에 더 가깝다.  
 + 
 +또한 샘플의 분산값 계산에 쓰인 n-1인 3은 3개의 개체가 어떤 값을 가져도 나머지 한개의 값이 조정만된다면 전체 샘플의 평균값인 3.5를 유지할 수 있다. 다시 이야기 하면, 마지막 한 개의 값은 다른 개체와는 달리 어떤 숫자라도 가질 수 있는 자유를 잃게 된다. 따라서 우리는 이 샘플이 n-1의 자유도를 가졌다고 한다. 이 자유도는 'df'로 줄여서 많이 쓰인다. 
 + 
 +아래는 r에서 이를 확인하는 작업이다. 집합 k의 parameter가 아래와 같을 때 
 +  * n = 10,  
 +  * mean = 3,  
 +  * sd = sqrt(2) = 1.414214 
 + 
 +4개의 샘플을 (ks) 구했을 때, ks의 statistics는 아래와 같다.  
 +  * mean = 2.25 
 +  * sd = 1.258306 
 +  * n-1 대신 n을 사용했을 때는 0.9437293 
 + 
 +<code> 
 +############ 
 +set.seed(1010)  
 +n.pop <- 20 
 +k <- sample(1:20, n.pop, replace = T) 
 +k.mean <- mean(k)  
 +k.pvar <- var(k)*((n.pop-1)/n.pop) ## population var(k) 
 +k.mean 
 +k.pvar 
 +############ 
 +n.samp <- 3 
 +ks <- sample(k, n.samp) 
 +ks 
 +ks.mean <- mean(ks) 
 +ks.var <- var(ks) 
 +ks.pvar <- var(ks)*((n.samp-1)/n.samp) 
 + 
 +ks.mean ## sample mean  
 +ks.var ## sample variance 
 +ks.pvar ## sample variance as population 
 +k.mean ## population mean 
 +k.pvar ## population variance as pop 
 +############ 
 +</code> 
  
 수학적인 증명을 보려면 [[:why n-1]] 참조 수학적인 증명을 보려면 [[:why n-1]] 참조
 +
  
 {{tag>"research methods" statistics n-1 "degrees of freedom" 자유도}} {{tag>"research methods" statistics n-1 "degrees of freedom" 자유도}}
  
degrees_of_freedom.txt · Last modified: 2021/03/03 11:24 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki