User Tools

Site Tools


estimated_standard_deviation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
estimated_standard_deviation [2019/10/19 05:05] hkimscilestimated_standard_deviation [2023/09/13 11:00] (current) hkimscil
Line 1: Line 1:
 ====== Why n-1 ====== ====== Why n-1 ======
-Why we use n-1 instead of n in getting standard deviation \\ +문제.
-http://www.qc.edu.hk/math/Advanced%20Level/Standard_deviation.htm \\ +
-우선, Expected value (기대값)와 Variance (분산)의 연산은 아래와 같이 계산될 수 있다.+
  
-<WRAP box 450px> +우리는 모집단의 (population) 평균값을 알고 있다면 샘플의 분산값을 다음과 같이 구할 수 있다. 그리고이것을 모집단의 분산값으로 추정할 수 있다
-X,Y are Independent variables.+
  
 \begin{eqnarray*} \begin{eqnarray*}
-E[aX] &=& a E[X] \\ +\hat{\sigma}^{2} = \dfrac {\displaystyle\sum_{i=1}^{n}{(X_{i}-\mu)}} {n} 
-E[X+Y] &=& E[X] + E[Y] \\ +
-Var[aX] &=& a^{\tiny{2}} Var[X] \+
-Var[X+Y] &=& Var[X] + Var[Y]  +
 \end{eqnarray*} \end{eqnarray*}
  
-</WRAP>+그러나, 현재 우리가 가지고 있는 것은 샘플 밖에 없다. 즉, 모집단의 평균은 알지 못하는 상태이기에 모집단 분산을 추정하는 계산에 사용할 수 없다. 따라서 샘플의 평균을 사용한다. 그런데, 샘플의 평균을 사용할 때는 분모에 N 대신에 n-1을 사용해야 한다. 왜 n-1을 사용하는것이 모집단의 분산값 추정에 도움이 되는가가 문제이다. 
  
-이때, 한 샘플의 평균값을 $X$ 라고 하면, 평균들의 합인 $S_k$ 는 +\begin{eqnarray*} 
 +\hat{\sigma}^{2} \neq \frac {\displaystyle\sum_{i=1}^{n}{(X_{i}-\overline{X})}} {n}  
 +\end{eqnarray*}
  
-$$ S_{k} = X_1 + X_2 + . . . + X_k $$+\begin{eqnarray*} 
 +\hat{\sigma}^{2} = \frac {\displaystyle\sum_{i=1}^{n}{(X_{i}-\overline{X})}} {n-1}  
 +\end{eqnarray*}
  
-와 같다.+이 모집단의 분산값을 ($\sigma^2$) 대표함을 알아보는 것이 문제이다.
  
-이렇게 얻은 샘플들(k 개의)의 평균인 $A_k$ 는,  
  
-$$A_k \displaystyle \frac{(X_1 + X_2 + . . . + X_k)}{k} \frac{S_{k}}{k} $$+====== 직관적 이해 ====== 
 +위에서 n-1 을 사용하기 위해서 추정하는 것은 
  
-라고 할 수 있다. +\begin{eqnarray*} 
 +\sum_{i=1}^{n} {(X_{i}-\mu)} > \sum_{i=1}^{n} {(X_{i}-\overline{X})} 
 +\end{eqnarray*}
  
-때, +라는 점다. 따라서 n 대신 n-1로 나눠주어서 "작은 값을 갖는 경향의 문제점을" 상쇄한다.
  
-$$ +아래는 20개의 원소를 갖는 k 집합을 예이다
-\begin{align*} +''= {6, 4, 16, 12, 4, 13, 18, 16, 7, 11, 5, 11, 9, 11, 18, 1, 7, 2, 5, 3}''
-E[S_k] & = E[X_1 + X_2 + . . +X_k] \\ +
-   & E[X_1] + E[X_2] + . . . + E[X_k] \\ +
-   & = \mu + \mu + . . . + \mu = k * \mu \\ +
-\end{align*} +
-$$ +
-  +
-$$ +
-\begin{align*} +
-Var[S_k] & = Var[X_1 + X_2 + . . . +X_k]  \\ +
-     & = Var[X_1] + Var[X_2] + \dots + Var[X_k] \\ +
-     & = k * \sigma^ +
-\end{align*} +
-$$+
  
-이다.+우리는 이 집합의 평균과 분산값이 각각 8.95 와 27.2475 임을 알고 있다. 이 때 분산값은 24.2475는 SS값을 구한 후, 이를 N으로 나눈 값이다. 
  
-면, $A_k$ 에 관한 기대값과 분산값은: +위의 모집단에서 3개의 샘플을 취하여 S1 = {4, 11, 18}을 얻었고, 그 평균값은 11이. 위의 샘플서 모집단의 분산값을 예측한다고 할 때, 모집단의 (N=20인) 평균값을 안다고 하면 우리는  
 +| s1 | mu | deviation score | ds<sup>2</sup> 
 +| 4  | 8.95  | -4.95  | 24.5025   | 
 +| 11  | 8.95  | 2.05  | 4.2025   | 
 +| 18  | 8.95  | 9.05  | 81.9025   | 
 +|    |    | SS<sub>pop</sub>  | 110.6075  |
  
-$$ +SS<sub>pop</sub> 값으로 110.6075 값을 얻는다. 그러나, 위의 경우는 특별한 예이고 대개의 경우 우리는 모집단의 평균값을 알지 못한다. 이 경우 우리는 3개로 취한 샘플의 평균값을 이용하여 SS 부분을 구하게 된다 (SS<sub>samp</sub>).
-\begin{align*} +
-E[A_k] & = E[\frac{S_k}{k}] \\ +
- & = \frac{1}{k}*E[S_k] \\ +
- & = \frac{1}{k}*k*\mu = \mu  +
-\end{align*} +
-$$+
  
-이고,+| s1 | $\overline{X}$ | deviation score | ds<sup>2</sup> 
 +| 4  | 11  | -7  | 49   | 
 +| 11  | 11  | 0  | 0   | 
 +| 18  | 11  | 7  | 49   | 
 +|    |    | SS<sub>samp</sub>  | 98  |
  
-$$ +이렇게 얻은 SS<sub>samp</sub>값은 98인데, 이 값은 SS<sub>pop</sub> 값보다 작다. 아래의 R code는 이를 확인해 보는 작업이다. 각각의 샘플에서 (n=3) 취한 SS<sub>samp</sub> 값은 SS<sub>pop</sub>값보다 작게 된다. 따라서 이 작은 값을 상쇄하기 위해서 n 대신 n-로 SS<sub>samp</sub> 값을 나누어 준다.
-\begin{align*} +
-Var[A_k] & Var[\frac{S_k}{k}] \\ +
- & = \frac{1}{k^2} Var[S_k] \\ +
- & = \frac{1}{k^2}*k*\sigma^2 \\ +
- & = \frac{\sigma^2}{k} \nonumber +
-\end{align*} +
-$$+
  
-라고 할 수 있다.  
  
  
-한편, 분산값은  
  
-$$ +<code> 
-\begin{align*} +############ 
-Var[X] & = {E{(X-\mu)^2}} \\ +set.seed(1010)  
-& = E[(X^2 2 X \mu + \mu^2)] \\ +n.pop <20 
-& = E[X^2] 2 \mu E[X] + E[\mu^2] \\ +k <sample(1:20n.popreplace T) 
-& = E[X^2] - 2 \mu E[X] + E[\mu^2]\;\; \text{because E[X]=} \mu \text{\; E[} \mu^2 \text{] } \mu^2, \\ +
-& = E[X^2] 2 \mu^2 + \mu^2   \\ +k.mean <mean(k)  
-& = E[X^2] \mu^2 \;\;\; \dots \dots \dots \dots \dots [1] +k.pvar <- var(k)*((n.pop-1)/n.pop) ## population var(k) 
-\end{align*} +k.mean 
-$$+k.pvar
  
-라고 할때+############ 
 +n.samp <- 3 
 +ks <- sample(kn.samp) 
 +ks 
 +ks.mean <- mean(ks) 
 +ks.var <- var(ks) 
 +ks.pvar <- var(ks)*((n.samp-1)/n.samp) 
 +############ 
 +ks-k.mean 
 +ks-ks.mean 
 +sum((ks-k.mean)^2) 
 +sum((ks-ks.mean)^2) 
 +</code>
  
 +<code>
 +############
 +set.seed(3) # another sample
 +n.samp <- 3
 +ks <- sample(k, n.samp)
 +ks
 +ks.mean <- mean(ks)
 +ks.var <- var(ks)
 +ks.pvar <- var(ks)*((n.samp-1)/n.samp)
 +############
 +ks-k.mean
 +ks-ks.mean
 +sum((ks-k.mean)^2)
 +sum((ks-ks.mean)^2)
  
-$ Var[X + Y] $ 를 구하고자 한다면우선 +############ 
 +set.seed(5) # another sample 
 +n.samp <- 3 
 +ks <- sample(kn.samp) 
 +ks 
 +ks.mean <- mean(ks) 
 +ks.var <- var(ks) 
 +ks.pvar <- var(ks)*((n.samp-1)/n.samp) 
 +############ 
 +ks-k.mean 
 +ks-ks.mean 
 +sum((ks-k.mean)^2) 
 +sum((ks-ks.mean)^2)
  
-$$ +############ 
-\begin{align} +set.seed(7) # another sample 
-\displaystyle E[X] = \mu_{X} = a \\ +n.samp <- 3 
-\displaystyle E[Y] = \mu_{Y}  = b  +ks <- sample(k, n.samp) 
-\end{align} +ks 
-$$+ks.mean <- mean(ks) 
 +ks.var <- var(ks) 
 +ks.pvar <- var(ks)*((n.samp-1)/n.samp) 
 +############ 
 +ks-k.mean 
 +ks-ks.mean 
 +sum((ks-k.mean)^2) 
 +sum((ks-ks.mean)^2) 
 +</code>
  
-이라고 할 때+<code> 
 +> ############ 
 +> set.seed(1010)  
 +> n.pop <- 20 
 +> k <- sample(1:20n.pop, replace = T) 
 +> k 
 + [1]  6  4 16 12  4 13 18 16  7 11  5 11  9 11 18  1  7  2  5  3 
 +> k.mean <- mean(k)  
 +> k.pvar <- var(k)*((n.pop-1)/n.pop) ## population var(k) 
 +> k.mean 
 +[1] 8.95 
 +> k.pvar 
 +[1] 27.2475 
 +> ############ 
 +> n.samp <- 3 
 +> ks <- sample(k, n.samp) 
 +> ks 
 +[1] 11 13 18 
 +> ks.mean <- mean(ks) 
 +> ks.var <- var(ks) 
 +> ks.pvar <- var(ks)*((n.samp-1)/n.samp) 
 +> ############ 
 +> ks-k.mean 
 +[1] 2.05 4.05 9.05 
 +> ks-ks.mean 
 +[1] -3 -1  4 
 +> sum((ks-k.mean)^2) 
 +[1] 102.5075 
 +> sum((ks-ks.mean)^2) 
 +[1] 26 
 +</code>
  
 +<code>
 +> ############
 +> set.seed(3) # another sample
 +> n.samp <- 3
 +> ks <- sample(k, n.samp)
 +> ks
 +[1]  4 11 18
 +> ks.mean <- mean(ks)
 +> ks.var <- var(ks)
 +> ks.pvar <- var(ks)*((n.samp-1)/n.samp)
 +> ############
 +> ks-k.mean
 +[1] -4.95  2.05  9.05
 +> ks-ks.mean
 +[1] -7  0  7
 +> sum((ks-k.mean)^2)
 +[1] 110.6075
 +> sum((ks-ks.mean)^2)
 +[1] 98
 +
  
-$$ +> ############ 
-\begin{align*}  +> set.seed(5) # another sample 
-Var [X + Y& = \displaystyle E[(X+Y)^2] - (a+b)^2 \\ +> n.samp <- 3 
-    & = E[(X^2 + 2XY + Y^2)] - (a^2 + 2ab b^2) \;\cdots\;\cdots\; \cdots\; [a]  +> ks <- sample(k, n.samp) 
-\end{align*} +> ks 
-$$+[1  5 18 
 +> ks.mean <- mean(ks) 
 +> ks.var <var(ks
 +> ks.pvar <- var(ks)*((n.samp-1)/n.samp) 
 +> ############ 
 +> ks-k.mean 
 +[1] -4.95 -3.95  9.05 
 +> ks-ks.mean 
 +[1] -5 -4  9 
 +> sum((ks-k.mean)^2) 
 +[1122.0075 
 +> sum((ks-ks.mean)^2) 
 +[1] 122
  
  
-그런데 +> ############ 
 +> set.seed(7) # another sample 
 +> n.samp <- 3 
 +> ks <- sample(k, n.samp) 
 +> ks 
 +[1] 11  5 18 
 +> ks.mean <- mean(ks) 
 +> ks.var <- var(ks) 
 +> ks.pvar <- var(ks)*((n.samp-1)/n.samp) 
 +> ############ 
 +> ks-k.mean 
 +[1]  2.05 -3.95  9.05 
 +> ks-ks.mean 
 +[1] -0.3333333 -6.3333333  6.6666667 
 +> sum((ks-k.mean)^2) 
 +[1] 101.7075 
 +> sum((ks-ks.mean)^2) 
 +[1] 84.66667 
 +>  
 +</code> 
 +위의 코드에서  
 +''sum%%(%%%%(%%ks-k.mean)^2) '' = $\sum({X_{i}-\mu})^{2}$ 
 +''sum%%(%%%%(%%ks-ks.mean)^2) '' = $\sum({X_{i}-\overline{X}})^{2}$ 
 +, 위의 케이스를 보면 
  
-$ E[XY] = E[X] E[Y], $ , $X$ 와 $Y$ 가 서로 독립적 (independent이므로  +''sum%%(%%%%(%%ks-k.mean)^2) '' > ''sum%%(%%%%(%%ks-ks.mean)^2) '' , 
-$$ E[XY] = a b $$+$\sum({X_{i}-\mu})^{2} > \sum({X_{i}-\overline{X}})^{2}이다.
  
 +이를 그림으로 설명하면 다음과 같다. 아래에서 녹색의 세로선은 모집단의 평균값이고, 붉은색의 세로선은 3개로 이루어진 샘플의 평균값이다. 그리고 녹색 가로선은 3개의 샘플요소와 모집단평균과의 ($\mu$) 차이값들이고, 적색가로선은 3개의 샘플요소와 샘플평균과의 ($\overline{X}$) 차이값이다. 이 차이값들을 모아서 길이를 비교한 것이 그래프의 하단이다. 적색가로선 세개의 합이 녹색가로선 세개의 합보다 작다. 
 +{{:pasted:20200412-002825.png?800}}
  
-에 따라 위의 $ [a] $ 에서,+====== 실험적, 수학적 해 ====== 
 +\begin{eqnarray*} 
 +\sum_{i=1}^{n}{(X_{i}-\mu)}  \gt \sum_{i=1}^{n}{(X_{i}-\overline{X})} 
 +\end{eqnarray*} 
 +를 수학적으로 이해하는 방법이다. 우선 실험을 통해서 원하는 것이 무엇인가를 설명한다. 우선 R에서 평균이 20인 (sd = 4) 모집단을 만든다.
  
-$$ +<code> 
-\begin{align*}  +## population parameter 지정 
- Var [X + Y] & =  E[(X^2 + 2XY + Y^2)- (a^2 + 2ab b^2\\ +n.p <- 10000 
- E[X^2] - a^+ E[Y^2] - b^2 \\ +mean.p <- 20 
- Var[X] + Var[Y]  +sd.p <- 4 
-\end{align*} +set.seed(23) 
-$$+p <rnorm(n.p, mean=mean.p, sd=sd.p) 
 +p <round(p
 +hist(p, freq=F) 
 +curve(dnorm(x, mean=mean(p), sd=sd(p)), add=TRUE, col="blue"
 +abline(v=mean.p,lwd=3,lty=2, col="red") 
 +</code> 
 +  * 모집단에서 평균이 23인 4개의 원소를 샘플로  취한다. 그리고,  
 +  * 1부터 40까지의 집합을 만들어 range에 기록해두고 (range {1,2,3,4,. . .,40}, 이 range에는 위 샘플의 평균인 23이 포함되어 있다)  
 +  * $\sum{(x-\overline{x})}$ 에서 $\overline(x)$ 대신 1:40 까지의 숫자를 넣어 결과를 구해본다. 즉, SS파트를 구해보는데 샘플의 평균인 23외에 1에서 40까지의 숫자를 대입하여 SS값을 구하여 기록한다는 뜻이다. 
 +  * 이를 plot한다.
  
 +<code>
 +set.seed(1953)
 +x <-  sample(p, 4)
 +x
 +mean(x)
  
-한편+range <- seq(1:40) 
 +ss  <- rep (NAlength(range)) 
 +for (i in range) { 
 +    ss[i] <- sum((x-range[i])^2) 
 +
 +data <- data.frame(range,ss) 
 +data 
 +min(data$ss) ## ss값이 최소일 때의 x값을 살펴보자 (=mean(x)) = 23 
 +plot(data, lty=1, lwd=1) 
 +abline(v=mean(x),col="red"
 +</code>
  
-$$ +{{:pasted:20200504-202759.png}} 
-\begin{align*}  +<code> 
- \overline{X& = \frac { \displaystyle \sum_{i=1}^n (X_i)} {n} \\ +n.p <- 10000 
-  s_{\overline{X}} & \frac {\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2} {n-1} +> mean.p <- 20 
-\end{align*} +> sd.p <- 4 
-$$+> set.seed(23
 +> p <- rnorm(n.p, mean=mean.p, sd=sd.p) 
 +> p <round(p) 
 +> head(p) 
 +[1] 21 18 24 27 24 24 
 +> hist(p, freq=F) 
 +> curve(dnorm(x, mean=mean(p), sd=sd(p)), add=TRUE, col="blue"
 +> abline(v=mean.p,lwd=3,lty=2, col="red") 
 +
  
  
-그리고 Sampling distribution of mean과 관련된 샘플 평균들에 대한 기대값 $E[\overline{X}]$ 과 $Var[\overline{X}]$ 는 각각+# 모집단 평균 = 20, sd=4 
 +> set.seed(1953) 
 +> x <-  sample(p, 4) 
 +> x 
 +[127 21 21 23 
 +> mean(x) 
 +[1] 23 
 +>  
 +> range <- seq(1:40) 
 +> ss  <- rep (NA, length(range)) 
 +> for (i in range) { 
 ++     ss[i<- sum((x-range[i])^2) 
 ++ } 
 +> data <- data.frame(range,ss) 
 +> data 
 +   range   ss 
 +1      1 1960 
 +2      2 1788 
 +3      3 1624 
 +4      4 1468 
 +5      5 1320 
 +6      6 1180 
 +7      7 1048 
 +8      8  924 
 +9      9  808 
 +10    10  700 
 +11    11  600 
 +12    12  508 
 +13    13  424 
 +14    14  348 
 +15    15  280 
 +16    16  220 
 +17    17  168 
 +18    18  124 
 +19    19   88 
 +20    20   60 
 +21    21   40 
 +22    22   28 
 +23    23   24 
 +24    24   28 
 +25    25   40 
 +26    26   60 
 +27    27   88 
 +28    28  124 
 +29    29  168 
 +30    30  220 
 +31    31  280 
 +32    32  348 
 +33    33  424 
 +34    34  508 
 +35    35  600 
 +36    36  700 
 +37    37  808 
 +38    38  924 
 +39    39 1048 
 +40    40 1180 
 +> min(data$ss) ## ss값이 최소일 때의 x값을 살펴보자 (=mean(x)) = 23 
 +[1] 24 
 +> plot(data, lty=1, lwd=1) 
 +> abline(v=mean(x),col="red")
  
-$$ +</code>
-\begin{align*} +
-E[\overline{X}] & = E[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] \\  +
- & = \frac{1}{n} n \mu \\ +
- & = \mu \;\cdots\;\cdots\;\cdots\;\cdots \;[2] \\ +
-Var[\overline{X}] & = Var[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] \\ +
- & = \frac{1}{n^2} n \sigma^2 \\ +
- & = \frac{\sigma^2}{n} \;\cdots\;\cdots\;\cdots\;\cdots \;[3]  +
-\end{align*} +
-$$+
  
 +{{:pasted:20200504-203916.png}}
  
-같은 논리로 sampling distribution of sample variance를 구한다고 하면그리고 이를 구할 때 n을 사용한다고 하,+평균이  20, 표준편차가 4인 집단에서 4개의 샘플을 취하여 그 평균을 구하고, 그 평균을 이용하 SS 부분을 (Sum of Square) 구한다고 했을 때평균외에 다른 점수를 용했을 때 어떻게 되는가를 본 것이다 (range <- seq(1:40)과 같이). ss값이 가장 작았을 의 x값을 면 샘플의 평균값임을 알  수 있다.
  
 +마지막 그래프에서 가장 작은 기울기값을 갖는 v 값을 구한다고 (derivatives) 가정하고 이해를 하면 수학적으로 이해할 수 있다. ((see https://www.mathsisfun.com/calculus/derivatives-introduction.html))
 +{{:pasted:20200504-223320.png}}
 +
 +\begin{eqnarray*}
 +\dfrac{\text{d}}{\text{dv}} \dfrac{\sum{(x-v)^2}}{n} & = &  \dfrac {\sum{2(x-v)*(-1)}}{n} \\
 +& = & \dfrac{\sum{-2(x-v)}}{n} \\
 +& = & -\dfrac{2}{n} \sum{(x-v)} \\
 +\end{eqnarray*}
 +위의 식이 0이 (기울기가 0이 되는 부분) 될 때의 v 값을 찾아야 하므로
 +
 +\begin{eqnarray*}
 +-\dfrac{2}{n} \sum{(x-v)} & = & 0 \\
 +\sum{(x-v)} & = & 0 \\
 +\sum{x} - n*v & = & 0 \\ 
 +n*v & = & \sum{x} \\
 +v & = & \dfrac {\sum{x}}{n}  \\
 +\end{eqnarray*}
 +위에 따르면, 우리가  찾는 v 값은 샘플의 평균값이 ($\frac {\sum{x}}{n}$) 된다. 따라서, 평균값으로 SS값을 구하게 되면 언제나 가장 작은  값을 취하게 되는 결과를 갖는다. 이렇게 작은 값을 갖는 현상을 보정하려고 n 대신에 n보다 조금 작은 숫자인 n-1을 가지고 SS 부분을 나누어 준다. 
 +
 +그렇다면  왜 n-2 혹은 n-(1/2)가 아니고  n-1인가? 이를 수학적인 증명을 통해서 살펴보면 다음 장과 같다.
 +
 +
 +
 +
 +
 +====== 수학적 증명 ======
 +우선, 
 +
 +\begin{eqnarray*}
 +Var[X] & = & E[(X-\mu)^{2}] \\
 +       & = & E[(X^{2} - 2 X \mu + \mu^{2})] \\
 +& = & E[X^{2}] - 2 \mu E[X] + E[\mu^2] \\
 +& = & E[X^{2}] - 2 \mu E[X] + E[\mu^{2}], \;\; \text{because}\; E[X] = \mu \text{, } \; E[\mu^2] = \mu^2, \\
 +& = & E[X^{2}] - 2 \mu^{2} + \mu^{2}   \\
 +& = & E[X^{2}] - \mu^{2}
 +\end{eqnarray*}
 +
 +이므로
 +
 +\begin{align}
 +E\left[X^2\right] & = Var\left[X\right] + \mu^2 \nonumber \\ 
 +& = \sigma^{2} + \mu^2 \\
 +\end{align}
 +
 +마찬가지로 
 +\begin{align}
 +Var \left[ \overline{X}\right] & =  E \left[\overline{X}^2 \right] - \left[E(\overline{X})\right]^2 \nonumber \\
 +& = E\left[\overline{X}^{2}\right] - \mu^{2} \nonumber 
 +\end{align}
 +
 +따라서
 +\begin{align}
 +E\left[\overline{X}^{2}\right]  & = Var\left[\overline{X}\right] + \mu^2 \nonumber \\ 
 +& = \frac {\sigma^{2}} {n} + \mu^{2} 
 +\end{align}
 +
 +참고로 위에서 $Var\left[\overline{X}\right] = \dfrac {\sigma^{2}} {n} $ 에 해당하는 설명은 [[:mean and variance of the sample mean]] 문서를 볼 것.
 +
 +----
 +참고로 Expected value (기대값)와 Variance (분산)의 연산에 과한 법칙으로는 (([[:statistical review]]참조))
 +<WRAP box 450px>
 +X,Y are Independent variables.
  
-$$ 
 \begin{align*} \begin{align*}
-E[s^2] & = E \left \frac{1}{\large n} \sum_{i=1}^n (X_i- \overline{X})^2 \right ] \\ +E[aX] & = E[X] \\ 
-& = \frac{1}{\large n} \left \sum_{i=1}^n (X_i^2 - 2\overline{X}X_i \overline{X}^2) \right \\ +E[X+Y] & = E[XE[Y] \\ 
-& = \frac{1}{\large n} \left \sum_{i=1}^n X_i^2 - \sum_{i=1}^n 2\overline{X}X_i \sum_{i=1}^n \overline{X}^2 \right ] \\ +Var[aX] & = a^{\tiny{2}} Var[X] \\ 
-& = \frac{1}{\large nE \left \sum_{i=1}^n X_i^2 - 2n\overline{X}^2 +n\overline{X}^2 \right ] \\ +Var[X+Y] & = Var[X] + Var[Y 
-& = \frac{1}{\large n} E \left \sum_{i=1}^n X_i^2 - n\overline{X}^2 \right  \\ +
-& = \frac{1}{\large n} E \left \sum_{i=1}^n X_i^2 \right ] - E \left [ \overline{X}^2 \right \;\cdots\;\cdots\; [4+
 \end{align*} \end{align*}
-$$ 
  
 +</WRAP>
 +----
 +우리가 알고자 하는 것은 아래의 식이 population의 parameter인 $\sigma^{2}$ 의 값과 같은가이다.
 +\begin{align*}
 +E[s^{2}] & = E \left[\frac{\displaystyle\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n-1} \right] \qquad
 +\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot \;\; (a)  \\
 +& = \sigma^{2} 
 +\end{align*}
  
-위에서 +의 식에서 일부만을 추출해서 먼저 보자.
  
-$$ 
 \begin{align*} \begin{align*}
-\sum 2 X_i \overline{X} & = 2 \sum X_i \overline{X} \\ +E \left[\sum{(X_{i}-\overline{X})^{2}} \right] & = E \left[\sum(X_{i}^{2}- 2 X_{i} \overline{X} + \overline{X}^{2})\right] \\ 
-& = 2 \overline{X} \overline{X} \;\\text {because} \;\\overline{X} = \frac {\sum X_i} {n} \;\;\\ +& = E \left[ \sum{X_{i}^2} - \sum{2X_{i} \overline{X}} + \sum {\overline{X^2}}  \right]  \\ 
-& = 2 n \overline{X}^2+& = E \left[ \sum{X_{i}^2} - 2 \overline{X} \sum{X_{i}} + \sum{\overline{X^2}}  \right]  \\ 
 +& = E \left[ \sum{X_{i}^2} - 2 \overline{X} \sum{X_{i}} + n \overline{X^2\right]  \\ 
 +\left[ \sum{X_{i}^2} - 2 \overline{X} \cdot (\overline{X}) + n \overline {X^2} \right] \\ 
 +& = E \left[ \sum{X_{i}^2} - n \overline{X}^2 \right] \\ 
 +& = \sum {E\left(X_{i}^2\right)} - E\left(n\overline{X}^2\right)  \\ 
 +& = \sum {E\left(X_{i}^2\right)} - n E\left(\overline{X}^2\right)  \;\;\; \dots\dots\dots\dots\dots (3)
 \end{align*} \end{align*}
-$$ 
  
 +한 편, 위의 $(1), (2)$에서 
  
-여기서 [1]에서의 결과를 적용하면,+<WRAP box> 
 +\begin{align*} 
 +E\left[X_{i}^{2}\right] & = \sigma^{2} + \mu^2 \;\;\; \dots\dots\dots\dots\dots (1) \\ 
 +E\left[\overline{X}^{2}\right& = \dfrac {\sigma^{2}} {n} + \mu^{2} \;\;\; \dots\dots\dots\dots\dots (2) 
 +\end{align*} 
 +</WRAP>
  
-$$ E \left [ \displaystyle \sum_{i=1}^n  X_i^\right ] = Var[X_i] + \mu = \sigma^2 + \mu$$ +위의 $(1), (2)$를 $(3)$에 대입해보면
-$$ E \left [ \displaystyle \overline{X}^2 \right ] = Var \left [\overline{X} \right ] + \mu = \frac{\sigma^2}{n} + \mu $$ 이므로 [4]의 식은+
  
-$$ 
 \begin{align*} \begin{align*}
-E[s^2] & = \frac{1}{n(\sigma^2+\mu) - ( \frac{\sigma^2}{n} + \mu) \\ +\left[\sum{(X_{i}-\overline{X})^{2}} \right] & = \sum{E\left(X_{i}^{2}\right)n E\left(\overline{X}^{2}\right \\ 
-& = \frac{1}{n} \left [n(\sigma^2+\mu) - n(\frac{\sigma^2}{n} + \mu\right \\ +& = \sum{\left(\sigma^{2+ \mu^{2}\right)- n \left(\dfrac{\sigma^2}{n} + \mu^2\right\\ 
-& = \frac{1}{n} \left [n \sigma^2 - \sigma^2 \right ] \\ +& = n\sigma^{2n\mu^{2\sigma^{2n\mu^{2\\ 
-& = \frac{(n-1)\sigma^2}{n} \;\cdots\;\cdots\;\cdots\; [5] +& = \left(n-1\right) \sigma^{2} 
 \end{align*} \end{align*}
-$$ 
  
 +위는 식 (a)의 일부이므로 이를 온전한 식에 대입해보면, 
 +\begin{eqnarray*}
 +E \left[\sum{(X_{i}-\overline{X})^{2}} \right] & = & (n-1) \sigma^{2} \\
 +\end{eqnarray*}
  
-즉 sample에서 구하는 variance로 모집단의 variance를 구하는데 오차가 보인. 이를 모집단의 variance와 근사게 하기 위해서 +\begin{eqnarray*} 
 +E[s^{2}] & = & E \left[ \frac{\displaystyle\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n-1} \right] \\ 
 +& = & \dfrac{1}{n-1} E \left[\sum{(X_{i}-\overline{X})^{2}} \right] \\ 
 +& = & \dfrac{1}{n-1} (n-1) \sigma^{2} \\ 
 +& = & \sigma^{2} 
 +\end{eqnarray*} 
 + 
 +그러므로, **n-1로 나눠 준 샘플분산의 (sample's variance) 기대값은** 
 +\begin{eqnarray*} 
 +E(s^2) = \sigma^{2} 
 +\end{eqnarray*} 
 + 
 + 
 +---- 
 +만약에 우리가 population의 variance를 구하듯이 n을 이용한고 면,  
 + 
 +\begin{eqnarray*} 
 +E[s^{2}] & = & E \left[ \frac{\displaystyle\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}} {n} \right], \;\;\; \text{note that we use n instead of n-1} \\ 
 +& = & \dfrac{1}{n} E \left[\sum{(X_{i}-\overline{X})^{2}} \right] \\ 
 +& = & \dfrac{1}{n} (n-1) \sigma^{2} \\ 
 +& = & \left(\dfrac{n-1}{n}\right) \sigma^{2} \\ 
 +\end{eqnarray*}
  
-$ \displaystyle \frac{n}{n-1} +즉, 원래 $\sigma^2값보다 조금 작은 값을 갖게 될 것이다 (이를 biased result라고 한다).
  
-을 [5]에 곱하면,  
  
-$ E[S^2] = \displaystyle \frac{(n-1)\sigma^2}{n} * \frac{n}{n-1} = \sigma^2 $ 
  
 {{tag>"research methods" "조사방법론" "표준편차" "n-1" "자유도" "degrees of freedom" "n-1" "표준오차"}} {{tag>"research methods" "조사방법론" "표준편차" "n-1" "자유도" "degrees of freedom" "n-1" "표준오차"}}
  
  
estimated_standard_deviation.1571429142.txt.gz · Last modified: 2019/10/19 05:05 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki