Table of Contents

Variance

Mean,Mode,Median 등의 중심경향값과 더불어서 많이 사용되는 statistics(통계치)로는 데이터가 얼마나 퍼져 있는지 (spread)를 나타내는 것들이 있다. 가장 평이하고 이해하기 쉬운 개념으로는 range(범위)가 있으며, 다소 직관적이지는 않지만 여러가지 통계 계산에 사용되는 것으로는 Variance(분산)이 있다.

\begin{eqnarray*} \sigma^2 & = & \dfrac {\text{SS}} {\text{df}} \\ & = & \dfrac{\text{Sum of Error Square}}{\text{df}} \\ & = & \dfrac{\text{Sum of Residual Square}}{\text{df}} \\ & = & \dfrac{\text{Sum of DS Square}}{\text{df}}, \;\;\; \text{DS = Deviation Score} \\ & = & \dfrac{\sum{(Yi - \overline{Y})^2}}{n-1}, \;\;\; \text{where } (Yi - \overline{Y}) = \text{Error, Residual, or DS} \end{eqnarray*}

아래 집합 (변인) Y은 5개의 원소로 구성되어 있다. 평균은 4 인데, 아래처럼 error score, squared error score, sum of square값을 구할 수 있다.

Y score error score squared value
1 3 3-4=-1 1
2 4 4-4=0 0
3 3 3-4=-1 1
4 4 4-4=0 0
5 6 6-4=2 4
total 20 0 SS = 6
n 5 n-1 = 4
Mean, Variance 4 6/4 = 1.5

다시 말하지만, SS값은 아래처럼 기억해두는 것이 좋다.

note: You guess each value with the mean value of the Y
note: which means "error"
note: therefore, sum of square value of error is SS part

다른 공식

분산의 공식을 5명으로 이루어진 집합에 사용하는 것은 큰 무리가 없지만, 100명으로 이루어진 집합에 적용하는 것은 손이 많이 간다는 단점이 있다. 따라서, 위의 분산 공식을 변형한 공식을 쓰기도 하는데, 형식만 다를 뿐이지 똑같은 공식이다.


$ \sigma^2 = \displaystyle \frac {\displaystyle \sum (X_i-\mu)^2}{N}$ 에서

\begin{eqnarray} \sum (X_i-\mu)^2 & = & \sum [(X_i^2)-(2*X_i*\mu)+(\mu^2)] \nonumber \\ & = & \sum (X_i^2) - \sum (2*X_i*\mu) + \sum (\mu^2) \nonumber \\ & = & \sum (X_i^2) - 2 \mu \sum (X_i) + N (\mu^2) \nonumber \\ & = & \sum (X_i^2) - 2 \mu (N * \mu) + N (\mu^2) \nonumber \\ & = & \sum (X_i^2) - N * \mu^2 \end{eqnarray}

위에서, $\text{2 and}$ $\mu$ $\text{are constants. }$

따라서 분산값은 아래의 공식으로도 구할 수 있다. 분산에 관한 더 자세한 연산법칙은 expected value and variance properties 문서를 참조 (Variance theorem 1).

\begin{eqnarray} \sigma^2 & = & \displaystyle{\frac {\text{(1)}}{N}} \nonumber \\ & = & \displaystyle \frac{\sum (X_i^2) - N * \mu^2}{N} \nonumber \\ & = & \displaystyle \frac{\sum (X_i^2)}{N} - \mu^2 \\ & = & E(X^{2})-E(X)^{2} \;\;\; \end{eqnarray}

분산값이 크고 작고가 의미하는 것은 그 집합의 분포가 평균을 중심으로 얼마나 넓게 퍼져 있는가를 나타내 준다는 것이다. 만약에 분산 값이 크다면 그 집합의 분포가 평균을 중심으로 넓게 퍼져있음을 의미한다.

Read more

샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용한다 (참조. estimated standard deviation). 샘플의 분산은 $s^2$ 을 기호로 사용한다.

$ s^2 = Var[X] = \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}$

위에서 언급한 것처럼, 분산 공식의 분자부분을 Sum of Squares라고 부르고 줄여서 $SS$라고 쓰고, n-1을 degrees of freedom 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다.

$$s^2 = \displaystyle \frac{SS}{df}$$

위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, 사실은 모집단의 분산을 계산할 때에도 n-1을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다.
$$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$

아래는 R에서 보는 간단한 예이다.

> set.seed(1)
> a <- rnorm2(100000000, 100, 10)
> a.mean <- mean(a)
> ss <- sum((a-a.mean)^2)
> n <- length(a)
> df <- n-1
> ss/n
[1] 100
> ss/df
[1] 100

더 자세한 것은 why n-1 참조.