====== Variance ======
[[Mean]],[[Mode]],[[Median]] 등의 중심경향값과 더불어서 많이 사용되는 [[:Statistics|statistics(통계치)]]로는 데이터가 얼마나 퍼져 있는지 (spread)를 나타내는 것들이 있다. 가장 평이하고 이해하기 쉬운 개념으로는 [[:Range|range(범위)]]가 있으며, 다소 직관적이지는 않지만 여러가지 통계 계산에 사용되는 것으로는 Variance(분산)이 있다.
* 숫자로 측정된 한 변인이 (variable Y) 있다.
* 변인 Y는 총 100개의 원소로 구성되어 하나의 샘플이라고 할 수 있다.
* 변인 Y의 (그룹 Y의) 특징으로는 (sample statistics)
* 평균값이 50 이고
* 표준편차 값이 4 이다.
* 각 개인의 점수는
* 그룹의 특징이라고 할 수 있는 평균값과 (mean)
* 그룹의 특징을 제거한 랜덤하게 나타나는 차이값으로 (deviation score, difference score) 나타낼 수 있다.
* 가령 한 개인의 점수 54점에는 그룹의 특징인 50점과 그 그룹의 특징을 제외하고 나타나는 4점의 차이점수로 나눠진다.
* 따라서 변인 Y내의 모든 개인들의 점수는
* 그룹의 평균점수와
* 평균에서 랜덤하게 떨어져 있는 점수로 나누어 진다고 할 수 있다.
* 개인의 차이 점수를 모아서 보면 그 집합이 전체특징에서 (평균) 얼마나 멀리 떨어져 있는지를 (개인점수의 분포) 알려준다.
* 단 차이점수의 합은 언제나 0이 되므로 차이점수를 제곱해서 모아 본 점수를 가지고 "개인점수의 분포" 정도를 가늠한다.
* 위의 설명을 수식으로 요약하면 $ \sum{(Yi - \overline{Y})^2} $ 라고 쓸 수 있다.
* 우리는 이것을 Sum of Square 라고 (제곱의 합) 부른다.
* 그런데 위는 다음 처럼도 설명할 수 있다.
* 각 개인의 점수를 예측하라고 하면 평균값을 가지고 예측하는 것이 가장 오차가 적은 결과를 낳을 것을다.
* 따라서 개인의 점수를 평균으로 예측했을 때, 각 오차를 제곱해서 더해 보면 오차가 얼마나 큰지를 알려주는 지표가 된다.
* 이 때의 오차는 위의 설명과 마찬가지로 개인의 점수가 평균을 중심으로 얼마나 떨어져 있는지를 알려주는 지표가 된다.
* 따라서 먼저 언급한 제곱의 합은 "(평균으로 개인점수를 예측했을 때 얻는) 오차의 제곱의 합"이라고 이해라 수 있다.
* 이를 Sum of Square Error 라고도 부른다
* 혹은 Sum of Square Deviation Score 라고도 부르는데 deviation score라는 것은 개인 점수가 (Yi) 평균에서 얼마나 떨어져 있는가를 (deviated 되어 있는가) 알려준다고 설명하기 때문이다. 따라서 deviation score는 error score (from the mean) 와 같은 것이다.
* 또한 SS Error는 Sum of Square Residual이라고도 부른다. 여기서 residual의 의미는 샘플의 전체특징힌 평균값을 뺀 나머지라는 (residual) 뜻에서의 residual이다.
* 마지막으로 Sum of Square Total이라고도 부르는데 이 때 Total의 의미는 Y 변인의 (평균에서의) 오차 전체를 의미한다고 보면 된다.
* 분산은 (variance) 위의 Sum of Square 값을 (평균을 구할 때와 마찬가지로) 샘플의 크기인 n으로 나누어준 값을 말한다.
* 그런데 실제로는 n으로 나누어 주기 보다는 n-1로 나누어 주는데 흔히 이 n-1을 degrees of freedom이라고 부른다.
* 이에 대해서는 다른 부분에서 자세히 설명한다.
* 따라서 분산값은 아래처럼 요약된다.
\begin{eqnarray*}
\sigma^2 & = & \dfrac {\text{SS}} {\text{df}} \\
& = & \dfrac{\text{Sum of Error Square}}{\text{df}} \\
& = & \dfrac{\text{Sum of Residual Square}}{\text{df}} \\
& = & \dfrac{\text{Sum of DS Square}}{\text{df}}, \;\;\; \text{DS = Deviation Score} \\
& = & \dfrac{\sum{(Yi - \overline{Y})^2}}{n-1}, \;\;\; \text{where } (Yi - \overline{Y}) = \text{Error, Residual, or DS}
\end{eqnarray*}
아래 집합 (변인) Y은 5개의 원소로 구성되어 있다. 평균은 4 인데, 아래처럼 error score, squared error score, sum of square값을 구할 수 있다.
| Y | score | error score | squared value |
| 1 | 3 | 3-4=-1 | 1 |
| 2 | 4 | 4-4=0 | 0 |
| 3 | 3 | 3-4=-1 | 1 |
| 4 | 4 | 4-4=0 | 0 |
| 5 | 6 | 6-4=2 | 4 |
| total | 20 | 0 | SS = 6 |
| n | 5 | | n-1 = 4 |
| Mean, Variance | 4 | | 6/4 = 1.5 |
다시 말하지만, SS값은 아래처럼 기억해두는 것이 좋다.
note: You guess each value with the mean value of the Y
note: which means "error"
note: therefore, sum of square value of error is SS part
====== 다른 공식 ======
분산의 공식을 5명으로 이루어진 집합에 사용하는 것은 큰 무리가 없지만, 100명으로 이루어진 집합에 적용하는 것은 손이 많이 간다는 단점이 있다. 따라서, 위의 분산 공식을 변형한 공식을 쓰기도 하는데, 형식만 다를 뿐이지 똑같은 공식이다.
$ \sigma^2 = \displaystyle \frac {\displaystyle \sum (X_i-\mu)^2}{N}$ 에서
\begin{eqnarray}
\sum (X_i-\mu)^2 & = & \sum [(X_i^2)-(2*X_i*\mu)+(\mu^2)] \nonumber \\
& = & \sum (X_i^2) - \sum (2*X_i*\mu) + \sum (\mu^2) \nonumber \\
& = & \sum (X_i^2) - 2 \mu \sum (X_i) + N (\mu^2) \nonumber \\
& = & \sum (X_i^2) - 2 \mu (N * \mu) + N (\mu^2) \nonumber \\
& = & \sum (X_i^2) - N * \mu^2
\end{eqnarray}
위에서, $\text{2 and}$ $\mu$ $\text{are constants. }$
따라서 분산값은 아래의 공식으로도 구할 수 있다. 분산에 관한 더 자세한 연산법칙은 [[:expected value and variance properties]] 문서를 참조 (Variance theorem 1).
\begin{eqnarray}
\sigma^2 & = & \displaystyle{\frac {\text{(1)}}{N}} \nonumber \\
& = & \displaystyle \frac{\sum (X_i^2) - N * \mu^2}{N} \nonumber \\
& = & \displaystyle \frac{\sum (X_i^2)}{N} - \mu^2 \\
& = & E(X^{2})-E(X)^{2} \;\;\;
\end{eqnarray}
분산값이 크고 작고가 의미하는 것은 그 집합의 분포가 평균을 중심으로 얼마나 넓게 퍼져 있는가를 나타내 준다는 것이다. 만약에 분산 값이 크다면 그 집합의 분포가 평균을 중심으로 넓게 퍼져있음을 의미한다.
====== Read more ======
샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용한다 (참조. [[:estimated standard deviation]]). 샘플의 분산은 $s^2$ 을 기호로 사용한다.
$ s^2 = Var[X] = \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}$
위에서 언급한 것처럼, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[:degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다.
$$s^2 = \displaystyle \frac{SS}{df}$$
위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, 사실은 모집단의 분산을 계산할 때에도 n-1을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다.
$$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$
아래는 R에서 보는 간단한 예이다.
> set.seed(1)
> a <- rnorm2(100000000, 100, 10)
> a.mean <- mean(a)
> ss <- sum((a-a.mean)^2)
> n <- length(a)
> df <- n-1
> ss/n
[1] 100
> ss/df
[1] 100
더 자세한 것은 [[:why n-1]] 참조. \\