variance
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
variance [2024/09/11 08:04] – [Read more] hkimscil | variance [2025/08/24 12:12] (current) – hkimscil | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== Variance ====== | ====== Variance ====== | ||
- | * 분산은 | + | * 숫자로 측정된 한 변인이 (variable Y) 있다. |
- | * 어느 집합의 개인 점수가 그 집합의 평균에서 얼마나 떨어져 있는가를 알아볼 수 있는데 이를 deviation score라고 (ds) 부른다. | + | * 변인 Y는 총 100개의 원소로 구성되어 하나의 샘플이라고 할 수 있다. |
- | * 분산은 일종의 에러이다. | + | * 변인 Y의 (그룹 Y의) 특징으로는 (sample statistics) |
- | * 분산은 숫자로 측정된 하나의 집합 내에 속한 | + | * 평균값이 50 이고 |
- | * 분산은 | + | * 표준편차 값이 4 이다. |
+ | * 각 개인의 | ||
+ | * 그룹의 특징이라고 할 수 있는 | ||
+ | * 그룹의 특징을 제거한 랜덤하게 나타나는 | ||
+ | * 가령 한 개인의 점수 54점에는 그룹의 특징인 50점과 그 그룹의 특징을 제외하고 | ||
+ | * 따라서 변인 Y내의 모든 | ||
+ | * 그룹의 평균점수와 | ||
+ | * 평균에서 | ||
+ | * 개인의 차이 점수를 모아서 보면 그 집합이 전체특징에서 (평균) | ||
+ | * 단 차이점수의 합은 언제나 0이 되므로 차이점수를 제곱해서 모아 본 점수를 가지고 " | ||
+ | * 위의 설명을 수식으로 요약하면 $ \sum{(Yi - \overline{Y})^2} $ 라고 쓸 수 있다. | ||
+ | * 우리는 이것을 Sum of Square | ||
+ | |||
+ | * 그런데 위는 다음 처럼도 설명할 수 있다. | ||
+ | * 각 개인의 | ||
+ | * 따라서 | ||
+ | * 이 때의 오차는 위의 설명과 마찬가지로 개인의 점수가 평균을 중심으로 얼마나 떨어져 있는지를 알려주는 지표가 된다. | ||
+ | * 따라서 | ||
+ | * 이를 Sum of Square Error 라고도 부른다 | ||
+ | * 혹은 Sum of Square Deviation Score 라고도 부르는데 deviation score라는 것은 개인 점수가 (Yi) 평균에서 얼마나 떨어져 있는가를 (deviated 되어 있는가) 알려준다고 설명하기 때문이다. 따라서 deviation score는 error score (from the mean) 와 같은 것이다. | ||
+ | * 또한 SS Error는 Sum of Square Residual이라고도 부른다. 여기서 residual의 의미는 샘플의 전체특징힌 평균값을 뺀 나머지라는 (residual) 뜻에서의 residual이다. | ||
+ | * 마지막으로 Sum of Square Total이라고도 | ||
+ | |||
+ | * 분산은 | ||
+ | * 그런데 | ||
+ | * 이에 대해서는 다른 부분에서 자세히 설명한다. | ||
+ | * 따라서 분산값은 아래처럼 요약된다. | ||
+ | \begin{eqnarray*} | ||
+ | \sigma^2 & = & \dfrac {\text{SS}} {\text{df}} \\ | ||
+ | & = & \dfrac{\text{Sum of Error Square}}{\text{df}} \\ | ||
+ | & = & \dfrac{\text{Sum of Residual Square}}{\text{df}} \\ | ||
+ | & = & \dfrac{\text{Sum of DS Square}}{\text{df}}, | ||
+ | & = & \dfrac{\sum{(Yi - \overline{Y})^2}}{n-1}, | ||
+ | \end{eqnarray*} | ||
Line 10: | Line 43: | ||
아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다. | 아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다. | ||
- | {{: | + | |{{: |
+ | |< | ||
< | < | ||
x <- seq(-15, 15, length=1000) | x <- seq(-15, 15, length=1000) | ||
Line 34: | Line 68: | ||
| | ||
</ | </ | ||
+ | </ | ||
그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다. | 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다. | ||
Line 154: | Line 188: | ||
$$s^2 = \displaystyle \frac{SS}{df}$$ | $$s^2 = \displaystyle \frac{SS}{df}$$ | ||
- | 위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, | + | 위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, |
+ | $$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$ | ||
+ | |||
+ | 아래는 R에서 보는 간단한 예이다. | ||
< | < | ||
- | > ajoust | + | > a <- rnorm2(100000000, |
- | > a <- ajoust | + | |
> a.mean <- mean(a) | > a.mean <- mean(a) | ||
> ss <- sum((a-a.mean)^2) | > ss <- sum((a-a.mean)^2) |
variance.1726009497.txt.gz · Last modified: 2024/09/11 08:04 by hkimscil