variance
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
variance [2020/04/14 14:30] – hkimscil | variance [2022/09/01 01:50] (current) – hkimscil | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Variance ====== | ||
+ | * 분산은 개인점수들이 평균에서 얼마나 떨어져 있는가를 나타내주는 지표이다. | ||
+ | * 어느 집합의 개인 점수가 그 집합의 평균에서 얼마나 떨어져 있는가를 알아볼 수 있는데 이를 deviation score라고 (ds) 부른다. 분산은 각 개인의 ds값을 제곱하여 모두 더한 후 N으로 나눈 값을 말한다. | ||
+ | * 분산은 일종의 에러이다. | ||
+ | * 분산은 숫자로 측정된 하나의 집합 내에 속한 개인점수를 평균으로 예측했을 때, 그 오차를 (평균과 실제점수 간의 차이) 알려주는 지표이다. 따라서 분산은 오차의 제곱의 합을 N으로 나눠준 값이다고 해도 된다. | ||
+ | * 분산은 일종의 불확실성이다. | ||
+ | |||
[[Mean]], | [[Mean]], | ||
Line 80: | Line 87: | ||
$$Var[X] = \sigma^2= \displaystyle \frac{\displaystyle \sum_{i=1}^N (X_i-\mu)^2}{N}$$ | $$Var[X] = \sigma^2= \displaystyle \frac{\displaystyle \sum_{i=1}^N (X_i-\mu)^2}{N}$$ | ||
- | 이를 우리나라 말로 옮기자면, | + | 이를 우리나라 말로 옮기자면, |
+ | * "X 변인의 분산값은 X 변인의 각 개체값에서 평균값을 뺀 수의 제곱을 모두 더한 후, 이를 개체 수인 `n`으로 나누어 주어서 구한다" | ||
+ | * 혹은 위 분포의 분산값은 deviation score를 제곱한 값을 모두 더한 값을 N으로 나눈 값이다. 라고 읽는다. | ||
+ | * 수학자들은 위의 " | ||
+ | * 마지막으로 위의 분산값이 갖는 의미를 이렇게도 이야기할 수 있다. | ||
+ | * 어느 정상분포의 (normal distribution) 평균을 알고 있다고 하자. | ||
+ | * 만약에 당신이 각 분포내 각 개인의 값을 예측해야 한다고 할 때, 가장 오차가 작은 예측값을 대는 방법은 평균값으로 예측 값을 쓰는 것이다. 따라서, SS 값은 // | ||
+ | |||
+ | 따라서 위의 보기에서 들었던 X 변인의 집합에서 분산 값은 1.5이다. | ||
| X | score | deviation score | squared value | | | X | score | deviation score | squared value | | ||
Line 98: | Line 113: | ||
</ | </ | ||
- | 분산의 공식을 5명으로 이루어진 집합에 사용하는 것은 큰 무리가 없지만, 100명으로 이루어진 집합에 적용하는 것은 손이 많이 간다는 단점이 있다. 따라서, 위의 분산 | + | ====== |
+ | 분산의 공식을 5명으로 이루어진 집합에 사용하는 것은 큰 무리가 없지만, 100명으로 이루어진 집합에 적용하는 것은 손이 많이 간다는 단점이 있다. 따라서, 위의 분산 공식을 변형한 공식을 쓰기도 하는데, 형식만 다를 뿐이지 똑같은 공식이다. | ||
- | {{anchor: | + | < |
$ \sigma^2 = \displaystyle \frac{\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 | $ \sigma^2 = \displaystyle \frac{\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 | ||
Line 130: | Line 146: | ||
====== Read more ====== | ====== Read more ====== | ||
- | 샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용하기도 | + | 샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용한다 (참조. [[: |
$ s^2 = Var[X] = \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}$ | $ s^2 = Var[X] = \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}$ | ||
- | 흔히들 부르기를, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다. | + | 위에서 언급한 것처럼, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[:degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다. |
$$s^2 = \displaystyle \frac{SS}{df}$$ | $$s^2 = \displaystyle \frac{SS}{df}$$ |
variance.txt · Last modified: 2022/09/01 01:50 by hkimscil