====== Expected value and variance properties ======
^ EXPECT VALUE ^^
| $E(X)$ | $\sum{X}\cdot P(X=x)$ |
| $E(X^2)$ | $\sum{X^{2}}\cdot P(X=x)$ |
| $E(aX + b)$ | $aE(X) + b$ |
| $E(f(X))$ | $\sum{f(X)} \cdot P(X=x)$ |
| $E(aX - bY)$ | $aE(X)-bE(Y)$ |
| $E(X1 + X2 + X3)$ | $E(X) + E(X) + E(X) = 3E(X) \;\;\; $ ((X1,X2,X3는 동일한 statistics을 갖는 (X의 특성을 갖는, 즉, 집합 X의 동일한 mean, variance, sdev 값을 갖는) 집합)) |
^ VARIANCE ^^
| $Var(X)$ | $E(X-\mu)^{2} = E(X^{2})-E(X)^{2} \;\;\; $ see $\ref{var.theorem.1} $ |
| $Var(c)$ | $0 \;\;\; $ see $\ref{var.theorem.41}$ |
| $Var(aX + b)$ | $a^{2}Var(X) \;\;\; $ see $\ref{var.theorem.2}$ and $\ref{var.theorem.3}$ |
| $Var(aX - bY)$ | $a^{2}Var(X) + b^{2}Var(Y)$ see $\ref{var.theorem.2}$ and $\ref{var.theorem.52}$ |
| $Var(X1 + X2 + X3)$ | $Var(X) + Var(X) + Var(X) = 3 Var(X) \;\;\; $ ((X1, x2, x3는 동일한 특성을 (statistic, 가령 Xbar = 0, sd=1) 갖는 독립적인 세 집합이다. 따라서 세집합의 분산은 모두 1인 상태이고, 이들의 분삽값은 모두 동일하므로 Var(3X)의 성질을 갖는다.)) |
| $Var(X1 + X1 + X1)$ | $Var(3X) = 3^2 Var(X) = 9 Var(X) $ |
see also [[:why n-1]]
====== Variance Theorem 1 ======
\begin{align}
Var[X] & = {E{(X-\mu)^2}} \nonumber \\
& = E[(X^2 - 2 X \mu + \mu^2)] \nonumber \\
& = E[X^2] - 2 \mu E[X] + E[\mu^2] \nonumber \\
& = E[X^2] - 2 \mu E[X] + E[\mu^2], \; \text{because E[X]=} \mu \text{, and E[} \mu^2 \text{] = } \mu^2, \nonumber \\
& = E[X^2] - 2 \mu^2 + \mu^2 \nonumber \\
& = E[X^2] - \mu^2 \nonumber \\
& = E[X^2] - E[X]^2 \label{var.theorem.1} \tag{variance theorem 1} \\
\end{align}
====== Theorem 2: Why square ======
$ \ref{var.theorem.1} $ 에 따르면
$$ Var[X] = E[X^2] − E[X]^2 $$
이므로
\begin{eqnarray*}
Var[aX] & = & E[a^2X^2] − (E[aX])^2 \\
& = & a^2 E[X^2] - (a E[X])^2 \\
& = & a^2 E[X^2] - (a^2 E[X]^2) \\
& = & a^2 (E[X^2] - (E[X])^2) \\
& = & a^2 (Var[X]) \label{var.theorem.2} \tag{variance theorem 2} \\
\end{eqnarray*}
====== Theorem 3: Why Var[X+c] = Var[X] ======
\begin{align}
Var[X + c] = Var[X] \nonumber
\end{align}
$ \ref{var.theorem.1} $ 에 따르면
$$ Var[X] = E[X^2] − E[X]^2 $$
이므로
\begin{align}
Var[X + c]
= & E[(X+c)^2] - E[X+c]^2 \nonumber \\
= & E[(X^2 + 2cX + c^2)] \label{tmp.1} \tag{temp 1} \\
& − E(X + c)E(X + c) \label{tmp.2} \tag{temp 2} \\
\end{align}
$ \ref{tmp.1} $ 에서
\begin{align}
E (X^2 + 2cX + c^2) = E (X^2) + 2cE(X) + c^2 \\
\end{align}
그리고 $\ref{tmp.2}$ 에서 보면
\begin{align}
E(X + c)E(X + c) = & E(X)(E(X + c)) + E(c)(E(X + c)) \nonumber \\
= & E(X)^2 + cE(X) + cE(X) + c^2 \nonumber \\
= & E(X)^2 + 2cE(X) + c^2 \\
\end{align}
위의 둘을 모두 보면
\begin{align}
Var(X + c) = & E(X^2) + 2cE(X) + c^2 − E(X)^2 − 2cE(X) − c^2 \nonumber \\
= & E(X^2) − E(X)^2 \nonumber \\
= & Var(X) \label{var.theorem.3} \tag{variance theorem 3} \\
\end{align}
====== Theorem 4: Var(c) = 0 ======
\begin{align}
Var(X) = & 0; \;\;\;\; \text{if X = c, a constant } \label{var.theorem.41} \tag{variance theorem 4.1} \\
\text{otherwise } \nonumber \\
Var(X) \ge & 0 \label{var.theorem.42} \tag{variance theorem 4.2} \\
\end{align}
Variance는 기본적으로 아래와 같다. 이 때 $X=c$ 라고 (c=상수) 하면
\begin{align}
Var(X) & = E[(X − E(X))^2] \text{ because X = c, and E(X) = c} \nonumber \\
& = E[(c-c)^2] \nonumber \\
& = 0 \nonumber \\
\text{if X } \ne \text{c, then} \nonumber \\
& \text{because } (X − E(X))^2 \ge 0 \nonumber \\
& Var(X) \ge 0 \nonumber
\end{align}
====== Theorem 5: Var(X+Y) ======
\begin{align}
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) \label{var.theorem.51} \tag{variance theorem 5-1} \\
Var(X − Y) = Var(X) + Var(Y) − 2Cov(X, Y) \label{var.theorem.52} \tag{variance theorem 5-2} \\
\end{align}
$ \ref{var.theorem.1} $ 에서
$$ Var[X] = E[X^2] - E[(X)]^2 $$
이므로 X <- X+Y 를 대입해보면
\begin{align}
Var[X+Y] = & E[(X + Y)^2] \label{tmp.03} \tag{temp 3} \\
- & E[(X + Y)]^2 \label{tmp.04} \tag{temp 4}
\end{align}
$\ref{tmp.03}$과 $\ref{tmp.04}$ 는 아래처럼 정리된다
\begin{align*}
& E[(X + Y)^2] = E[X^2 + 2XY + Y^2] = E[X^2] + 2E[XY] + E[Y^2] \\
- & [E(X + Y)]^2 = [E(X) + E(Y)]^2 = E(X)^2 + 2E(X)E(Y) + E(Y)^2 \\
\end{align*}
각 줄의 가장 오른쪽 정리식을 보면,
\begin{align*}
Var[(X+Y)] =
& E[X^2] & + & 2E[XY] & + & E[Y^2] \\
- & E(X)^2 & - & 2E(X)E(Y) & - & E(Y)^2 \\
& Var[X] & + & 2 E[XY]-2E(X)E(Y) & + & Var[Y] \\
\end{align*}
가운데 부분은
\begin{align}
E(XY)- E(X)E(Y) = Cov[X,Y] \label{cov} \tag{covariance} \\
\end{align}
따라서
\begin{eqnarray}
Var[(X+Y)] = Var[X] + 2 Cov[X,Y] + Var[Y] \nonumber \\
\end{eqnarray}
그런데 일반적으로 변인 X와 변인 Y는 독립적이므로 두 변인 간의 cov값은 (Cov[X,Y]) 0 이다. 따라서
\begin{eqnarray}
Var[(X+Y)] = Var[X] + Var[Y] \nonumber \\
\end{eqnarray}
마찬가지로
\begin{eqnarray}
Var[(X-Y)] & = & Var[X] - 2 Cov[X,Y] + Var[Y] \nonumber \\
& = & Var[X] + Var[Y] \nonumber
\end{eqnarray}
====== Questions ======
Which one is correct?
\begin{align}
Var(X+X) & = Var(X) + Var(X) & = 2 * Var(X) \label{tmp.05} \tag{1} \\
Var(X+X) & = Var(2X) & = 2^2 * Var(X) \label{tmp.06} \tag{2}
\end{align}
$\ref{var.theorem.51}$ 을 다시 보면
\begin{align*}
Var(X+Y) = Var(X) + 2 Cov(X,Y) + Var(Y) \\
\end{align*}
X와 Y가 independent 한 event라고 (group) 하면
$ Cov(X,Y) = 0 $ 이므로
\begin{align*}
Var[(X+Y)] = Var[X] + Var[Y] \\
\end{align*}
보통 X1, X2 집합은 같은 특성을 (statistic) 갖는 두 독립적인 집합을 의미하므로
\begin{align*}
Var(X1 + X2) = & Var(X1) + Var(X2) \\
& \text{because X1 and x2 have} \\
& \text{X's statistics (the same mean} \\
& \text{and variance of X)} \\
= & Var(X) + Var(X) \\
= & 2 * Var(X) \\
\end{align*}
X1, X2는 같은 분포를 갖는 서로 독립적인 집합이고 (가령 각 집합은 n=10000이고 mean=0, var=4의 특성을 갖는) 이 때의 두 집합을 합한 집합의 Variance는 각 Variance를 더한 값과 같다는 뜻.
반면에 아래는 동일한 집합을 선형적인 관계로 옮긴 것 (X to 2X).
\begin{align}
Var(X1 + X1) & = Var(2*X1) \nonumber \\
& = 2^2 Var(X1) \nonumber \\
& = 4 Var(X1) \nonumber \\
\end{align}
따라서 수식 $(\ref{tmp.06})$ 가 참이다.
이것은 아래처럼 생각해 볼 수도 있다.
$\ref{var.theorem.51}$ 에서 $Y$ 대신에 $X$를 대입하면
\begin{align*}
Var(X + X) & = Var(X) + 2 Cov(X, X) + Var(X) \\
& \;\;\;\;\; \text{because } \\
& \;\;\;\;\; \text{according to the below } \ref{cov.xx}, \\
& \;\;\;\;\; Cov(X,X) = Var(X) \\
& = Var(X) + 2 Var(X) + Var(X) \;\;\; \\
& = 4 Var(X)
\end{align*}
\begin{align}
Cov[X,Y] & = E(XY) - E(X)E(Y) \nonumber \\
Cov[X,X] & = E(XX) - E(X)E(X) \nonumber \\
& = E(X^2) - E(X)^2 \nonumber \\
& = V(X) \label{cov.xx} \tag{3}
\end{align}
====== e.gs in R ======
R에서 이를 살펴보면
# variance theorem 4-1, 4-2
# http://commres.net/wiki/variance_theorem
# need a function, rnorm2
rnorm2 <- function(n,mean,sd) {
mean+sd*scale(rnorm(n))
}
m <- 50
v <- 4
n <- 100000
set.seed(1)
x1 <- rnorm2(n, m, sqrt(v))
x2 <- rnorm2(n, m, sqrt(v))
x3 <- rnorm2(n, m, sqrt(v))
# Note: x1, x2, x3는 평균과 표준편차를
# 같은 값으로 갖는 (공유하는) 독립적인
# 집단
y1 <- 3*x1 +5
exp.y1 <- mean(y1)
exp.3xplus5 <- 3 * mean(x1) + 5
exp.y1
exp.3xplus5
var(x1)
var((3*x1)+5)
3^2 * var(x1)
var(y1) # 9 * var(x) 위와 동일
v.12 <- var(x1 + x2)
v.12
######################################
## v.12 should be near var(x1)+var(x2)
######################################
# 정확히 2*v가 아닌 이유는 x1, x2가
# 아주 약간은 (random하게) dependent하기 때문
# (혹은 상관관계가 있기 때문, covariance가
# 있기 때문)
# theorem 5-1 에서
# var(x1+x2) = var(x1)+var(x2)+ (2*cov(x1,x2))
cov.x1x2 <- cov(x1,x2)
var(x1 + x2)
var(x1) + var(x2) + (2*cov.x1x2)
# theorem 5-2 도 확인
var(x1 - x2)
var(x1) + var(x2) - (2 * cov.x1x2)
# only when x1, x2 are independent (orthogonal)
# var(x1+x2) == var(x1) + var(x2)
########################################
## 그리고 동일한 (독립적이지 않은) 집합 X1에 대해서는
v.11 <- var(x1 + x1)
# var(2*x1) = 2^2 var(X1)
2^2*var(x1)
v.11
> # variance theorem 4-1, 4-2
> # http://commres.net/wiki/variance_theorem
>
> # need a function, rnorm2
> rnorm2 <- function(n,mean,sd) {
+ mean+sd*scale(rnorm(n))
+ }
>
> m <- 50
> v <- 4
> n <- 100000
> set.seed(1)
> x1 <- rnorm2(n, m, sqrt(v))
> x2 <- rnorm2(n, m, sqrt(v))
> x3 <- rnorm2(n, m, sqrt(v))
>
> # Note: x1, x2, x3는 평균과 표준편차를
> # 같은 값으로 갖는 (공유하는) 독립적인
> # 집단
>
> y1 <- 3*x1 +5
> exp.y1 <- mean(y1)
> exp.3xplus5 <- 3 * mean(x1) + 5
> exp.y1
[1] 155
> exp.3xplus5
[1] 155
>
> var(x1)
[,1]
[1,] 4
> var((3*x1)+5)
[,1]
[1,] 36
> 3^2 * var(x1)
[,1]
[1,] 36
> var(y1) # 9 * var(x) 위와 동일
[,1]
[1,] 36
>
> v.12 <- var(x1 + x2)
> v.12
[,1]
[1,] 7.974862
>
> ######################################
> ## v.12 should be near var(x1)+var(x2)
> ######################################
> # 정확히 2*v가 아닌 이유는 x1, x2가
> # 아주 약간은 (random하게) dependent하기 때문
> # (혹은 상관관계가 있기 때문, covariance가
> # 있기 때문)
> # theorem 5-1 에서
> # var(x1+x2) = var(x1)+var(x2)+ (2*cov(x1,x2))
>
> cov.x1x2 <- cov(x1,x2)
> cov.x1x2
[,1]
[1,] -0.01256899
>
> var(x1 + x2)
[,1]
[1,] 7.974862
> var(x1) + var(x2) + (2*cov.x1x2)
[,1]
[1,] 7.974862
>
> # theorem 5-2 도 확인
> var(x1 - x2)
[,1]
[1,] 8.025138
> var(x1) + var(x2) - (2 * cov.x1x2)
[,1]
[1,] 8.025138
>
> # only when x1, x2 are independent (orthogonal)
> # var(x1+x2) == var(x1) + var(x2)
> ########################################
>
> ## 그리고 동일한 (독립적이지 않은) 집합 X1에 대해서는
> v.11 <- var(x1 + x1)
> # var(2*x1) = 2^2 var(X1)
> 2^2*var(x1)
[,1]
[1,] 16
> v.11
[,1]
[1,] 16
>
> v.111 <- var(x1 + x1 + x1)
> v.111
[,1]
[1,] 36
> var(3*x1)
[,1]
[1,] 36
> 3^2*var(x1)
[,1]
[1,] 36
>