User Tools

Site Tools


correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
correlation [2018/04/30 08:23] – [Sum of Products of Deviations] hkimscilcorrelation [2023/10/05 17:19] (current) – [e.g. 1,] hkimscil
Line 2: Line 2:
 <WRAP left> <WRAP left>
 ^  상관관계 데이터  ^^^^ ^  상관관계 데이터  ^^^^
-| 사람  | X  | Y  |  <imgcaption cor_scatterplot|correlation scatterplot>{{r_eg.01.png|Figure 1}}</imgcaption>  +| 사람  | X  | Y  |  [{{r_eg.01.png|Figure 1. correlation scatterplot}} 
 | A  | 1  | 1  |  :::  | | A  | 1  | 1  |  :::  |
 | B  | 1  | 3  |  :::  |  | B  | 1  | 3  |  :::  | 
Line 22: Line 22:
 관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다.  관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다. 
 ^  관계의 방향성  ^^ ^  관계의 방향성  ^^
-<imgcaption posit_r|Positive Correlation>{{:r.Positive.png |}}</imgcaption>  <imgcaption negative_r|Negative Correlation>{{:r.Negative.png |}}</imgcaption>  |+[{{:r.Positive.png |Positive Correlation}} [{{:r.Negative.png |Negative Correlation}}  |
  
 **__관계의 형태 (form)__** \\ **__관계의 형태 (form)__** \\
 ^  관계의 형태 (form)  ^^ ^  관계의 형태 (form)  ^^
-<imgcaption nonlinear|Non-linear Relationship>{{:r.CurvePositive.png|}}</imgcaption>  |  <imgcaption curve-linear|Curve-Linear Relationship>{{:r.CurveNegative.png|}}</imgcaption>  |+[{{:r.CurvePositive.png|Non-linear Relationship}} |  [{{:r.CurveNegative.png|Curve-Linear Relationship}} |
  
 **__관계의 정도 (힘)__** **__관계의 정도 (힘)__**
Line 60: Line 60:
  
 ===== 공분산 ===== ===== 공분산 =====
-$$ \text{cov(x, y)} = \frac{\Sigma_{i-1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$+\begin{eqnarray*} 
 +\text{cov(x, y)} \frac{\Sigma_{i-1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1} \\ 
 +& = & \frac{SP}{(n-1)} 
 +\end{eqnarray*}
 공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson's correlation)라고 한다.  공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson's correlation)라고 한다. 
-$$ \text{corr(x, y)} = \frac{\text{cov(x, y)}}{sd(x) sd(y)} $$+ 
 +\begin{eqnarray*} 
 +\text{corr(x, y)} \frac{\text{cov(x, y)}}{\text{sd(x)} \text{sd(y)}} \\ 
 +& = & \frac{\text{cov(x, y)}}{\sqrt{\text{var(x)} \text{var(y)} } }  
 +\end{eqnarray*} 
 아래가 이를 설명한다.  아래가 이를 설명한다. 
 ====== Pearson's r ====== ====== Pearson's r ======
Line 75: Line 83:
 위에서 (1), (2)는 동일하다. 왜냐하면 . . . . $Cov[X,Y]$ 와 $Var[X]$, $Var[Y]$에 공히 들어가는 분모는 $n-1$ (degrees of freedom)이기 때문이다. 이를 그림으로 나타내 보면 아래와 같다. 위에서 (1), (2)는 동일하다. 왜냐하면 . . . . $Cov[X,Y]$ 와 $Var[X]$, $Var[Y]$에 공히 들어가는 분모는 $n-1$ (degrees of freedom)이기 때문이다. 이를 그림으로 나타내 보면 아래와 같다.
  
-[{{:circles.gif |Variance and Covariance }}] 이 그림에서 각각의 동그라미는 X 변인과 Y 변인의 variability, 즉 variance를 의미한다고 하면, 위의 그림은 X와 Y가 변하는 정도가 동그라미 정도의 크기를 가지며, 각각의 요소들이 서로 따로따로 논다는 것을 알 수 있다. 즉, Co-vary하지 않다는 것을 알 수 있다. 반면, 아래의 예는 X와 Y의 변하는 정도가 나타나면서 동시에, 각 변인이 서로 동시에 변하는 정도가 어느정도인지 가늠을 할 수 있게 해 준다. Y 입장에서 보면 Y가 변하는 정도 붉은 동그라미 크기 중에서 X와 겹치는 정도를 제외한 정도는 X와 함께 변하는 것이 아닌, Y 고유의 변화정도이다. 이를 residual variance라고 하고, 겹치는 정도는 regression variance라고 이야기 하는데, 이에 대해서는 다음에 설명하도록 한다. 또한 X와 겹치는 변량(X와 Y가 동시에 변화하는 것을 고려한 변량 = $Cov[X, Y]$ )과 Y 전체 변량(분산)의 비율을 $r^2$ 이라고 하는데 이는 r 값을 제곱하여 구한다. 반대로, X와 겹치지 않는 변량과 전체 변량의 비율은 ( $1 - r^2$ )으로 표현한다. +[{{:circles.gif |Variance and Covariance }}] 이 그림에서 각각의 동그라미는 X 변인과 Y 변인의 variability, 즉 variance를 의미한다고 하면, 위의 그림은 X와 Y가 변하는 정도가 동그라미 정도의 크기를 가지며 (즉 각각의 분산이 동그라미 크기정도라는 뜻이다), 각각의 요소들이 서로 따로따로 논다는 것을 알 수 있다. 즉, Co-vary하지 않다는 것을 알 수 있다. 반면, 아래의 예는 X와 Y의 변하는 정도가 나타나면서 동시에, 각 변인이 서로 동시에 변하는 정도가 어느정도인지 가늠을 할 수 있게 해 준다. Y 입장에서 보면 Y가 변하는 정도 붉은 동그라미 크기 중에서 X와 겹치는 정도를 제외한 정도는 X와 함께 변하는 것이 아닌, Y 고유의 변화정도이다. 이를 residual variance라고 하고, 겹치는 정도는 regression variance라고 이야기 하는데, 이에 대해서는 다음에 설명하도록 한다. 또한 X와 겹치는 변량(X와 Y가 동시에 변화하는 것을 고려한 변량 = $Cov[X, Y]$ )과 Y 전체 변량(분산)의 비율을 $r^2$ 이라고 하는데 이는 r 값을 제곱하여 구한다. 반대로, X와 겹치지 않는 변량과 전체 변량의 비율은 ( $1 - r^2$ )으로 표현한다. 
  
 ===== Sum of Products of Deviations ===== ===== Sum of Products of Deviations =====
Line 83: Line 91:
 \end{eqnarray} \end{eqnarray}
  
-Deviation score = $(X-\overline{X})$ 이라고 할 때, 우리가 관심이 있는 것은 어떤 한 케이스의 X가 변화할 때, 해당 케이스의 y값이 어떻게 (동시에) 변화하는가이므로, 이 상황에 맞는 deviation score는 $(X-\overline{X})(Y-\overline{Y})$ 라고 할 수 있다. 이에 degress of freedom에 해당하는 $n-1$ 로 나누어 준 값을 X,Y에 대한 Covariance라고 하며, $Cov[X,Y]$ 라고 표기한다. 즉, $ COV_{xy} = \frac{SP}{n-1}$+Deviation score = $(X-\overline{X})$ 이라고 할 때, 우리가 관심이 있는 것은 어떤 한 케이스의 X가 변화할 때, 해당 케이스의 y값이 어떻게 (동시에) 변화하는가이므로, 이 상황에 맞는 deviation score는 $(X-\overline{X})(Y-\overline{Y})$ 라고 할 수 있다. 이에 degress of freedom에 해당하는 $n-1$ 로 나누어 준 값을 X,Y에 대한 Covariance라고 하며, $Cov[X,Y]$ 라고 표기한다. 즉, 
  
-<WRAP box 500px> 참고: +$$ COV_{xy} = \dfrac{SP}{n-1} $$ 
-\begin{eqnarray} + 
- SS & = & \Sigma(X-\overline{X})^2 \nonumber \\ +<WRAP info box>  
- & = & \Sigma(X-\overline{X})(X-\overline{X}) \nonumber \\ +참고: SS 또한 SP와 같은 형식을 같는다. 단지 SS는 두 변인을 동시에 살펴보지 않고 한 변인만을 다루므로 같은 값을 두번 곱하여 구할 뿐이다.  
- & = & \Sigma X^2 - \frac{(\sum X)^2}{n} \nonumber \\ +\begin{eqnarray*
- & = & \Sigma XX - \frac{\sum X \sum X}{n} \nonumber  + SS & = & \Sigma(X-\overline{X})^2 \\ 
-\end{eqnarray}+ & = & \Sigma(X-\overline{X})(X-\overline{X}) \\ 
 + & = & \Sigma X^2 - \frac{(\sum X)^2}{n} \\ 
 + & = & \Sigma XX - \frac{\sum X \sum X}{n}  
 +\end{eqnarray*}
 </WRAP> </WRAP>
  
Line 97: Line 108:
 ===== e.g. 1, ===== ===== e.g. 1, =====
 ^  Example  ^^^^^  ^  Example  ^^^^^ 
-|   |  Scores     |  Deviation score   |  Products   |  +|   |  Variable     Variable     |  Deviation score  ||  Products   |  
-|  X     |  $(X-\overline{X})$    $(Y-\overline{Y})$    $(X-\overline{X})(Y-\overline{Y})$   |  +|   |  X    |  $(X-\overline{X})$    $(Y-\overline{Y})$    $(X-\overline{X})(Y-\overline{Y})$   |  
-|  1    3    -2    -2    +4   |  +|   |  1    3    -2    -2    +4   |  
-|  2    6    -1    +1    -1   |  +|   |  2    6    -1    +1    -1   |  
-|  4    4    +1    -1    -1   |  +|   |  4    4    +1    -1    -1   |  
-|  5    7    +2    +2    +4   |  +|   |  5    7    +2    +2    +4   |  
-            |      +6 = $SP  | + sum        20   |     |       |  +6 = SP   
  
 X 평균 = 3 X 평균 = 3
Line 142: Line 153:
  & = & 10 \nonumber   & = & 10 \nonumber 
 \end{eqnarray} \end{eqnarray}
 +
 +<WRAP box>
 +그런데 왜 다음과 같은 공식인지는 
 +\begin{align}
 +SS_{\small{X}} = \sum X^2 - \frac{(\sum X)^2}{n} \label{ss.simplified} \tag{SS simplified} \\
 +\end{align}
 +
 +우선
 +
 +\begin{align}
 +Var[X] & = \frac {SS_{\small{X}}}{df} \;\;\; \nonumber \\
 +& \text{Let's assume that  } df \nonumber \\
 +& \text{is n instead of n-1} \nonumber \\
 +& \text{And we also know that} \nonumber \\
 +Var[X] & = E[X^2] − (E[X])^2 \;\; \nonumber \\
 +& = \frac {\Sigma {X^2}}{n} - \left(\frac{\Sigma{X}}{n} \right)^2 \nonumber \\
 +& = \frac {\Sigma {X^2}}{n} - \frac{(\Sigma{X})^2}{n^2} \nonumber \\
 +& \therefore \nonumber \\
 +SS_{\small{X}} & = \Sigma {X^2} - \frac{(\Sigma{X})^2}{n}  \;\;\;\;\; \text{That is,  } \; \ref{ss.simplified} \nonumber \\
 +\end{align}
 +</WRAP>
 +
 +<WRAP box>
 +또한 
 +\begin{align}
 +SP & = & \sum XY - \frac{\sum X \sum Y}{n} \label{sp.simplified} \tag{SP simplified} \\
 +\end{align}
 +
 +
 +\begin{align}
 +Cov[X,Y] & = E[(X-\overline{X})(Y-\overline{Y})] \nonumber \\
 + & = E[XY - X \overline{Y} - \overline{X} Y - \overline{X} \overline{Y}] \nonumber \\
 + & = E[XY] - E[X] \overline{Y} - \overline{X} E[Y] + \overline{X} \overline{Y} \nonumber \\
 + & \because \;\;\; E[c] = c \;\;\; \text{and, }  \overline{X} = E[X] \nonumber \\
 + & =  E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \nonumber \\
 + & =  E[XY] - E[X]E[Y] \nonumber \\
 + & =  \frac{\Sigma{XY}}{n} - \frac{\Sigma{X}}{n} \frac{\Sigma{Y}}{n}  \nonumber \\
 + & \therefore  \nonumber \\
 +SP & = \Sigma{XY} - \frac{\Sigma{X} \Sigma{Y}}{n}  \;\;\;\;\; \text{That is,  } \; \ref{sp.simplified} \nonumber \\
 +
 +\end{align}
 +</WRAP>
  
 이제 r (correlation coefficient) 값은: 이제 r (correlation coefficient) 값은:
Line 151: Line 204:
  \end{eqnarray}  \end{eqnarray}
  
-=== e.g. 2, ===+===== e.g. 2, =====
  
 테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다.  테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다. 
Line 184: Line 237:
 & = & .875 \nonumber  & = & .875 \nonumber 
 \end{eqnarray} \end{eqnarray}
 +
 +참고로 아래는 Covariance 대 Variance 비율로 계산한 것
 +\begin{eqnarray*}
 +r & = & \frac {Cov(X,Y)} {\sqrt{Var(X) Var(Y)}} \\
 +r & = & \frac {\frac{SP}{n-1}}  {\sqrt{\frac{(SS_X)}{n-1} \frac{(SS_Y)}{n-1}}} \\
 +\end{eqnarray*}
  
  
 혹은,  혹은, 
  
-\begin{eqnarray} +\begin{eqnarray*
-SS_{\tiny X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\ +SS_{X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \\ 
-& = & \textstyle 244 - \frac{(30)(30)}{5} \nonumber \\ +& = & 244 - \frac{(30)(30)}{5} \\ 
-& = & 64 \nonumber  +& = & 64  
-\end{eqnarray}+\end{eqnarray*}
    
 \begin{eqnarray} \begin{eqnarray}
Line 328: Line 387:
  
 ====== Links ====== ====== Links ======
- 
 [[http://vassarstats.net/textbook/ch3pt1.html|correlation part 1]]  [[http://vassarstats.net/textbook/ch3pt1.html|correlation part 1]] 
 [[http://faculty.vassar.edu/lowry/ch3pt2.html|correlation part 2]]  [[http://faculty.vassar.edu/lowry/ch3pt2.html|correlation part 2]] 
Line 335: Line 393:
 [[http://faculty.vassar.edu/lowry/ch3b.html|correlation, rank ordered]]  [[http://faculty.vassar.edu/lowry/ch3b.html|correlation, rank ordered]] 
  
----- +{{tag> "research methods" statistics regression correlation 상관관계 조사방법론}}
-{{tag> "research methods" statistics regression}}+
  
  
correlation.1525045984.txt.gz · Last modified: 2018/04/30 08:23 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki