correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
correlation [2019/12/19 12:23] – [Sum of Products of Deviations] hkimscilcorrelation [2023/10/05 17:19] (current) – [e.g. 1,] hkimscil
Line 2: Line 2:
 <WRAP left> <WRAP left>
 ^  상관관계 데이터  ^^^^ ^  상관관계 데이터  ^^^^
-| 사람  | X  | Y  |  <imgcaption cor_scatterplot|correlation scatterplot>{{r_eg.01.png|Figure 1}}</imgcaption>  +| 사람  | X  | Y  |  [{{r_eg.01.png|Figure 1. correlation scatterplot}} 
 | A  | 1  | 1  |  :::  | | A  | 1  | 1  |  :::  |
 | B  | 1  | 3  |  :::  |  | B  | 1  | 3  |  :::  | 
Line 22: Line 22:
 관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다.  관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다. 
 ^  관계의 방향성  ^^ ^  관계의 방향성  ^^
-<imgcaption posit_r|Positive Correlation>{{:r.Positive.png |}}</imgcaption>  <imgcaption negative_r|Negative Correlation>{{:r.Negative.png |}}</imgcaption>  |+[{{:r.Positive.png |Positive Correlation}} [{{:r.Negative.png |Negative Correlation}}  |
  
 **__관계의 형태 (form)__** \\ **__관계의 형태 (form)__** \\
 ^  관계의 형태 (form)  ^^ ^  관계의 형태 (form)  ^^
-<imgcaption nonlinear|Non-linear Relationship>{{:r.CurvePositive.png|}}</imgcaption>  |  <imgcaption curve-linear|Curve-Linear Relationship>{{:r.CurveNegative.png|}}</imgcaption>  |+[{{:r.CurvePositive.png|Non-linear Relationship}} |  [{{:r.CurveNegative.png|Curve-Linear Relationship}} |
  
 **__관계의 정도 (힘)__** **__관계의 정도 (힘)__**
Line 60: Line 60:
  
 ===== 공분산 ===== ===== 공분산 =====
-$$ \text{cov(x, y)} = \frac{\Sigma_{i-1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$+\begin{eqnarray*} 
 +\text{cov(x, y)} \frac{\Sigma_{i-1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1} \\ 
 +& = & \frac{SP}{(n-1)} 
 +\end{eqnarray*}
 공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson's correlation)라고 한다.  공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson's correlation)라고 한다. 
-$$ \text{corr(x, y)} = \frac{\text{cov(x, y)}}{sd(x) sd(y)} $$+ 
 +\begin{eqnarray*} 
 +\text{corr(x, y)} \frac{\text{cov(x, y)}}{\text{sd(x)} \text{sd(y)}} \\ 
 +& = & \frac{\text{cov(x, y)}}{\sqrt{\text{var(x)} \text{var(y)} } }  
 +\end{eqnarray*} 
 아래가 이를 설명한다.  아래가 이를 설명한다. 
 ====== Pearson's r ====== ====== Pearson's r ======
Line 100: Line 108:
 ===== e.g. 1, ===== ===== e.g. 1, =====
 ^  Example  ^^^^^  ^  Example  ^^^^^ 
-|   |  Scores     |  Deviation score   |  Products   |  +|   |  Variable     Variable     |  Deviation score  ||  Products   |  
-|  X     |  $(X-\overline{X})$    $(Y-\overline{Y})$    $(X-\overline{X})(Y-\overline{Y})$   |  +|   |  X    |  $(X-\overline{X})$    $(Y-\overline{Y})$    $(X-\overline{X})(Y-\overline{Y})$   |  
-|  1    3    -2    -2    +4   |  +|   |  1    3    -2    -2    +4   |  
-|  2    6    -1    +1    -1   |  +|   |  2    6    -1    +1    -1   |  
-|  4    4    +1    -1    -1   |  +|   |  4    4    +1    -1    -1   |  
-|  5    7    +2    +2    +4   |  +|   |  5    7    +2    +2    +4   |  
-            |      +6 = $SP  | + sum        20   |     |       |  +6 = SP   
  
 X 평균 = 3 X 평균 = 3
Line 145: Line 153:
  & = & 10 \nonumber   & = & 10 \nonumber 
 \end{eqnarray} \end{eqnarray}
 +
 +<WRAP box>
 +그런데 왜 다음과 같은 공식인지는 
 +\begin{align}
 +SS_{\small{X}} = \sum X^2 - \frac{(\sum X)^2}{n} \label{ss.simplified} \tag{SS simplified} \\
 +\end{align}
 +
 +우선
 +
 +\begin{align}
 +Var[X] & = \frac {SS_{\small{X}}}{df} \;\;\; \nonumber \\
 +& \text{Let's assume that  } df \nonumber \\
 +& \text{is n instead of n-1} \nonumber \\
 +& \text{And we also know that} \nonumber \\
 +Var[X] & = E[X^2] − (E[X])^2 \;\; \nonumber \\
 +& = \frac {\Sigma {X^2}}{n} - \left(\frac{\Sigma{X}}{n} \right)^2 \nonumber \\
 +& = \frac {\Sigma {X^2}}{n} - \frac{(\Sigma{X})^2}{n^2} \nonumber \\
 +& \therefore \nonumber \\
 +SS_{\small{X}} & = \Sigma {X^2} - \frac{(\Sigma{X})^2}{n}  \;\;\;\;\; \text{That is,  } \; \ref{ss.simplified} \nonumber \\
 +\end{align}
 +</WRAP>
 +
 +<WRAP box>
 +또한 
 +\begin{align}
 +SP & = & \sum XY - \frac{\sum X \sum Y}{n} \label{sp.simplified} \tag{SP simplified} \\
 +\end{align}
 +
 +
 +\begin{align}
 +Cov[X,Y] & = E[(X-\overline{X})(Y-\overline{Y})] \nonumber \\
 + & = E[XY - X \overline{Y} - \overline{X} Y - \overline{X} \overline{Y}] \nonumber \\
 + & = E[XY] - E[X] \overline{Y} - \overline{X} E[Y] + \overline{X} \overline{Y} \nonumber \\
 + & \because \;\;\; E[c] = c \;\;\; \text{and, }  \overline{X} = E[X] \nonumber \\
 + & =  E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \nonumber \\
 + & =  E[XY] - E[X]E[Y] \nonumber \\
 + & =  \frac{\Sigma{XY}}{n} - \frac{\Sigma{X}}{n} \frac{\Sigma{Y}}{n}  \nonumber \\
 + & \therefore  \nonumber \\
 +SP & = \Sigma{XY} - \frac{\Sigma{X} \Sigma{Y}}{n}  \;\;\;\;\; \text{That is,  } \; \ref{sp.simplified} \nonumber \\
 +
 +\end{align}
 +</WRAP>
  
 이제 r (correlation coefficient) 값은: 이제 r (correlation coefficient) 값은:
Line 154: Line 204:
  \end{eqnarray}  \end{eqnarray}
  
-=== e.g. 2, ===+===== e.g. 2, =====
  
 테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다.  테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다. 
Line 187: Line 237:
 & = & .875 \nonumber  & = & .875 \nonumber 
 \end{eqnarray} \end{eqnarray}
 +
 +참고로 아래는 Covariance 대 Variance 비율로 계산한 것
 +\begin{eqnarray*}
 +r & = & \frac {Cov(X,Y)} {\sqrt{Var(X) Var(Y)}} \\
 +r & = & \frac {\frac{SP}{n-1}}  {\sqrt{\frac{(SS_X)}{n-1} \frac{(SS_Y)}{n-1}}} \\
 +\end{eqnarray*}
  
  
 혹은,  혹은, 
  
-\begin{eqnarray} +\begin{eqnarray*
-SS_{\tiny X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\ +SS_{X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \\ 
-& = & \textstyle 244 - \frac{(30)(30)}{5} \nonumber \\ +& = & 244 - \frac{(30)(30)}{5} \\ 
-& = & 64 \nonumber  +& = & 64  
-\end{eqnarray}+\end{eqnarray*}
    
 \begin{eqnarray} \begin{eqnarray}
correlation.1576725786.txt.gz · Last modified: by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki