User Tools

Site Tools


correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
correlation [2019/12/19 12:56] – [공분산] hkimscilcorrelation [2023/10/05 17:19] (current) – [e.g. 1,] hkimscil
Line 2: Line 2:
 <WRAP left> <WRAP left>
 ^  상관관계 데이터  ^^^^ ^  상관관계 데이터  ^^^^
-| 사람  | X  | Y  |  <imgcaption cor_scatterplot|correlation scatterplot>{{r_eg.01.png|Figure 1}}</imgcaption>  +| 사람  | X  | Y  |  [{{r_eg.01.png|Figure 1. correlation scatterplot}} 
 | A  | 1  | 1  |  :::  | | A  | 1  | 1  |  :::  |
 | B  | 1  | 3  |  :::  |  | B  | 1  | 3  |  :::  | 
Line 22: Line 22:
 관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다.  관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다. 
 ^  관계의 방향성  ^^ ^  관계의 방향성  ^^
-<imgcaption posit_r|Positive Correlation>{{:r.Positive.png |}}</imgcaption>  <imgcaption negative_r|Negative Correlation>{{:r.Negative.png |}}</imgcaption>  |+[{{:r.Positive.png |Positive Correlation}} [{{:r.Negative.png |Negative Correlation}}  |
  
 **__관계의 형태 (form)__** \\ **__관계의 형태 (form)__** \\
 ^  관계의 형태 (form)  ^^ ^  관계의 형태 (form)  ^^
-<imgcaption nonlinear|Non-linear Relationship>{{:r.CurvePositive.png|}}</imgcaption>  |  <imgcaption curve-linear|Curve-Linear Relationship>{{:r.CurveNegative.png|}}</imgcaption>  |+[{{:r.CurvePositive.png|Non-linear Relationship}} |  [{{:r.CurveNegative.png|Curve-Linear Relationship}} |
  
 **__관계의 정도 (힘)__** **__관계의 정도 (힘)__**
Line 60: Line 60:
  
 ===== 공분산 ===== ===== 공분산 =====
-$$ \text{cov(x, y)} = \frac{\Sigma_{i-1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$+\begin{eqnarray*} 
 +\text{cov(x, y)} \frac{\Sigma_{i-1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1} \\ 
 +& = & \frac{SP}{(n-1)} 
 +\end{eqnarray*}
 공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson's correlation)라고 한다.  공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson's correlation)라고 한다. 
  
 \begin{eqnarray*} \begin{eqnarray*}
 \text{corr(x, y)} & = & \frac{\text{cov(x, y)}}{\text{sd(x)} \text{sd(y)}} \\ \text{corr(x, y)} & = & \frac{\text{cov(x, y)}}{\text{sd(x)} \text{sd(y)}} \\
-& = & \frac{\text{cov(x, y)}}{\sqrt{\text{V(x)} \text{V(y)} } } +& = & \frac{\text{cov(x, y)}}{\sqrt{\text{var(x)} \text{var(y)} } } 
 \end{eqnarray*} \end{eqnarray*}
  
Line 150: Line 153:
  & = & 10 \nonumber   & = & 10 \nonumber 
 \end{eqnarray} \end{eqnarray}
 +
 +<WRAP box>
 +그런데 왜 다음과 같은 공식인지는 
 +\begin{align}
 +SS_{\small{X}} = \sum X^2 - \frac{(\sum X)^2}{n} \label{ss.simplified} \tag{SS simplified} \\
 +\end{align}
 +
 +우선
 +
 +\begin{align}
 +Var[X] & = \frac {SS_{\small{X}}}{df} \;\;\; \nonumber \\
 +& \text{Let's assume that  } df \nonumber \\
 +& \text{is n instead of n-1} \nonumber \\
 +& \text{And we also know that} \nonumber \\
 +Var[X] & = E[X^2] − (E[X])^2 \;\; \nonumber \\
 +& = \frac {\Sigma {X^2}}{n} - \left(\frac{\Sigma{X}}{n} \right)^2 \nonumber \\
 +& = \frac {\Sigma {X^2}}{n} - \frac{(\Sigma{X})^2}{n^2} \nonumber \\
 +& \therefore \nonumber \\
 +SS_{\small{X}} & = \Sigma {X^2} - \frac{(\Sigma{X})^2}{n}  \;\;\;\;\; \text{That is,  } \; \ref{ss.simplified} \nonumber \\
 +\end{align}
 +</WRAP>
 +
 +<WRAP box>
 +또한 
 +\begin{align}
 +SP & = & \sum XY - \frac{\sum X \sum Y}{n} \label{sp.simplified} \tag{SP simplified} \\
 +\end{align}
 +
 +
 +\begin{align}
 +Cov[X,Y] & = E[(X-\overline{X})(Y-\overline{Y})] \nonumber \\
 + & = E[XY - X \overline{Y} - \overline{X} Y - \overline{X} \overline{Y}] \nonumber \\
 + & = E[XY] - E[X] \overline{Y} - \overline{X} E[Y] + \overline{X} \overline{Y} \nonumber \\
 + & \because \;\;\; E[c] = c \;\;\; \text{and, }  \overline{X} = E[X] \nonumber \\
 + & =  E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \nonumber \\
 + & =  E[XY] - E[X]E[Y] \nonumber \\
 + & =  \frac{\Sigma{XY}}{n} - \frac{\Sigma{X}}{n} \frac{\Sigma{Y}}{n}  \nonumber \\
 + & \therefore  \nonumber \\
 +SP & = \Sigma{XY} - \frac{\Sigma{X} \Sigma{Y}}{n}  \;\;\;\;\; \text{That is,  } \; \ref{sp.simplified} \nonumber \\
 +
 +\end{align}
 +</WRAP>
  
 이제 r (correlation coefficient) 값은: 이제 r (correlation coefficient) 값은:
correlation.1576727794.txt.gz · Last modified: 2019/12/19 12:56 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki