correlation
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| correlation [2019/12/19 03:23] – [Sum of Products of Deviations] hkimscil | correlation [2023/10/05 08:19] (current) – [e.g. 1,] hkimscil | ||
|---|---|---|---|
| Line 2: | Line 2: | ||
| <WRAP left> | <WRAP left> | ||
| ^ 상관관계 데이터 | ^ 상관관계 데이터 | ||
| - | | 사람 | + | | 사람 |
| | A | 1 | 1 | ::: | | | A | 1 | 1 | ::: | | ||
| | B | 1 | 3 | ::: | | | B | 1 | 3 | ::: | | ||
| Line 22: | Line 22: | ||
| 관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, | 관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, | ||
| ^ 관계의 방향성 | ^ 관계의 방향성 | ||
| - | | < | + | | [{{: |
| **__관계의 형태 (form)__** \\ | **__관계의 형태 (form)__** \\ | ||
| ^ 관계의 형태 (form) | ^ 관계의 형태 (form) | ||
| - | | < | + | | [{{: |
| **__관계의 정도 (힘)__** | **__관계의 정도 (힘)__** | ||
| Line 60: | Line 60: | ||
| ===== 공분산 ===== | ===== 공분산 ===== | ||
| - | $$ \text{cov(x, | + | \begin{eqnarray*} |
| + | \text{cov(x, | ||
| + | & = & \frac{SP}{(n-1)} | ||
| + | \end{eqnarray*} | ||
| 공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson' | 공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson' | ||
| - | $$ \text{corr(x, | + | |
| + | \begin{eqnarray*} | ||
| + | \text{corr(x, | ||
| + | & = & \frac{\text{cov(x, | ||
| + | \end{eqnarray*} | ||
| 아래가 이를 설명한다. | 아래가 이를 설명한다. | ||
| ====== Pearson' | ====== Pearson' | ||
| Line 100: | Line 108: | ||
| ===== e.g. 1, ===== | ===== e.g. 1, ===== | ||
| ^ Example | ^ Example | ||
| - | | | + | | |
| - | | X | + | | | X |
| - | | 1 | + | | | 1 |
| - | | 2 | + | | | 2 |
| - | | 4 | + | | | 4 |
| - | | 5 | + | | | 5 |
| - | | | + | | |
| X 평균 = 3 | X 평균 = 3 | ||
| Line 145: | Line 153: | ||
| & = & 10 \nonumber | & = & 10 \nonumber | ||
| \end{eqnarray} | \end{eqnarray} | ||
| + | |||
| + | <WRAP box> | ||
| + | 그런데 왜 다음과 같은 공식인지는 | ||
| + | \begin{align} | ||
| + | SS_{\small{X}} = \sum X^2 - \frac{(\sum X)^2}{n} \label{ss.simplified} \tag{SS simplified} \\ | ||
| + | \end{align} | ||
| + | |||
| + | 우선 | ||
| + | |||
| + | \begin{align} | ||
| + | Var[X] & = \frac {SS_{\small{X}}}{df} \;\;\; \nonumber \\ | ||
| + | & \text{Let' | ||
| + | & \text{is n instead of n-1} \nonumber \\ | ||
| + | & \text{And we also know that} \nonumber \\ | ||
| + | Var[X] & = E[X^2] − (E[X])^2 \;\; \nonumber \\ | ||
| + | & = \frac {\Sigma {X^2}}{n} - \left(\frac{\Sigma{X}}{n} \right)^2 \nonumber \\ | ||
| + | & = \frac {\Sigma {X^2}}{n} - \frac{(\Sigma{X})^2}{n^2} \nonumber \\ | ||
| + | & \therefore \nonumber \\ | ||
| + | SS_{\small{X}} & = \Sigma {X^2} - \frac{(\Sigma{X})^2}{n} | ||
| + | \end{align} | ||
| + | </ | ||
| + | |||
| + | <WRAP box> | ||
| + | 또한 | ||
| + | \begin{align} | ||
| + | SP & = & \sum XY - \frac{\sum X \sum Y}{n} \label{sp.simplified} \tag{SP simplified} \\ | ||
| + | \end{align} | ||
| + | |||
| + | |||
| + | \begin{align} | ||
| + | Cov[X,Y] & = E[(X-\overline{X})(Y-\overline{Y})] \nonumber \\ | ||
| + | & = E[XY - X \overline{Y} - \overline{X} Y - \overline{X} \overline{Y}] \nonumber \\ | ||
| + | & = E[XY] - E[X] \overline{Y} - \overline{X} E[Y] + \overline{X} \overline{Y} \nonumber \\ | ||
| + | & \because \;\;\; E[c] = c \;\;\; \text{and, } \overline{X} = E[X] \nonumber \\ | ||
| + | & = E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \nonumber \\ | ||
| + | & = E[XY] - E[X]E[Y] \nonumber \\ | ||
| + | & = \frac{\Sigma{XY}}{n} - \frac{\Sigma{X}}{n} \frac{\Sigma{Y}}{n} | ||
| + | & \therefore | ||
| + | SP & = \Sigma{XY} - \frac{\Sigma{X} \Sigma{Y}}{n} | ||
| + | |||
| + | \end{align} | ||
| + | </ | ||
| 이제 r (correlation coefficient) 값은: | 이제 r (correlation coefficient) 값은: | ||
| Line 154: | Line 204: | ||
| | | ||
| - | === e.g. 2, === | + | ===== e.g. 2, ===== |
| 테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다. | 테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다. | ||
| Line 187: | Line 237: | ||
| & = & .875 \nonumber | & = & .875 \nonumber | ||
| \end{eqnarray} | \end{eqnarray} | ||
| + | |||
| + | 참고로 아래는 Covariance 대 Variance 비율로 계산한 것 | ||
| + | \begin{eqnarray*} | ||
| + | r & = & \frac {Cov(X,Y)} {\sqrt{Var(X) Var(Y)}} \\ | ||
| + | r & = & \frac {\frac{SP}{n-1}} | ||
| + | \end{eqnarray*} | ||
| 혹은, | 혹은, | ||
| - | \begin{eqnarray} | + | \begin{eqnarray*} |
| - | SS_{\tiny X} & = & \sum X^2 - \frac{(\sum X)^2}{n} | + | SS_{X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \\ |
| - | & = & \textstyle | + | & = & 244 - \frac{(30)(30)}{5} \\ |
| - | & = & 64 \nonumber | + | & = & 64 |
| - | \end{eqnarray} | + | \end{eqnarray*} |
| \begin{eqnarray} | \begin{eqnarray} | ||
correlation.1576725786.txt.gz · Last modified: by hkimscil
