This is an old revision of the document!

r

상관관계 데이터
사람	X	Y	Fig. ##: correlation scatterplot
A	1	1
B	1	3
C	3	2
D	4	5
E	6	4
F	7	5
G	8	7

상관관계이란 (correlation) 두 변인 간의 관계를 측정하고 묘사하기 위한 통계학적 기법을 뜻한다. 상관관계 측정은 실험보다는 현상에 대한 관찰 기록에 많이 사용된다. 가령 11살 아동의 키와 몸무게의 관계에 관심을 갖는다는 것은, 키라는 변인과 몸무게라는 변인¹⁾ 간의 관계를 알아보려 하는 것이다. 흔히 두 변인은 X 와 Y 로 사용되며, 아래의 그림처럼, 표와 그래프가 데이터 표현에 이용된다.

상관관계의 특징

상관관계는 아래 세 가지 특징을 갖는다.

관계의 방향성

관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다.

관계의 방향성
Fig. ##: Positive Correlation	Fig. ##: Negative Correlation

관계의 형태 (form)

관계의 형태 (form)
Fig. ##: Non-linear Relationship	Fig. ##: Curve-Linear Relationship

관계의 정도 (힘)

관계의 정도 (힘)
Figure_4-1	Figure 4-2
Figure_4-3	Figure 4-4

r의 힘을 판단하는 가이드 라인

	Coefficient, r
Strength of Association	Positive	Negative
Small	0.1 ~ 0.3	-0.1 ~ -0.3
Medium	0.3 ~ 0.5	-0.3 ~ -0.5
Large	0.5 ~ 1.0	-0.5 ~ -1.0

그러나, df를 참조하여 correlation coefficient table을 참조하여 판단할 것

상관관계가 사용되기 위한 조건

두 변인 모두의 측정수준이 I 혹은 R 이어야 한다 (NOIR 중. 측정수준 참조).
두 변인의 분포가 정상분포에 가까와야 한다.
두 변인의 관계가 선형적이어야 한다.
아웃라이어가 제어되어야 한다.
데이터의 분포가 homoscedasticity를 결과해야 한다

상관관계가 사용될 때

prediction 예측
- 대학생활 만족도와 졸업 10년 후 행복지수에 대한 데이터를 지속적으로 모아서 관측, 분석을 하게 되면;
- 만족도만을 아는 상태에서 . . .
Validity 측정
- Validity test: Comparing r to other verified methods in order to confirm (check) my method is valid.
- 내가 고안한 IQ 테스트 방법은 비록 원 IQ 테스트 방법과 다르지만, 결과 값은 서로 상관관계가 높다.
Theory backup
Reliablity 측정
- Half-and-half reliability test.

공분산

$$ \text{cov(x, y)} = \frac{\Sigma_{i-1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$
공분산 값은 x와 y의 단위에 의한 영향을 받는다. 따라서 이 값을 x와 y의 표준편차 값으로 나누어 준것을 피어슨의 상관계수 (Pearson's correlation)라고 한다.
$$ \text{corr(x, y)} = \frac{\text{cov(x, y)}}{sd(x) sd(y)} $$
아래가 이를 설명한다.

Pearson's r

Pearson's r:: 두 변인 간의 선형적 관계의 크기와 방향성을 측정하는 방법
\begin{eqnarray} r & = & \frac{\text{degree to which X and Y vary together}}{\text{degree to which X and Y vary separately}} \nonumber \\ & = & \frac{\text{covariablity of X and Y}}{\text{variability of X and Y separately}} \nonumber \\ & = & \frac{Cov[X,Y]}{\sqrt{Var[X]Var[Y]}} \\ & = & \frac{SP_{XY}}{\sqrt{SS_X SS_Y}} \end{eqnarray}

위에서 (1), (2)는 동일하다. 왜냐하면 . . . . $Cov[X,Y]$ 와 $Var[X]$, $Var[Y]$에 공히 들어가는 분모는 $n-1$ (degrees of freedom)이기 때문이다. 이를 그림으로 나타내 보면 아래와 같다.

Variance and Covariance

이 그림에서 각각의 동그라미는 X 변인과 Y 변인의 variability, 즉 variance를 의미한다고 하면, 위의 그림은 X와 Y가 변하는 정도가 동그라미 정도의 크기를 가지며, 각각의 요소들이 서로 따로따로 논다는 것을 알 수 있다. 즉, Co-vary하지 않다는 것을 알 수 있다. 반면, 아래의 예는 X와 Y의 변하는 정도가 나타나면서 동시에, 각 변인이 서로 동시에 변하는 정도가 어느정도인지 가늠을 할 수 있게 해 준다. Y 입장에서 보면 Y가 변하는 정도 붉은 동그라미 크기 중에서 X와 겹치는 정도를 제외한 정도는 X와 함께 변하는 것이 아닌, Y 고유의 변화정도이다. 이를 residual variance라고 하고, 겹치는 정도는 regression variance라고 이야기 하는데, 이에 대해서는 다음에 설명하도록 한다. 또한 X와 겹치는 변량(X와 Y가 동시에 변화하는 것을 고려한 변량 = $Cov[X, Y]$ )과 Y 전체 변량(분산)의 비율을 $r^2$ 이라고 하는데 이는 r 값을 제곱하여 구한다. 반대로, X와 겹치지 않는 변량과 전체 변량의 비율은 ( $1 - r^2$ )으로 표현한다.

Sum of Products of Deviations

\begin{eqnarray} SP & = & \displaystyle \sum (X-\overline{X})(Y-\overline{Y}) \nonumber \\ & = & \displaystyle \sum XY - \displaystyle \frac{\sum X \small \sum Y}{n} \nonumber \end{eqnarray}

Deviation score = $(X-\overline{X})$ 이라고 할 때, 우리가 관심이 있는 것은 어떤 한 케이스의 X가 변화할 때, 해당 케이스의 y값이 어떻게 (동시에) 변화하는가이므로, 이 상황에 맞는 deviation score는 $(X-\overline{X})(Y-\overline{Y})$ 라고 할 수 있다. 이에 degress of freedom에 해당하는 $n-1$ 로 나누어 준 값을 X,Y에 대한 Covariance라고 하며, $Cov[X,Y]$ 라고 표기한다. 즉, $ COV_{xy} = \frac{SP}{n}$

참고:
\begin{eqnarray} SS & = & \Sigma(X-\overline{X})^2 \nonumber \\ & = & \Sigma(X-\overline{X})(X-\overline{X}) \nonumber \\ & = & \Sigma X^2 - \frac{(\sum X)^2}{n} \nonumber \\ & = & \Sigma XX - \frac{\sum X \sum X}{n} \nonumber \end{eqnarray}

e.g. 1,

Example
	Scores		Deviation score	Products
X	Y	$(X-\overline{X})$	$(Y-\overline{Y})$	$(X-\overline{X})(Y-\overline{Y})$
1	3	-2	-2	+4
2	6	-1	+1	-1
4	4	+1	-1	-1
5	7	+2	+2	+4
				+6 = $SP$

X 평균 = 3
Y 평균 = 5

이 예는 $ SP = \Sigma (X-\overline{X})(Y-\overline{Y})$ 의 공식을 사용하여 구한 예이다. 반면에, $ SP = \Sigma XY - \frac{\sum X \sum Y}{n}$ 의 공식을 사용하면,

\begin{eqnarray} SP & = & \sum XY - \frac{\sum X \sum Y}{n} \nonumber \\ & = & 66 - \frac{(12)\;(20)}{4} \nonumber \\ & = & 66 - 60 \nonumber \\ & = & 6 \nonumber \end{eqnarray}
으로 똑같은 결과를 갖는다. 위는 Sum of Products (SP) 의 값을 구한 것이고 $SS_X$ 와 $SS_Y$ 값을 구해 보면:

Example
X	Y	XY	X²	Y²
1	3	3	1	9
2	6	12	4	36
4	4	16	16	16
5	7	35	25	49
$\textstyle \sum X = $ 12	$\textstyle \sum Y =$ 20	$\textstyle \sum XY = $ 66	$\textstyle \sum X^2 = $ 46	$\textstyle \sum Y^2 = $ 110

\begin{eqnarray} SS_{\small X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\ & = & 46 - \frac{(12)^2}{4} \nonumber \\ & = & 46 - 36 \nonumber \\ & = & 10 \nonumber \end{eqnarray}

\begin{eqnarray} SS_{\small Y} & = & \sum Y^2 - \frac{(\sum Y)^2}{n} \nonumber \\ & = & 110 - \frac{(20)^2}{4} \nonumber \\ & = & 110 - 100 \nonumber \\ & = & 10 \nonumber \end{eqnarray}

이제 r (correlation coefficient) 값은:

\begin{eqnarray} r & = & \frac{SP}{\sqrt{SS_X SS_Y}} \nonumber \\ & = & \textstyle \frac{6}{\sqrt{(10)(10)}} \nonumber \\ & = & \textstyle .6 \nonumber \end{eqnarray}

e.g. 2,

테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다.

Example 2
X	Y	Figure 5
0	1
10	3
4	1
8	2
8	3

Example 2
	Scores				Deviation score		Deviation score²	Products
X	Y	X²	Y²	$(X-\overline{X})$	$(Y-\overline{Y})$	$(X-\overline{X})^2$	$ (Y-\overline{Y})^2 $	$(X-\overline{X})$ $ * (Y-\overline{Y})$
0	1	0	1	-6	-1	36	1	6
10	3	100	9	4	1	16	1	4
4	1	16	2	-2	-1	4	1	2
8	2	64	4	2	0	4	0	0
8	3	64	9	2	1	4	1	2
t = 30	10	234	24			SS_X = 64	SS_Y = 4	SP = 14
$\overline{X}$ = 6	2

위에서 구한 SS_X, SS_Y, 그리고 SP 값을 대입해 보면,

\begin{eqnarray} r & = & \frac{SP}{\sqrt{(SS_X) (SS_Y)}} \nonumber \\ & = & \frac{14}{\sqrt{(64) (4)}} \nonumber \\ & = & .875 \nonumber \end{eqnarray}

혹은,

\begin{eqnarray} SS_{\tiny X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\ & = & \textstyle 244 - \frac{(30)(30)}{5} \nonumber \\ & = & 64 \nonumber \end{eqnarray}

\begin{eqnarray} SS_{\tiny Y} & = & \sum Y^2 - \frac{(\sum Y)^2}{n} \nonumber \\ & = & 24 - \frac{(10)(10)}{5} \nonumber \\ & = & 4 \nonumber \end{eqnarray}

Pearson's r 의 의미

Relations, not cause-effect

Figure 6. Correlation And Causation

상관관계 계수는 단순히 두 변인 (x, y) 간의 관계가 있다는 것을 알려줄 뿐, 왜 그 관계가 있는지는 설명하지 않는다. 바꿔 말하면, 충분한 r 값을 구했다고 해서 이 값이 두 변인 간의 '원인'과 '결과'의 관계를 말한다고 이야기 하면 안된다. 예를 들면 아이스크림의 판매량과 성범죄가 서로 상관관계에 있다고 해서, 전자가 후자의 원인이라고 단정할 수 있는 근거는 없다. 이는 연구자의 논리적인 판단 혹은 이론적인 판단에 따른다.

Interpretation with limited range

Figure_7._Correlation_And_Range

데이터의 Range에 대한 판단에 신중해야 한다. 왜냐 하면, 데이터의 어느 곳을 자르느냐에 따라서 r 값이 심하게 변하기 때문이다.

Outliers

Figure_7._Correlation_And_Extreme_Data

위의 설명과 관련하여, 만약에 아주 심한 Outlier가 존재한다면 두 변인 간의 상관관계에 심한 영향을 준다.

Interpretation of r value

Figure_8._Correlation_And_Strength

r 값으로 얻는 단위는 상관관계의 정도를 정확히 말해 주지 않는다. 예를 들면 r = +.5 은 0 - 1 까지의 반이므로 적당한 량의 상관관계를 보여주고 있다고 생각할 수 있으나, 이는 사실이 아니다. 정확한 양을 이야기 하려면, r 값에 제곱을 해준 값을 이야기 해야 한다. 따라서, r = +.5 인경우 .5^2 값인 .25 즉, 25%가 두 변인 간의 상관관계의 양이다.

Pearson's r을 이용한 가설 검증

기본적으로 두 변인 (보통 한 subject 혹은 participant의 두 변인 기록으로 이루어진 데이터) 간에 상관관계가 있는가에 대한 질문이 연구문제 혹은 가설로 만들어지며, 만약에 이 관계가 없다면, 이라는 질문의 영가설을 통해서 이를 검증한다. 즉,

\begin{eqnarray} & H_0: & \;\; \rho = 0 \;\cdots\; \text{no population correlation} \nonumber \\ & H_1: & \;\; \rho \not= 0 \;\cdots\; \text{real correlation} \nonumber \end{eqnarray}

correlation의 경우 df는 sample size(n) - number of variables (correlation의 경우 2) 으로 하고
p value 는 통상적으로 .05으로 참조해서 판단

참조: pearson correlation table 혹은 Pearson's R table PDF파일 혹은 Critical Values for Pearson's Correlation table page 참조

학술논문 보고

데이터의 상관관계를 살펴본 결과 개인의 교육양과 (년도수) 연수입 (원) 간에는 통계학적으로 유의미한 상관관계가 있다고 판단되었다 (r = +.65, n = 30, p < .01).

연수입, 교육량, 나이, 그리고 지능 간의 관계를 분석하였다 (n=30). 변인들 간의 상관관계를 정리한 결과를 요약한 표1에 나타냈었다. 통계적으로 유의미한 상관관계는 표에 정리되었다.

TABLE 1.
Correlation matrix for income, amount of education, age, and IQ
	Education	Age	IQ
Income	+.65**	+.41**	+.27
Education		+.11	+.38*
Age			-.02
n=30 * p < .05, two tails ** p < .01, two tails

exercise

연구자가 얻은 r = -.41 (n=25) 일때, 이 샘플이 모집단에서 나타나는 두 변인간의 상관관계가 통계적으로 유의미하다고 할 수 있는가?
n=20 일때, r값은 어떤 값을 가져야 모집단의 두 변인 간의 상관관계가 의미가 있다고 하겠는가?
샘플사이즈가 작아질 수 록, 유의미한 상관관계를 갖기 위한 r값은 어떻게 되야 하는가? 왜 그런가?

Spearman Correlation

Scores
Person	X	Y
A	4	9
B	2	2
C	10	10
D	3	8

Pearson's r은 두 변인 간의 선형적인 관계를 측정하는 방법이다. 선형적이라 함은 해당되는 변인들의 측정수준이 (LevelOfMeasurement) 숫자 (Interval 혹은 ratio) 형태를 갖는다는 것을 의미한다. 그러나 Ordinal한 측정수준의 데이터 간의 상관관계 또한 구할 수 있다. 이는 Spearman's correlatin이라는 방법을 통해서 구한다. 이를 rank ordered correlation이라고도 한다. 이 데이터의 특징은 상관관계가 존재하되 비선형 관계라는 점이다. 이를 순위를 메겨서 다시 정리하면 아래의 표와 같은 결과를 얻는다.

Scores
Person	X	Y
A	3	3
B	1	1
C	4	4
D	2	2

Figure_4-1

Figure_4-2

따라서, Spearman rho는

순위측정 데이터에 사용 (ordinal measured).
상관관계의 지속성에 관심을 둘 때 사용. 즉, 계속 증가하는가, 감소하는 추세인가, 등등에 사용

Spearman's rho 값 구하기

순위
X	Y	X	Y	XY	X²	Y²
3	12	1	5	5	1	25
4	5	2	3	6	4	9
5	6	3	4	12	9	16
10	4	4	2	8	16	4
13	3	5	1	5	25	1
$\Sigma$		15	15	36	55	55

\begin{eqnarray} SS_{\tiny X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\ & = & 55 - \frac{15^2}{5} \nonumber \\ & = & 55 - 45 \nonumber \\ & = & 10 \nonumber \end{eqnarray}

$$ SS_{\tiny Y} = 10 $$

\begin{eqnarray} SP_{XY} & = & \sum XY - \frac{(\sum X \sum Y)}{n} \nonumber \\ & = & 36 - \frac{(15)(15)}{5} \nonumber \\ & = & 36-45 \nonumber \\ & = & -9 \nonumber \end{eqnarray}

\begin{eqnarray} r_{\tiny S} \textstyle & = & \frac{SP}{\sqrt{(SS_X)(SS_Y)}} \nonumber \\ & = & \frac{-9}{\sqrt{10(10)}} \nonumber \\ & = & -0.9 \nonumber \end{eqnarray}

Regression

Regression은 이야기할 내용이 많으므로 Regression 참조.

Links

correlation part 1
correlation part 2
correlation part 3
correlation, partial
correlation, rank ordered

research methods, statistics, regression

¹⁾

모두가 숫자임을 주의하라.

COMMunication
RESearch.NET

Table of Contents

r