interpretation_of_multiple_regression
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
interpretation_of_multiple_regression [2023/05/17 07:51] – [기울기 계수로 독립변인의 영향력 평가하기] hkimscil | interpretation_of_multiple_regression [2023/05/17 10:48] (current) – [회귀계수 분석 Regression coefficients] hkimscil | ||
---|---|---|---|
Line 7: | Line 7: | ||
scholar <- data.frame(FGPA, | scholar <- data.frame(FGPA, | ||
+ | |||
+ | # install.packages(" | ||
+ | # library(psych) | ||
describe(scholar) # provides descrptive information about each variable | describe(scholar) # provides descrptive information about each variable | ||
Line 171: | Line 174: | ||
* 이 값은 | * 이 값은 | ||
* 0.004119 를 구한다. 이것이 Pr(>|t|) 값인 '' | * 0.004119 를 구한다. 이것이 Pr(>|t|) 값인 '' | ||
+ | |||
+ | ====== Standard error of b1 ====== | ||
+ | b1은 기울기이다 (regression coefficient). xi 지점에서 y값을 살펴보면 실제 y값에서 (y value) 기울기 선에 위치한 y값을 (y fitted value 혹은 predicted value of y) 뺀 값은 우리가 이야기한 error에 혹은 residual에 해당하는 값이다. 이 에러들이 사선을 중심으로 어떻게 포진해 있는가를 보기 위해서 b1 기울기 주변에 모인 residual 값들의 standard error 값을 알아보려면: | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | \displaystyle s_{b_{1}} & = & \sqrt {\frac {MSE}{SS_{X}}} \\ | ||
+ | & = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{SSE}{SS_{X}}} \\ | ||
+ | & = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{\Sigma{(Y-\hat{Y})^2}}{\Sigma{(X_{i} - \bar{X})^2}}} \\ | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | < | ||
+ | > sum(resid(m1)^2) | ||
+ | [1] 0.5822 | ||
+ | > sse <- sum(resid(m1)^2) | ||
+ | > ssx <- sum((SATV - mean(SATV))^2) | ||
+ | > sqrt((1/ | ||
+ | [1] 0.0009598 | ||
+ | > | ||
+ | </ | ||
+ | |||
+ | 혼란스러운 것을 정리하기 위해서: | ||
+ | * summary(m1) 아웃풋에서의 standard error of residual 은 말 그대로 | ||
+ | * SSE/ | ||
+ | * 즉 sqrt(에러분산 혹은 레지듀얼분산) 값을 말한다. | ||
+ | * 즉 sqrt(MSE) 값이다. | ||
+ | * b1의 se 값은 b1에 (독립변인의 기울기) 대한 영향력을 테스트하는 b1의 se이다. | ||
+ | * 이 값은 sqrt(MSE/ | ||
+ | * 만약에 multiple regression이라서 X가 여러개라면 각 X에 해당하는 SSxi 가 분모로 쓰일 것이다. | ||
====== 회귀분석의 조건 ====== | ====== 회귀분석의 조건 ====== | ||
Line 178: | Line 209: | ||
- Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[: | - Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[: | ||
- No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다. | - No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다. | ||
+ | - 독립변인들 간의 상관관계가 커서는 안된다. 어느정도까지 허용할지는 여러가지 방법이 있다. [[: | ||
+ | |||
+ | |||
====== 플로팅 ====== | ====== 플로팅 ====== | ||
Line 270: | Line 304: | ||
* SATV를 제외한 독립변인들의 (여기서는 HSGPA 하나) 영향력을 상수화하여 제어했을 때, SATV의 영향력은 SATV의 단위가 하나 증가할 때, 학점은 0.000151 증가하는 것으로 파악된다. | * SATV를 제외한 독립변인들의 (여기서는 HSGPA 하나) 영향력을 상수화하여 제어했을 때, SATV의 영향력은 SATV의 단위가 하나 증가할 때, 학점은 0.000151 증가하는 것으로 파악된다. | ||
* 마찬가지로 SATV의 영향력을 상수화하여 제어했을 때, FGPA의 단위가 하나 증가하면, | * 마찬가지로 SATV의 영향력을 상수화하여 제어했을 때, FGPA의 단위가 하나 증가하면, | ||
+ | |||
+ | 위 분석을 받아들이기 망서리게 되는 이유는 simple regression에서 SATV의 FGPA에 대한 설명력이 유의미하다는 것을 밝혔음에도 불구하고 두개의 독립변인을 동시에 고려할 때에는 중요하지 않은 변인이 되기 때문이다. 이에 대한 설명을 하기 위해서 [[:partial and semipartial correlation]] 문서를 살펴본다. | ||
+ | |||
interpretation_of_multiple_regression.1684277491.txt.gz · Last modified: 2023/05/17 07:51 by hkimscil