User Tools

Site Tools


interpretation_of_multiple_regression

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
interpretation_of_multiple_regression [2023/05/17 07:50] – [기울기 계수로 독립변인의 영향력 평가하기] hkimscilinterpretation_of_multiple_regression [2023/05/17 10:40] – [회귀분석의 조건] hkimscil
Line 7: Line 7:
  
 scholar <- data.frame(FGPA, HSGPA, SATV) # collect into a data frame scholar <- data.frame(FGPA, HSGPA, SATV) # collect into a data frame
 +
 +# install.packages("psych")
 +# library(psych)
 describe(scholar) # provides descrptive information about each variable describe(scholar) # provides descrptive information about each variable
  
Line 170: Line 173:
     * df 값은 n-2로 (변수의 갯수) 구한다.       * df 값은 n-2로 (변수의 갯수) 구한다.  
   * 이 값은  0.002059 이고 이는 한 쪽 날개에 해당하는 probability이므로 2를 곱하여    * 이 값은  0.002059 이고 이는 한 쪽 날개에 해당하는 probability이므로 2를 곱하여 
-  * 0.004119 를 구한다. 이것이 Pr(>|t|) 값인 ''0.0041'' 이다. +  * 0.004119 를 구한다. 이것이 Pr(>|t|) 값인 ''0.0041'' 혹은 ''0.00412'' 이다.  
 + 
 +====== Standard error of b1 ====== 
 +b1은 기울기이다 (regression coefficient). xi 지점에서 y값을 살펴보면 실제 y값에서 (y value) 기울기 선에 위치한 y값을 (y fitted value 혹은 predicted value of y) 뺀 값은 우리가 이야기한 error에 혹은 residual에 해당하는 값이다. 이 에러들이 사선을 중심으로 어떻게 포진해 있는가를 보기 위해서 b1 기울기 주변에 모인 residual 값들의 standard error 값을 알아보려면: residual의 분산값을 x의 Sum of Square 값에 제곱근을 씌운 값으로 나누어 준다. 즉,  
 + 
 +\begin{eqnarray*} 
 +\displaystyle s_{b_{1}} & = & \sqrt {\frac {MSE}{SS_{X}}} \\ 
 + & = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{SSE}{SS_{X}}} \\  
 + & = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{\Sigma{(Y-\hat{Y})^2}}{\Sigma{(X_{i} - \bar{X})^2}}} \\ 
 +\end{eqnarray*} 
 + 
 +<code> 
 +> sum(resid(m1)^2) 
 +[1] 0.5822 
 +> sse <- sum(resid(m1)^2) 
 +> ssx <- sum((SATV - mean(SATV))^2) 
 +> sqrt((1/8)*(sse/ssx)) 
 +[1] 0.0009598 
 +>  
 +</code> 
 + 
 +혼란스러운 것을 정리하기 위해서:  
 +  * summary(m1) 아웃풋에서의 standard error of residual 은 말 그대로  
 +    * SSE/df(=n-2) 값에 sqrt를 씌워준 값이다.  
 +    * 즉 sqrt(에러분산 혹은 레지듀얼분산) 값을 말한다.  
 +    * 즉 sqrt(MSE) 값이다.  
 +  * b1의 se 값은 b1에 (독립변인의 기울기) 대한 영향력을 테스트하는 b1의 se이다.  
 +    * 이 값은 sqrt(MSE/SSX1) 를 이용해서 구한다.  
 +    * 만약에 multiple regression이라서 X가 여러개라면 각 X에 해당하는 SSxi 가 분모로 쓰일 것이다. 
  
 ====== 회귀분석의 조건 ====== ====== 회귀분석의 조건 ======
Line 178: Line 209:
   - Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[:homoscedasticity]]   - Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[:homoscedasticity]]
   - No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다.   - No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다.
 +  - 독립변인들 간의 상관관계가 커서는 안된다. 어느정도까지 허용할지는 여러가지 방법이 있다. [[:multicollinearity]]
 +
 +
  
 ====== 플로팅 ====== ====== 플로팅 ======
interpretation_of_multiple_regression.txt · Last modified: 2023/05/17 10:48 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki