User Tools

Site Tools


interpretation_of_multiple_regression

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
interpretation_of_multiple_regression [2023/05/17 08:48] – [Standard error of b1] hkimscilinterpretation_of_multiple_regression [2023/05/17 10:48] (current) – [회귀계수 분석 Regression coefficients] hkimscil
Line 7: Line 7:
  
 scholar <- data.frame(FGPA, HSGPA, SATV) # collect into a data frame scholar <- data.frame(FGPA, HSGPA, SATV) # collect into a data frame
 +
 +# install.packages("psych")
 +# library(psych)
 describe(scholar) # provides descrptive information about each variable describe(scholar) # provides descrptive information about each variable
  
Line 181: Line 184:
 \end{eqnarray*} \end{eqnarray*}
  
 +<code>
 +> sum(resid(m1)^2)
 +[1] 0.5822
 +> sse <- sum(resid(m1)^2)
 +> ssx <- sum((SATV - mean(SATV))^2)
 +> sqrt((1/8)*(sse/ssx))
 +[1] 0.0009598
 +
 +</code>
 +
 +혼란스러운 것을 정리하기 위해서: 
 +  * summary(m1) 아웃풋에서의 standard error of residual 은 말 그대로 
 +    * SSE/df(=n-2) 값에 sqrt를 씌워준 값이다. 
 +    * 즉 sqrt(에러분산 혹은 레지듀얼분산) 값을 말한다. 
 +    * 즉 sqrt(MSE) 값이다. 
 +  * b1의 se 값은 b1에 (독립변인의 기울기) 대한 영향력을 테스트하는 b1의 se이다. 
 +    * 이 값은 sqrt(MSE/SSX1) 를 이용해서 구한다. 
 +    * 만약에 multiple regression이라서 X가 여러개라면 각 X에 해당하는 SSxi 가 분모로 쓰일 것이다. 
  
 ====== 회귀분석의 조건 ====== ====== 회귀분석의 조건 ======
Line 188: Line 209:
   - Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[:homoscedasticity]]   - Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[:homoscedasticity]]
   - No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다.   - No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다.
 +  - 독립변인들 간의 상관관계가 커서는 안된다. 어느정도까지 허용할지는 여러가지 방법이 있다. [[:multicollinearity]]
 +
 +
  
 ====== 플로팅 ====== ====== 플로팅 ======
Line 280: Line 304:
   * SATV를 제외한 독립변인들의 (여기서는 HSGPA 하나) 영향력을 상수화하여 제어했을 때, SATV의 영향력은 SATV의 단위가 하나 증가할 때, 학점은 0.000151 증가하는 것으로 파악된다.   * SATV를 제외한 독립변인들의 (여기서는 HSGPA 하나) 영향력을 상수화하여 제어했을 때, SATV의 영향력은 SATV의 단위가 하나 증가할 때, 학점은 0.000151 증가하는 것으로 파악된다.
   * 마찬가지로 SATV의 영향력을 상수화하여 제어했을 때, FGPA의 단위가 하나 증가하면, 학점은 0.845192 증가한다.    * 마찬가지로 SATV의 영향력을 상수화하여 제어했을 때, FGPA의 단위가 하나 증가하면, 학점은 0.845192 증가한다. 
 +
 +위 분석을 받아들이기 망서리게 되는 이유는 simple regression에서 SATV의 FGPA에 대한 설명력이 유의미하다는 것을 밝혔음에도 불구하고 두개의 독립변인을 동시에 고려할 때에는 중요하지 않은 변인이 되기 때문이다. 이에 대한 설명을 하기 위해서 [[:partial and semipartial correlation]] 문서를 살펴본다. 
 +
  
    
interpretation_of_multiple_regression.1684280924.txt.gz · Last modified: 2023/05/17 08:48 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki