User Tools

Site Tools


interpretation_of_multiple_regression

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
interpretation_of_multiple_regression [2023/05/17 07:45] hkimscilinterpretation_of_multiple_regression [2023/05/17 10:40] – [회귀분석의 조건] hkimscil
Line 7: Line 7:
  
 scholar <- data.frame(FGPA, HSGPA, SATV) # collect into a data frame scholar <- data.frame(FGPA, HSGPA, SATV) # collect into a data frame
 +
 +# install.packages("psych")
 +# library(psych)
 describe(scholar) # provides descrptive information about each variable describe(scholar) # provides descrptive information about each variable
  
Line 133: Line 136:
  
 ====== 기울기 계수로 독립변인의 영향력 평가하기 ====== ====== 기울기 계수로 독립변인의 영향력 평가하기 ======
-SATV의 기울기 계수인 0.00381은 모델 직선의 (데이터를 관통하는) 위치를 알려주는 것이고 이 선을 중심으로 데이터들이 포진하게 된다. 그리고 선에서 데이터 까지의 거리가 에러 값이다. 또한 이 거리는 표준편차 값을 갖게 되고 이를 이용하여 표준오차 (standard error) 값을 구해볼 수 있다. 즉 이 표준오차 값은 에러값들이 선을 중심으로 얼마나 잘 포진되어 있는지를 보여주는 지표가 된다. +SATV의 기울기 계수인 0.00381은 모델 직선의 (데이터를 관통하는) 위치를 알려주는 것이고 이 선을 중심으로 데이터들이 포진하게 된다. 그리고 선에서 데이터 까지의 거리가 에러 값이다. 또한 이 거리는 표준편차 값을 갖게 되고 이를 이용하여 표준오차 (standard error) 값을 구해볼 수 있다. 즉 이 표준오차 값은 에러값 들이 선을 중심으로 얼마나 잘 포진되어 있는 지를 보여주는 지표가 된다.  
 + 
 +이 논리도 연구자는 계수 값을 (b에 해당하는 계수) 표준오차 값으로 (standard error)값으로 나누고 이를 t 계산 값으로 (t-calculated value) 삼아서 significance 테스트를 할 수 있다. 표준오차가 작은 경우는 선을 중심으로 실제 데이터 값들이 좁게 모여 있음을 의미하므로 높은 t 값을 얻을 수 있겠다. 따라서 계수의 역할에 대한 통계학적인 의미가 있다고 판단한다. 
  
-이 논리도 연구자는 계수 값을 표준오차 값으로 (standard error)값으로 나누고 이를 t 계산값으로 (t-calculated value) 삼아서 significance 테스트를 할 수 있다.  
  
 <code> <code>
Line 169: Line 173:
     * df 값은 n-2로 (변수의 갯수) 구한다.       * df 값은 n-2로 (변수의 갯수) 구한다.  
   * 이 값은  0.002059 이고 이는 한 쪽 날개에 해당하는 probability이므로 2를 곱하여    * 이 값은  0.002059 이고 이는 한 쪽 날개에 해당하는 probability이므로 2를 곱하여 
-  * 0.004119 를 구한다. 이것이 Pr(>|t|) 값인 ''0.0041'' 이다. +  * 0.004119 를 구한다. 이것이 Pr(>|t|) 값인 ''0.0041'' 혹은 ''0.00412'' 이다.  
 + 
 +====== Standard error of b1 ====== 
 +b1은 기울기이다 (regression coefficient). xi 지점에서 y값을 살펴보면 실제 y값에서 (y value) 기울기 선에 위치한 y값을 (y fitted value 혹은 predicted value of y) 뺀 값은 우리가 이야기한 error에 혹은 residual에 해당하는 값이다. 이 에러들이 사선을 중심으로 어떻게 포진해 있는가를 보기 위해서 b1 기울기 주변에 모인 residual 값들의 standard error 값을 알아보려면: residual의 분산값을 x의 Sum of Square 값에 제곱근을 씌운 값으로 나누어 준다. 즉,  
 + 
 +\begin{eqnarray*} 
 +\displaystyle s_{b_{1}} & = & \sqrt {\frac {MSE}{SS_{X}}} \\ 
 + & = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{SSE}{SS_{X}}} \\  
 + & = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{\Sigma{(Y-\hat{Y})^2}}{\Sigma{(X_{i} - \bar{X})^2}}} \\ 
 +\end{eqnarray*} 
 + 
 +<code> 
 +> sum(resid(m1)^2) 
 +[1] 0.5822 
 +> sse <- sum(resid(m1)^2) 
 +> ssx <- sum((SATV - mean(SATV))^2) 
 +> sqrt((1/8)*(sse/ssx)) 
 +[1] 0.0009598 
 +>  
 +</code> 
 + 
 +혼란스러운 것을 정리하기 위해서:  
 +  * summary(m1) 아웃풋에서의 standard error of residual 은 말 그대로  
 +    * SSE/df(=n-2) 값에 sqrt를 씌워준 값이다.  
 +    * 즉 sqrt(에러분산 혹은 레지듀얼분산) 값을 말한다.  
 +    * 즉 sqrt(MSE) 값이다.  
 +  * b1의 se 값은 b1에 (독립변인의 기울기) 대한 영향력을 테스트하는 b1의 se이다.  
 +    * 이 값은 sqrt(MSE/SSX1) 를 이용해서 구한다.  
 +    * 만약에 multiple regression이라서 X가 여러개라면 각 X에 해당하는 SSxi 가 분모로 쓰일 것이다. 
  
 ====== 회귀분석의 조건 ====== ====== 회귀분석의 조건 ======
Line 177: Line 209:
   - Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[:homoscedasticity]]   - Homoscedasticity of the residuals. 에러의 분산 값은 x 값의 range에서 공히 일정해야 한다. [[:homoscedasticity]]
   - No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다.   - No outlier. 숫자로 측정된 데이터의 경우 아웃라이어는 전체 평균치에 (statistics) 큰 영향을 미친다. 따라서 아웃라이어를 확인하고 제외할 필요가 있는지 확인해야 한다.
 +  - 독립변인들 간의 상관관계가 커서는 안된다. 어느정도까지 허용할지는 여러가지 방법이 있다. [[:multicollinearity]]
 +
 +
  
 ====== 플로팅 ====== ====== 플로팅 ======
interpretation_of_multiple_regression.txt · Last modified: 2023/05/17 10:48 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki