Differences

This shows you the differences between two versions of the page.

--- multiple_regression_examples [2020/07/06 15:04] – [E.g. 1] hkimscil
+++ multiple_regression_examples [2023/10/21 13:26] (current) – hkimscil
@@ Line 183: / Line 183: @@
 그렇다면 stress 와 bmi가 공통으로 기여하는 부분을 뺀 순수 기여분은 어떻게 될까? 즉, 위의 .80 부분 중 bmi와 공통으로 기여하는 부분을 제외한 나머지는 얼마일까? 보통 이와 같은 작업을 bmi의 (다른 독립변인의) 영향력을 제어하고 (control) 순수기여분만을 살펴본다고 이야기 한다.
+===== 방법 1 =====
 이를 위해서 아래를 계획, 수행해본다.
-  - 독립변인 간의 regression을 수행한다
+  - 각각의 독립변인이 고유하게 미치는 영향력은 (설명력은) 무엇인지를 본다.
-    * stress의 순수영향력을 보기 위한 것이므로 bmi와의 상관관계 제곱값, 즉, R제곱 값을 구한다
+  - 공통설명력은 얼마나 되는지 본다.
-    * ''lm.bmi.stress <- lm(bmi ~ stress)''
-  - 위의 R제곱기여 분의 나머지를 가지고 종속변인인 happiness에 regression한다.
-<code>
+  - 1을 위해서는 각 독립변인과 종속변인인 happiness의 semi-partial correlation값을 구해서 제곱해보면 되겠다.
-lm.stress.bmi <- lm(stress ~ bmi)
+  - 2를 위해서는 두 독립변인을 써서 구했던 r 제곱값에서 위의 1에서 구한 제곱값들을 제외한 나머지를 보면 된겠다.
-summary(lm.stress.bmi)
-</code>
+  * 결론을 내기 위한 계획을 세우고 실행한다.
+  * 이는 아래와 같이 정리할 수 있다
+{{:pasted:20201201-170048.png}}
+===== 각각의 독립변인이 고유하게 미치는 영향력은 (설명력은) 무엇인지를 본다 =====
 <code>
-> lm.stress.bmi <- lm(stress ~ bmi)
+> spcor(d.yyk)
-> summary(lm.stress.bmi)
+$estimate
+                 bmi     stress  happiness
+bmi        1.0000000  0.2730799 -0.1360657
+stress     0.2371411  1.0000000 -0.2532032
+happiness -0.1334127 -0.2858909  1.0000000
-Call:
+$p.value
-lm(formula = stress ~ bmi)
+                bmi    stress happiness
+bmi       0.0000000 0.1517715 0.4815643
+stress    0.2154821 0.0000000 0.1850784
+happiness 0.4902316 0.1327284 0.0000000
-Residuals:
+$statistic
-     Min       1Q   Median       3Q      Max
+                 bmi    stress  happiness
--1.17393 -0.35678 -0.01209  0.37939  0.86685
+bmi        0.0000000  1.475028 -0.7136552
+stress     1.2684024  0.000000 -1.3600004
+happiness -0.6994855 -1.550236  0.0000000
-Coefficients:
+$n
-            Estimate Std. Error t value Pr(>|t|)
+[1] 30
-(Intercept) -1.40167    0.42160  -3.325  0.00248 **
-bmi          0.16787    0.01606  10.454 3.58e-11 ***
----
-Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-Residual standard error: 0.5755 on 28 degrees of freedom
+$gp
-Multiple R-squared:  0.796,	Adjusted R-squared:  0.7888
+[1] 1
-F-statistic: 109.3 on 1 and 28 DF,  p-value: 3.58e-11
->
-</code>
-위의 아웃풋에서 우리는 bmi와 stress간의 상관관계는 sqrt(0.796)임을 알 수 있고, stress 총 분산 중, R제곱 값인 .796 (약 80%)를 bmi가 설명하고 있다고 하겠다. 여기서 아래의 코드를 이용하여 residual을 알아볼 수 있다.
+$method
+[1] "pearson"
+>
+>
+</code>
+happiness에 영향을 주는 변인을 보는 것이므로
 <code>
-res.lm.stress.bmi <- lm.stress.bmi$residuals
+                 bmi    stress
-res.lm.stress.bmi
+happiness -0.1334127 -0.2858909
 </code>
+를 본다. 그리고 이 값의 제곱값이 각 독립변인의 고유 설명력이다.
 <code>
-> res.lm.stress.bmi <- lm.stress.bmi$residuals
+> (-0.1334127)^2
-> res.lm.stress.bmi
+[1] 0.01779895
-            2            3            4            5            6
+> (-0.2858909)^2
-.866854946  0.833281255 -0.351374050  0.665412796  0.463970646  0.245741650
+[1] 0.08173361
-            8            9           10           11           12
-.178594267 -1.006061037 -1.173929495 -0.173929495 -0.358584799 -0.543240104
-           14           15           16           17           18
--0.576813795  0.339251976  0.322465130 -0.895763866 -0.030058633 -0.030058633
-           20           21           22           23           24
--0.030058633 -0.214713937 -0.399369241  0.667778142 -0.852614079  0.013091155
-           26           27           28           29           30
--0.154777303  0.828435851  0.626993701  0.391977859  0.341617322  0.005880405
 >
 </code>
+즉, '' stress: 8.1% '' 와 '' bmi: 1.78% '' 만이 독립변인의 고유영향력이고 이를 제외한 '' 82.17 - (9.88) = 72.29 '' 가 공통영향력이라고 하겠다.
-이 residuals이 DV (종속변인) 설명에 얼마나 기여하는지를 보기 위해서 regression을 하면 stress 고유분의 영향력을 파악할 수 있다.
+이를 파티션을 하면서 직접 살펴보려면
+  * 우선 $\frac{b}{a+b+c+d}$ 를 보려고 한다.
+  * 그림에서 m.bmi <- lm((a+b+c+d)~(b+e)) 와 같이 한후에 r제곱값을 보고, sqrt 하면 r값을 알 수 있다.
+  * b+e를 구하려면 lm(bmi~stress)를 한후, 그 residual을 보면 된다.
+  * a+b+c+d 는 happiness 그 자체이다.
 <code>
-lm.happiness.reslmstressbmi <- lm(happiness ~ res.lm.stress.bmi)
+m.bmi <- lm(bmi ~ stress)
-summary(lm.happiness.reslmstressbmi)
+mod <- lm(happiness ~ resid(m.bmi))
-anova(lm.happiness.reslmstressbmi)
+summary(mod)
 </code>
 <code>
-> lm.happiness.reslmstressbmi <- lm(happiness ~ res.lm.stress.bmi)
+> m.bmi <- lm(bmi ~ stress)
-> summary(lm.happiness.reslmstressbmi)
+> mod <- lm(happiness ~ resid(m.bmi))
+> summary(mod)
 Call:
-lm(formula = happiness ~ res.lm.stress.bmi)
+lm(formula = happiness ~ resid(m.bmi))
 Residuals:
-    Min      1Q  Median      3Q     Max
+     Min       1Q   Median       3Q      Max
--1.9383 -1.2297  0.2170  0.9804  1.9284
+-1.97283 -0.94440  0.05897  0.97961  2.29664
 Coefficients:
-                  Estimate Std. Error t value Pr(>|t|)
+             Estimate Std. Error t value Pr(>|t|)
-(Intercept)         2.8333     0.2388  11.865 1.95e-12 ***
+(Intercept)   2.83333    0.24698  11.472 4.27e-12 ***
-res.lm.stress.bmi  -0.6781     0.4295  -1.579    0.126
+resid(m.bmi) -0.05954    0.08358  -0.712    0.482
 ---
 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-Residual standard error: 1.308 on 28 degrees of freedom
+Residual standard error: 1.353 on 28 degrees of freedom
-Multiple R-squared:  0.08173,	Adjusted R-squared:  0.04894
+Multiple R-squared:  0.0178,	Adjusted R-squared:  -0.01728
-F-statistic: 2.492 on 1 and 28 DF,  p-value: 0.1256
+F-statistic: 0.5074 on 1 and 28 DF,  p-value: 0.4822
-> anova(lm.happiness.reslmstressbmi)
-Analysis of Variance Table
-Response: happiness
-                  Df Sum Sq Mean Sq F value Pr(>F)
-res.lm.stress.bmi  1  4.264  4.2638  2.4922 0.1256
-Residuals         28 47.903  1.7108
->
->
 </code>
-<code>
+위의 분석에서 R-square 값인 0.0178 이 bmi의 고유의 설명력이다. r값은 sqrt(0.0178)이다. 그리고, 위의 모델은 significant하지 않음을 주목한다.
-Multiple R-squared:  0.08173,	Adjusted R-squared:  0.04894
-F-statistic: 2.492 on 1 and 28 DF,  p-value: 0.1256
-</code>
-이제 반대로 bmi 고유의 설명력을 보려면
+다음으로 $\frac {d}{a+b+c+d}$을 구해서 stress 고유설명력을 본다. 이제는
 <code>
-lm.bmi.stress <- lm(bmi~stress)
+m.stress <- lm(stress ~ bmi)
-summary(lm.bmi.stress)
+mod2 <- lm(happiness ~ resid(m.stress))
-anova(lm.bmi.stress)
+sumary(mod2)
-res.lm.bmi.stress <- lm.bmi.stress$residuals
-lm.happiness.reslmbmistress <- lm(happiness ~ res.lm.bmi.stress)
-summary(lm.happiness.reslmbmistress)
-anova(lm.happiness.reslmbmistress)
 </code>
 <code>
-> lm.bmi.stress <- lm(bmi~stress)
+> m.stress <- lm(stress ~ bmi)
-> summary(lm.bmi.stress)
+> mod2 <- lm(happiness ~ resid(m.stress))
+> summary(mod2)
 Call:
-lm(formula = bmi ~ stress)
+lm(formula = happiness ~ resid(m.stress))
 Residuals:
     Min      1Q  Median      3Q     Max
--6.2169 -2.0524  0.3411  2.2700  5.2411
+-1.9383 -1.2297  0.2170  0.9804  1.9284
 Coefficients:
-            Estimate Std. Error t value Pr(>|t|)
+                Estimate Std. Error t value Pr(>|t|)
-(Intercept)  11.8327     1.4152   8.361 4.27e-09 ***
+(Intercept)       2.8333     0.2388  11.865 1.95e-12 ***
-stress        4.7421     0.4536  10.454 3.58e-11 ***
+resid(m.stress)  -0.6781     0.4295  -1.579    0.126
 ---
 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-Residual standard error: 3.059 on 28 degrees of freedom
+Residual standard error: 1.308 on 28 degrees of freedom
-Multiple R-squared:  0.796,	Adjusted R-squared:  0.7888
+Multiple R-squared:  0.08173,	Adjusted R-squared:  0.04894
-F-statistic: 109.3 on 1 and 28 DF,  p-value: 3.58e-11
+F-statistic: 2.492 on 1 and 28 DF,  p-value: 0.1256
-> anova(lm.bmi.stress)
+>
-Analysis of Variance Table
+</code>
+Multiple R-squared 인 0.08173 이 고유 설명력이고, 이 또한 significant 하지 않다.
+.08173 값과 0.0178을 더한 값을 제외한 lm(happiness~bmi+stress) 에서의 R-squared 값이 공통설명력이 된다. 아래의 분석 결과에서 Multiple R-squared:  0.8217 이 두 변인을 모두 합한 설명력이다.
-Response: bmi
+<code>
-          Df  Sum Sq Mean Sq F value   Pr(>F)
+m.both <- lm(happiness~bmi+stress)
-stress     1 1022.42 1022.42  109.29 3.58e-11 ***
+summary(m.both)
-Residuals 28  261.95    9.36
+</code>
----
+<code>
-Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+> m.both <- lm(happiness~bmi+stress)
-> res.lm.bmi.stress <- lm.bmi.stress$residuals
+> summary(m.both)
-> lm.happiness.reslmbmistress <- lm(happiness ~ res.lm.bmi.stress)
-> summary(lm.happiness.reslmbmistress)
 Call:
-lm(formula = happiness ~ res.lm.bmi.stress)
+lm(formula = happiness ~ bmi + stress)
 Residuals:
      Min       1Q   Median       3Q      Max
--1.97283 -0.94440  0.05897  0.97961  2.29664
+-0.89293 -0.40909  0.08816  0.29844  1.46429
 Coefficients:
-                  Estimate Std. Error t value Pr(>|t|)
+            Estimate Std. Error t value Pr(>|t|)
-(Intercept)        2.83333    0.24698  11.472 4.27e-12 ***
+(Intercept)  6.29098    0.50779  12.389 1.19e-12 ***
-res.lm.bmi.stress -0.05954    0.08358  -0.712    0.482
+bmi         -0.05954    0.03626  -1.642  0.11222
+stress      -0.67809    0.19273  -3.518  0.00156 **
 ---
 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-Residual standard error: 1.353 on 28 degrees of freedom
+Residual standard error: 0.5869 on 27 degrees of freedom
-Multiple R-squared:  0.0178,	Adjusted R-squared:  -0.01728
+Multiple R-squared:  0.8217,	Adjusted R-squared:  0.8085
-F-statistic: 0.5074 on 1 and 28 DF,  p-value: 0.4822
+F-statistic: 62.22 on 2 and 27 DF,  p-value: 7.76e-11
-> anova(lm.happiness.reslmbmistress)
-Analysis of Variance Table
-Response: happiness
-                  Df Sum Sq Mean Sq F value Pr(>F)
-res.lm.bmi.stress  1  0.929 0.92851  0.5074 0.4822
-Residuals         28 51.238 1.82993
 </code>
+이 값은 0.72217 이다.
 <code>
-Multiple R-squared:  0.0178,	Adjusted R-squared:  -0.01728
+> 0.8217- (0.08173 + 0.0178)
-F-statistic: 0.5074 on 1 and 28 DF,  p-value: 0.4822
+[1] 0.72217
+>
 </code>
-stress: 8.1%
+bmi나 stress 중 하나를 IV로 취하는 것이 좋다는 결론을 내린다.
-bmi: 1.78%
-만이 독립변인의 고유영향력이고 이를 제외한
-.17 - (9.88) = 72.29 가
-공통영향력이라고 하겠다.