multiple_regression_examples
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| multiple_regression_examples [2020/07/06 05:58] – [E.g. 1] hkimscil | multiple_regression_examples [2023/10/21 04:26] (current) – hkimscil | ||
|---|---|---|---|
| Line 183: | Line 183: | ||
| 그렇다면 stress 와 bmi가 공통으로 기여하는 부분을 뺀 순수 기여분은 어떻게 될까? 즉, 위의 .80 부분 중 bmi와 공통으로 기여하는 부분을 제외한 나머지는 얼마일까? | 그렇다면 stress 와 bmi가 공통으로 기여하는 부분을 뺀 순수 기여분은 어떻게 될까? 즉, 위의 .80 부분 중 bmi와 공통으로 기여하는 부분을 제외한 나머지는 얼마일까? | ||
| + | ===== 방법 1 ===== | ||
| 이를 위해서 아래를 계획, 수행해본다. | 이를 위해서 아래를 계획, 수행해본다. | ||
| - | - 독립변인 | + | - 각각의 |
| - | * stress의 순수영향력을 보기 위한 것이므로 bmi와의 상관관계 제곱값, 즉, R제곱 값을 구한다 | + | - 공통설명력은 얼마나 되는지 본다. |
| - | * '' | + | |
| - | - 위의 R제곱기여 분의 | + | |
| - | < | + | |
| - | lm.stress.bmi <- lm(stress ~ bmi) | + | - 2를 위해서는 두 독립변인을 써서 구했던 r 제곱값에서 위의 1에서 구한 제곱값들을 제외한 나머지를 보면 된겠다. |
| - | summary(lm.stress.bmi) | + | |
| - | </ | + | * 결론을 내기 위한 계획을 세우고 실행한다. |
| + | * 이는 아래와 같이 정리할 수 있다 | ||
| + | {{: | ||
| + | |||
| + | ===== 각각의 독립변인이 고유하게 미치는 영향력은 (설명력은) 무엇인지를 본다 ===== | ||
| < | < | ||
| - | > lm.stress.bmi <- lm(stress | + | > spcor(d.yyk) |
| - | > summary(lm.stress.bmi) | + | $estimate |
| + | | ||
| + | bmi | ||
| + | stress | ||
| + | happiness -0.1334127 -0.2858909 | ||
| - | Call: | + | $p.value |
| - | lm(formula = stress | + | |
| + | bmi 0.0000000 0.1517715 0.4815643 | ||
| + | stress | ||
| + | happiness 0.4902316 0.1327284 0.0000000 | ||
| - | Residuals: | + | $statistic |
| - | Min | + | bmi stress |
| - | -1.17393 -0.35678 -0.01209 0.37939 0.86685 | + | bmi 0.0000000 |
| + | stress | ||
| + | happiness -0.6994855 -1.550236 | ||
| - | Coefficients: | + | $n |
| - | | + | [1] 30 |
| - | (Intercept) -1.40167 | + | |
| - | bmi 0.16787 | + | |
| - | --- | + | |
| - | Signif. codes: | + | |
| - | Residual standard error: 0.5755 on 28 degrees of freedom | + | $gp |
| - | Multiple R-squared: | + | [1] 1 |
| - | F-statistic: | + | |
| - | > | + | |
| - | </ | + | |
| - | 위의 아웃풋에서 우리는 bmi와 stress간의 상관관계는 sqrt(0.796)임을 알 수 있고, stress 총 분산 중, R제곱 값인 .796 (약 80%)를 bmi가 설명하고 있다고 하겠다. 여기서 아래의 코드를 이용하여 residual을 알아볼 수 있다. | + | $method |
| + | [1] " | ||
| + | > | ||
| + | > | ||
| + | </ | ||
| + | happiness에 영향을 주는 변인을 보는 것이므로 | ||
| < | < | ||
| - | res.lm.stress.bmi <- lm.stress.bmi$residuals | + | bmi stress |
| - | res.lm.stress.bmi | + | happiness -0.1334127 -0.2858909 |
| </ | </ | ||
| + | 를 본다. 그리고 이 값의 제곱값이 각 독립변인의 고유 설명력이다. | ||
| < | < | ||
| - | > res.lm.stress.bmi <- lm.stress.bmi$residuals | + | > (-0.1334127)^2 |
| - | > res.lm.stress.bmi | + | [1] 0.01779895 |
| - | | + | > (-0.2858909)^2 |
| - | 0.866854946 | + | [1] 0.08173361 |
| - | | + | |
| - | | + | |
| - | 13 | + | |
| - | -0.576813795 | + | |
| - | | + | |
| - | -0.030058633 -0.214713937 -0.399369241 | + | |
| - | 25 | + | |
| - | -0.154777303 | + | |
| > | > | ||
| </ | </ | ||
| + | 즉, '' | ||
| - | 이 residuals이 DV (종속변인) 설명에 얼마나 기여하는지를 보기 위해서 regression을 하면 | + | 이를 파티션을 |
| + | * 우선 $\frac{b}{a+b+c+d}$ | ||
| + | * 그림에서 m.bmi <- lm((a+b+c+d)~(b+e)) 와 같이 한후에 r제곱값을 보고, sqrt 하면 | ||
| + | * b+e를 구하려면 lm(bmi~stress)를 한후, 그 residual을 보면 된다. | ||
| + | * a+b+c+d 는 happiness 그 자체이다. | ||
| < | < | ||
| - | lm.happiness.reslmstressbmi | + | m.bmi <- lm(bmi ~ stress) |
| - | summary(lm.happiness.reslmstressbmi) | + | mod <- lm(happiness |
| - | anova(lm.happiness.reslmstressbmi) | + | summary(mod) |
| </ | </ | ||
| - | |||
| < | < | ||
| - | > lm.happiness.reslmstressbmi | + | > m.bmi <- lm(bmi ~ stress) |
| - | > summary(lm.happiness.reslmstressbmi) | + | > mod <- lm(happiness ~ resid(m.bmi)) |
| + | > summary(mod) | ||
| Call: | Call: | ||
| - | lm(formula = happiness ~ res.lm.stress.bmi) | + | lm(formula = happiness ~ resid(m.bmi)) |
| Residuals: | Residuals: | ||
| - | Min | + | Min 1Q |
| - | -1.9383 -1.2297 0.2170 0.9804 1.9284 | + | -1.97283 -0.94440 0.05897 0.97961 2.29664 |
| Coefficients: | Coefficients: | ||
| - | | + | Estimate Std. Error t value Pr(> |
| - | (Intercept) | + | (Intercept) |
| - | res.lm.stress.bmi -0.6781 0.4295 -1.579 0.126 | + | resid(m.bmi) -0.05954 |
| --- | --- | ||
| Signif. codes: | Signif. codes: | ||
| - | Residual standard error: 1.308 on 28 degrees of freedom | + | Residual standard error: 1.353 on 28 degrees of freedom |
| - | Multiple R-squared: | + | Multiple R-squared: |
| - | F-statistic: | + | F-statistic: |
| - | + | ||
| - | > anova(lm.happiness.reslmstressbmi) | + | |
| - | Analysis of Variance Table | + | |
| - | + | ||
| - | Response: happiness | + | |
| - | Df Sum Sq Mean Sq F value Pr(>F) | + | |
| - | res.lm.stress.bmi | + | |
| - | Residuals | + | |
| - | > | + | |
| - | > | + | |
| </ | </ | ||
| - | < | + | 위의 분석에서 |
| - | Multiple | + | |
| - | F-statistic: | + | |
| - | </ | + | |
| - | 이제 반대로 bmi 고유의 설명력을 | + | 다음으로 $\frac {d}{a+b+c+d}$을 구해서 stress |
| < | < | ||
| - | lm.bmi.stress <- lm(bmi~stress) | + | m.stress <- lm(stress |
| - | summary(lm.bmi.stress) | + | mod2 <- lm(happiness ~ resid(m.stress)) |
| - | anova(lm.bmi.stress) | + | sumary(mod2) |
| - | res.lm.bmi.stress <- lm.bmi.stress$residuals | + | |
| - | lm.happiness.reslmbmistress | + | |
| - | summary(lm.happiness.reslmbmistress) | + | |
| - | anova(lm.happiness.reslmbmistress) | + | |
| </ | </ | ||
| < | < | ||
| - | > lm.bmi.stress <- lm(bmi~stress) | + | > m.stress <- lm(stress ~ bmi) |
| - | > summary(lm.bmi.stress) | + | > mod2 <- lm(happiness |
| + | > summary(mod2) | ||
| Call: | Call: | ||
| - | lm(formula = bmi ~ stress) | + | lm(formula = happiness |
| Residuals: | Residuals: | ||
| Min 1Q Median | Min 1Q Median | ||
| - | -6.2169 -2.0524 0.3411 2.2700 5.2411 | + | -1.9383 -1.2297 0.2170 0.9804 1.9284 |
| Coefficients: | Coefficients: | ||
| - | | + | |
| - | (Intercept) | + | (Intercept) |
| - | stress | + | resid(m.stress) -0.6781 0.4295 -1.579 0.126 |
| --- | --- | ||
| Signif. codes: | Signif. codes: | ||
| - | Residual standard error: | + | Residual standard error: |
| - | Multiple R-squared: | + | Multiple R-squared: |
| - | F-statistic: | + | F-statistic: |
| - | > anova(lm.bmi.stress) | + | > |
| - | Analysis of Variance Table | + | </ |
| + | Multiple R-squared 인 0.08173 이 고유 설명력이고, | ||
| + | 0.08173 값과 0.0178을 더한 값을 제외한 lm(happiness~bmi+stress) | ||
| - | Response: bmi | + | <code> |
| - | Df Sum Sq Mean Sq F value Pr(>F) | + | m.both <- lm(happiness~bmi+stress) |
| - | stress | + | summary(m.both) |
| - | Residuals 28 261.95 9.36 | + | </ |
| - | --- | + | <code> |
| - | Signif. codes: | + | > m.both <- lm(happiness~bmi+stress) |
| - | > res.lm.bmi.stress <- lm.bmi.stress$residuals | + | > summary(m.both) |
| - | > lm.happiness.reslmbmistress | + | |
| - | > summary(lm.happiness.reslmbmistress) | + | |
| Call: | Call: | ||
| - | lm(formula = happiness ~ res.lm.bmi.stress) | + | lm(formula = happiness ~ bmi + stress) |
| Residuals: | Residuals: | ||
| | | ||
| - | -1.97283 -0.94440 0.05897 0.97961 2.29664 | + | -0.89293 -0.40909 0.08816 0.29844 1.46429 |
| Coefficients: | Coefficients: | ||
| - | | + | |
| - | (Intercept) | + | (Intercept) |
| - | res.lm.bmi.stress | + | bmi |
| + | stress | ||
| --- | --- | ||
| Signif. codes: | Signif. codes: | ||
| - | Residual standard error: | + | Residual standard error: |
| - | Multiple R-squared: | + | Multiple R-squared: |
| - | F-statistic: | + | F-statistic: |
| - | + | ||
| - | > anova(lm.happiness.reslmbmistress) | + | |
| - | Analysis of Variance Table | + | |
| - | + | ||
| - | Response: happiness | + | |
| - | Df Sum Sq Mean Sq F value Pr(>F) | + | |
| - | res.lm.bmi.stress | + | |
| - | Residuals | + | |
| </ | </ | ||
| + | 이 값은 0.72217 이다. | ||
| < | < | ||
| - | Multiple R-squared: | + | > 0.8217- (0.08173 + 0.0178) |
| - | F-statistic: | + | [1] 0.72217 |
| + | > | ||
| </ | </ | ||
| + | |||
| + | bmi나 stress 중 하나를 IV로 취하는 것이 좋다는 결론을 내린다. | ||
multiple_regression_examples.1594015108.txt.gz · Last modified: by hkimscil
