1. cardat <- data.frame(mtcars$mpg, mtcars$am) names(cardat) <- c("mpg", "am") OR. cardat=subset(mtcars,select=c(mpg,am)) 2. cardat$am <- as.factor(cardat$am) 3. levels(cardat$am) <- c("auto", "man") Or 2. 3,4. cardat$am <- factor(cardat$am, labels=c("auto", "man")) 5,6. > var.test(cardat$mpg~cardat$am) F test to compare two variances data: cardat$mpg by cardat$am F = 0.38656, num df = 18, denom df = 12, p-value = 0.06691 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.1243721 1.0703429 sample estimates: ratio of variances 0.3865615 p value가 0.05보다 크므로 두 집단 간에 분산에 차이가 없을 것이라는 영가설을 부정하지 못한다. 즉 두 집단 간 분산에는 차이가 없다라고 할 수 있다. 7,8. 위에서 밝힌 것처럼 집단 간 분산에 차이가 없으로므, var.equal=T 를 사용하여 t-test를 수행한다. > t.test(cardat$mpg ~ cardat$am ,var.equal = T) Two Sample t-test data: cardat$mpg by cardat$am t = -4.1061, df = 30, p-value = 0.000285 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -10.84837 -3.64151 sample estimates: mean in group auto mean in group man 17.14737 24.39231 t-test결과 p 값이 0.001 보다 작으므로 두 집단 간에 차이가 있다라고 판단할 수 있다. 즉, automatric과 manual 간에 mileage(mpg)에는 통계학적인 차이가 있다 (t(30) = -4.106, p < .001). 9. > donuts<-read.csv("http://commres.net/wiki/_media/r/donuts.txt",header = T,sep="\t") > donuts Fat1 Fat2 Fat3 Fat4 1 164 178 175 155 2 172 191 193 166 3 168 197 178 149 4 177 182 171 164 5 156 185 163 170 6 195 177 176 168 10. > sdonuts<-stack(donuts) > sdonuts values ind 1 164 Fat1 2 172 Fat1 3 168 Fat1 4 177 Fat1 5 156 Fat1 6 195 Fat1 7 178 Fat2 8 191 Fat2 9 197 Fat2 10 182 Fat2 11 185 Fat2 12 177 Fat2 13 175 Fat3 14 193 Fat3 15 178 Fat3 16 171 Fat3 17 163 Fat3 18 176 Fat3 19 155 Fat4 20 166 Fat4 21 149 Fat4 22 164 Fat4 23 170 Fat4 24 168 Fat4 11. level별 평균은 tapply펑션을 이용하여 한꺼번에 구한다. > tapply(sdonuts$values,sdonuts$ind,mean) Fat1 Fat2 Fat3 Fat4 172 185 176 162 12. > s.mod<-aov(sdonuts$values~sdonuts$ind) > summary(s.mod) Df Sum Sq Mean Sq F value Pr(>F) sdonuts$ind 3 1636 545.5 5.406 0.00688 ** Residuals 20 2018 100.9 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ->F test값이 5.406이고 P value가 0.001 보다 작으므로 도넛의 종류에 따라 기름의 함유량에는 차이가 있다라고 볼 수 있다 (F(3,20) = 5.406, p < 0.001). 구체적으로 어느 집단간의 차이가 나는지는 post hoc test가 필요하다. 13. 545.5 14. 100.9 15. > baskball<-read.csv("http://commres.net/wiki/_media/r/baskball.csv") > baskball Time Shoes Made 1 Morning Others 28 2 Morning Others 30 3 Night Others 35 4 Night Others 34 5 Morning Favorite 32 6 Morning Favorite 34 7 Night Favorite 40 8 Night Favorite 38 9 Morning Others 32 10 Morning Others 30 11 Night Others 33 12 Night Others 35 13 Morning Favorite 35 14 Morning Favorite 32 15 Night Favorite 35 16 Night Favorite 34 17 Morning Favorite 32 18 Morning Favorite 33 19 Night Favorite 35 20 Night Favorite 38 21 Morning Others 33 22 Morning Others 30 23 Night Others 33 24 Night Others 30 25 Morning Favorite 30 26 Morning Favorite 25 27 Night Favorite 38 28 Night Favorite 41 29 Morning Others 32 30 Morning Others 33 31 Night Others 33 32 Night Others 30 > 16. tapply(baskball$Made,baskball$Time,mean) Morning Night 31.3125 35.1250 > tapply(baskball$Made,baskball$Shoes,mean) Favorite Others 34.5000 31.9375 17. > tapply(baskball$Made,baskball$Shoes,sd) Favorite Others 4.016632 2.048373 > tapply(baskball$Made,baskball$Time,sd) Morning Night 2.441823 3.180671 18. 총 3개의 가설을 검증할 수 있다 (두 개의 주효과와 하나의 상호작용효과). 주효과 H1:Shoes에 따라 Made에 차이가 있을 것이다. H2:Time에 따라 Made에 차이가 있을 것이다. 상호작용효과 H3:Shoes와 Time 의 상호작용에 따라 Made에 차이가 있을 것이다. 19. > b.mod<-aov(baskball$Made~baskball$Time*baskball$Shoes) > summary(b.mod) Df Sum Sq Mean Sq F value Pr(>F) baskball$Time 1 116.28 116.28 20.526 1e-04 *** baskball$Shoes 1 52.53 52.53 9.273 0.00502 ** baskball$Time:baskball$Shoes 1 30.03 30.03 5.301 0.02896 * Residuals 28 158.62 5.67 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > > ->Time,Shoes,그리고 상호작용 F 값에 대응하는 p 값이 각각 0.001, 0.01, 0.05보다 작으므로 각 가설이 모두 검증된다. 1. Shoes에따라 자유투의 성공횟수에 차이가 있을 것이다 (F(1, 28) = 20.526, p < .001). 2. Time에 따라 자유투의 성공횟수에 차이가 있을 것이다 (F(1, 28) = 9.273, p < .01). 3. Shoes와 Time의 상호작용의 성공횟수에 영향을 미칠 것이다 (F(1, 28) = 5.301, p < .05). 20. post hoc test를 할 필요가 없다. 각 독립변인의 level이 2가지이므로 각 lelvel의 차이는 평균을 살펴보는 것으로 충분하게 된다. 21,22 favorite shoes를 신은 경우와, others를 신은 경우에 자유투 성공 횟수의 차이가 Time(시간)에 따라서 각각 다르게 나타난다고 할 수 있다. 23. > library(MASS) > cats Sex Bwt Hwt 1 F 2.0 7.0 2 F 2.0 7.4 3 F 2.0 9.5 4 F 2.1 7.2 5 F 2.1 7.3 6 F 2.1 7.6 7 F 2.1 8.1 8 F 2.1 8.2 9 F 2.1 8.3 10 F 2.1 8.5 11 F 2.1 8.7 12 F 2.1 9.8 13 F 2.2 7.1 14 F 2.2 8.7 15 F 2.2 9.1 16 F 2.2 9.7 17 F 2.2 10.9 18 F 2.2 11.0 19 F 2.3 7.3 20 F 2.3 7.9 21 F 2.3 8.4 22 F 2.3 9.0 23 F 2.3 9.0 24 F 2.3 9.5 25 F 2.3 9.6 26 F 2.3 9.7 27 F 2.3 10.1 28 F 2.3 10.1 29 F 2.3 10.6 30 F 2.3 11.2 31 F 2.4 6.3 32 F 2.4 8.7 33 F 2.4 8.8 34 F 2.4 10.2 35 F 2.5 9.0 36 F 2.5 10.9 37 F 2.6 8.7 38 F 2.6 10.1 39 F 2.6 10.1 40 F 2.7 8.5 41 F 2.7 10.2 42 F 2.7 10.8 43 F 2.9 9.9 44 F 2.9 10.1 45 F 2.9 10.1 46 F 3.0 10.6 47 F 3.0 13.0 48 M 2.0 6.5 49 M 2.0 6.5 50 M 2.1 10.1 51 M 2.2 7.2 52 M 2.2 7.6 53 M 2.2 7.9 54 M 2.2 8.5 55 M 2.2 9.1 56 M 2.2 9.6 57 M 2.2 9.6 58 M 2.2 10.7 59 M 2.3 9.6 60 M 2.4 7.3 61 M 2.4 7.9 62 M 2.4 7.9 63 M 2.4 9.1 64 M 2.4 9.3 65 M 2.5 7.9 66 M 2.5 8.6 67 M 2.5 8.8 68 M 2.5 8.8 69 M 2.5 9.3 70 M 2.5 11.0 71 M 2.5 12.7 72 M 2.5 12.7 73 M 2.6 7.7 74 M 2.6 8.3 75 M 2.6 9.4 76 M 2.6 9.4 77 M 2.6 10.5 78 M 2.6 11.5 79 M 2.7 8.0 80 M 2.7 9.0 81 M 2.7 9.6 82 M 2.7 9.6 83 M 2.7 9.8 84 M 2.7 10.4 85 M 2.7 11.1 86 M 2.7 12.0 87 M 2.7 12.5 88 M 2.8 9.1 89 M 2.8 10.0 90 M 2.8 10.2 91 M 2.8 11.4 92 M 2.8 12.0 93 M 2.8 13.3 94 M 2.8 13.5 95 M 2.9 9.4 96 M 2.9 10.1 97 M 2.9 10.6 98 M 2.9 11.3 99 M 2.9 11.8 100 M 3.0 10.0 101 M 3.0 10.4 102 M 3.0 10.6 103 M 3.0 11.6 104 M 3.0 12.2 105 M 3.0 12.4 106 M 3.0 12.7 107 M 3.0 13.3 108 M 3.0 13.8 109 M 3.1 9.9 110 M 3.1 11.5 111 M 3.1 12.1 112 M 3.1 12.5 113 M 3.1 13.0 114 M 3.1 14.3 115 M 3.2 11.6 116 M 3.2 11.9 117 M 3.2 12.3 118 M 3.2 13.0 119 M 3.2 13.5 120 M 3.2 13.6 121 M 3.3 11.5 122 M 3.3 12.0 123 M 3.3 14.1 124 M 3.3 14.9 125 M 3.3 15.4 126 M 3.4 11.2 127 M 3.4 12.2 128 M 3.4 12.4 129 M 3.4 12.8 130 M 3.4 14.4 131 M 3.5 11.7 132 M 3.5 12.9 133 M 3.5 15.6 134 M 3.5 15.7 135 M 3.5 17.2 136 M 3.6 11.8 137 M 3.6 13.3 138 M 3.6 14.8 139 M 3.6 15.0 140 M 3.7 11.0 141 M 3.8 14.8 142 M 3.8 16.8 143 M 3.9 14.4 144 M 3.9 20.5 > summary(cats) Sex Bwt Hwt F:47 Min. :2.000 Min. : 6.30 M:97 1st Qu.:2.300 1st Qu.: 8.95 Median :2.700 Median :10.10 Mean :2.724 Mean :10.63 3rd Qu.:3.025 3rd Qu.:12.12 Max. :3.900 Max. :20.50 > class(cats) [1] "data.frame" cats 데이터는 Sex라는 2가지 level(F,M)을 갖는 Factor와 Bwt와 Hwt라는 숫자로 이루어진 vector변수로 이루어져있는 dataframe 형식의 데이터이며, hwt와 bwt는 각각 heart weight와 body weight를 의미하며, Sex의 F, M은 각각 female과 male을 의미한다. 24. plot(cats$Bwt,cats$Hwt) 아래 그림 참조 25, 26. > c.lm<-lm(cats$Hwt~cats$Bwt) > summary(c.lm) Call: lm(formula = cats$Hwt ~ cats$Bwt) Residuals: Min 1Q Median 3Q Max -3.5694 -0.9634 -0.0921 1.0426 5.1238 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.3567 0.6923 -0.515 0.607 cats$Bwt 4.0341 0.2503 16.119 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.452 on 142 degrees of freedom Multiple R-squared: 0.6466, Adjusted R-squared: 0.6441 F-statistic: 259.8 on 1 and 142 DF, p-value: < 2.2e-16 Bwt는 Hwt에 영향을 미친다고 할 수 있다 (F(1, 142) = 259.8, p < 0.001). Bwt는 Hwt의 총 분산 중 약 65%를 (0.6466) 설명 한다. 27. 0.6466 28. 64.66% 29. abline(c.lm,col="red") 아래 그림 참조 30, 31. 30,31. > st.lm<-lm(st$Murder~st$Population+st$Income+st$Illiteracy) > summary(st.lm) Call: lm(formula = st$Murder ~ st$Population + st$Income + st$Illiteracy) Residuals: Min 1Q Median 3Q Max -4.7846 -1.6768 -0.0839 1.4783 7.6417 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.3402721 3.3694210 0.398 0.6926 st$Population 0.0002219 0.0000842 2.635 0.0114 * st$Income 0.0000644 0.0006762 0.095 0.9245 st$Illiteracy 4.1109188 0.6706786 6.129 1.85e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.507 on 46 degrees of freedom Multiple R-squared: 0.5669, Adjusted R-squared: 0.5387 F-statistic: 20.07 on 3 and 46 DF, p-value: 1.84e-08 먼저 F값의 p-value를 통해 통계적으로 유의미한 모델임을 알 수 있다. 즉, Population, Income, Illiteracy가 Murder에 영향을 주는 것으로 판단 할 수 있다 (F(3,46) = 20.07, p < .001). 또한 세개의 독립변수(예측변인)은 종속변인 Murder의 총 분산 중 약 57% (0.5669)를 설명하는데 기여한다. 각 변인의 기여도를 보면 Population과 Illiteracy의 t-value에 해당하느 p 값은 0.05보다 작으므로 유의미한 기여를 한다고 판달 할 수 있다. 그러나, Income의 경우 p 값이 0.9245로 0.05보다 커서 유의미한 기여를 한다고 볼 수 없다. 32. R square = 0.5669 종속변인인 Murder의 분산 중 독립변인인 세가지 변인(Population, Income,Illiteracy)으로 인해 설명되는정도라고 볼 수 있다. 23. {{plot_bwt_hwt.png?400}} 29. {{plot_bwt_hwt2.png?400}}