Differences

This shows you the differences between two versions of the page.

--- r:oneway_anova [2017/11/06 08:19] – [Ex 2] hkimscil
+++ r:oneway_anova [2022/04/28 10:26] (current) – [data] hkimscil
@@ Line 1: / Line 1: @@
 ====== Oneway ANOVA ======
+===== data =====
+see https://github.com/hkimscil/ms/blob/main/anova.R
 | (온도조건)x1  | 50.5  | 52.1  | 51.9  | 52.4  | 50.6  | 51.4  | 51.2  | 52.2  | 51.5  | 50.8  |
 | (온도조건)x2  | 47.5  | 47.7  | 46.6  | 47.1  | 47.2  | 47.8  | 45.2  | 47.4  | 45.0  | 47.9  |
@@ Line 60: / Line 63: @@
    44.9  x3
    46.2  x3
+</code>
-> x.mod <- aov(values~ind,data=xs)
+<code>> aggregate(values~ind, data=xs, mean)
+  ind values
+  x1  51.46
+  x2  46.94
+  x3  46.35
+# or use, tapply function as shown the below
+</code>
+변인 이름과 levels 정리
+변인이름
+  * score <- 점수 (performance)
+  * temp <- 교실의 온도
+  * 즉 교실의 온도에 따라서 점수가 다르게 나옴
+temp의 level 정리
+  * x1 - low 낮은온도
+  * x2 - mid 중간온도
+  * x3 - hi  높은온도
+<code>
+colnames(xs) <- c("score", "temp")
+xs
+levels(xs$temp) <- c("low", "mid", "hi")
+xs
+</code>
+<code>
+> colnames(xs) <- c("score", "temp")
+> xs
+   score temp
+   50.5   x1
+   52.1   x1
+   51.9   x1
+   52.4   x1
+   50.6   x1
+   51.4   x1
+   51.2   x1
+   52.2   x1
+   51.5   x1
+  50.8   x1
+  47.5   x2
+  47.7   x2
+  46.6   x2
+  47.1   x2
+  47.2   x2
+  47.8   x2
+  45.2   x2
+  47.4   x2
+  45.0   x2
+  47.9   x2
+  46.0   x3
+  47.1   x3
+  45.6   x3
+  47.1   x3
+  47.2   x3
+  46.4   x3
+  45.9   x3
+  47.1   x3
+  44.9   x3
+  46.2   x3
+> str(xs)
+'data.frame':	30 obs. of  2 variables:
+ $ score: num  50.5 52.1 51.9 52.4 50.6 51.4 51.2 52.2 51.5 50.8 ...
+ $ temp : Factor w/ 3 levels "x1","x2","x3": 1 1 1 1 1 1 1 1 1 1 ...
+> levels(xs$temp) <- c("low", "mid", "hi")
+> xs
+   score temp
+   50.5  low
+   52.1  low
+   51.9  low
+   52.4  low
+   50.6  low
+   51.4  low
+   51.2  low
+   52.2  low
+   51.5  low
+  50.8  low
+  47.5  mid
+  47.7  mid
+  46.6  mid
+  47.1  mid
+  47.2  mid
+  47.8  mid
+  45.2  mid
+  47.4  mid
+  45.0  mid
+  47.9  mid
+  46.0   hi
+  47.1   hi
+  45.6   hi
+  47.1   hi
+  47.2   hi
+  46.4   hi
+  45.9   hi
+  47.1   hi
+  44.9   hi
+  46.2   hi
+</code>
+===== ANOVA by hand =====
+<code>
+mean.by.group.xs <- tapply(xs$score, xs$temp, mean)
+var.by.group.xs <- tapply(xs$score, xs$temp, var)
+n.by.group.xs <- tapply(xs$score, xs$temp, length)
+df.by.group.xs <- n.xs-1
+mean.by.group.xs
+var.by.group.xs
+n.by.group.xs
+df.by.group.xs
+</code>
+<code>
+> mean.by.group.xs <- tapply(xs$score, xs$temp, mean)
+> var.by.group.xs <- tapply(xs$score, xs$temp, var)
+> n.by.group.xs <- tapply(xs$score, xs$temp, length)
+> df.by.group.xs <- n.xs-1
+> ss.within <- sum(var.by.group.xs * df.by.group.xs)
+>
+> mean.by.group.xs
+  low   mid    hi
+.46 46.94 46.35
+> var.by.group.xs
+      low       mid        hi
+.4671111 1.0848889 0.6027778
+> n.by.group.xs
+low mid  hi
+  10  10
+> df.by.group.xs
+low mid  hi
+   9   9
+>
+</code>
+<code>
+mean.xs <- mean(xs$score)
+n.total <- length(xs$score)
+df.total <- n.total-1
+n.group.xs <- 3
+df.between <- n.group.xs -1
+df.within <- sum(df.by.group.xs)
+n.total
+df.total
+df.between
+df.within
+ss.total <- var(xs$score) * (length(xs$score)-1)
+ss.total <- var(xs$score) * df.total
+ss.between <- sum(n.by.group.xs * (mean.by.group.xs - mean.xs)^2)
+ss.within <- sum(var.by.group.xs * df.by.group.xs)
+ss.total
+ss.between
+ss.within
+ss.total
+ss.between + ss.within
+ms.between <- ss.between/df.between
+ms.within <- ss.within/df.within
+ms.total <- ss.total/df.total
+ms.total
+ms.between
+ms.within
+f.calculated <- ms.between/ms.within
+f.calculated
+var(xs$score)
+</code>
+<code>
+> mean.xs <- mean(xs$score)
+> n.total <- length(xs$score)
+> df.total <- n.total-1
+> n.group.xs <- 3
+> df.between <- n.group.xs -1
+> df.within <- sum(df.by.group.xs)
+> n.total
+[1] 30
+> df.total
+[1] 29
+> df.between
+[1] 2
+> df.within
+[1] 27
+>
+> ss.total <- var(xs$score) * (length(xs$score)-1)
+> ss.total <- var(xs$score) * df.total
+> ss.between <- sum(n.by.group.xs * (mean.by.group.xs - mean.xs)^2)
+> ss.within <- sum(var.by.group.xs * df.by.group.xs)
+> ss.total
+[1] 175.695
+> ss.between
+[1] 156.302
+> ss.within
+[1] 19.393
+> ss.total
+[1] 175.695
+> ss.between + ss.within
+[1] 175.695
+>
+> ms.between <- ss.between/df.between
+> ms.within <- ss.within/df.within
+> ms.total <- ss.total/df.total
+>
+> ms.total
+[1] 6.058448
+> ms.between
+[1] 78.151
+> ms.within
+[1] 0.7182593
+>
+> f.calculated <- ms.between/ms.within
+> f.calculated
+[1] 108.8061
+> var(xs$score)
+[1] 6.058448
+>
+</code>
+===== ANOVA function (aov) =====
+<code>
+x.mod <- aov(score~temp, data=xs)
+x.mod
+summary(x.mod)
+TukeyHSD(x.mod)
+</code>
+<code>
+> x.mod <- aov(score~temp, data=xs)
 > x.mod
 Call:
-   aov(formula = values ~ ind, data = xs)
+   aov(formula = score ~ temp, data = xs)
 Terms:
-                    ind Residuals
+                   temp Residuals
 Sum of Squares  156.302    19.393
 Deg. of Freedom       2        27
@@ Line 75: / Line 307: @@
 > summary(x.mod)
             Df Sum Sq Mean Sq F value  Pr(>F)
-ind          2 156.30   78.15   108.8 1.2e-13 ***
+temp         2 156.30   78.15   108.8 1.2e-13 ***
 Residuals   27  19.39    0.72
 ---
@@ Line 85: / Line 317: @@
 % family-wise confidence level
-Fit: aov(formula = values ~ ind, data = xs)
+Fit: aov(formula = score ~ temp, data = xs)
-$ind
+$temp
-       diff       lwr        upr     p adj
+         diff       lwr        upr     p adj
-x2-x1 -4.52 -5.459735 -3.5802652 0.0000000
+mid-low -4.52 -5.459735 -3.5802652 0.0000000
-x3-x1 -5.11 -6.049735 -4.1702652 0.0000000
+hi-low  -5.11 -6.049735 -4.1702652 0.0000000
-x3-x2 -0.59 -1.529735  0.3497348 0.2813795
+hi-mid  -0.59 -1.529735  0.3497348 0.2813795
-</code>
-SS<sub>between</sub>
-<code>> meanxs <- mean(xs$values)
-> mx1 <- mean(x1)
-> mx2 <- mean(x2)
-> mx3 <- mean(x3)
-> x2ss <- 10*((meanxs - mx2)^2)
-> x3ss <- 10*((meanxs - mx3)^2)
-> x1ss <- 10*((meanxs - mx1)^2)
-> xss <- x1ss+x2ss+x3ss
-> xss
-[1] 156.302
-</code>
+> </code>
 ====== E.g. 1 ======
@@ Line 263: / Line 480: @@
 <code>dd <- read.csv("http://commres.net/wiki/_media/dataset_anova_comparisonmethods.csv", sep=",")</code>
+<WRAP box help>In class exercise
+위의 데이터를 이용하여 아래를 수행하시오.
 . F test 가설을 세우시오
 . 각 그룹의 평균과 표준편차 그리고 분산값을 구하시오.
 . F test를 하시오
 . 그룹간 비교를 하시오 (post hoc)
+. 분석결과를 정리하여 설명하시오.
+</WRAP>