====== Quartile ====== | Symbol | Names | Definition | | Q1 | first quartile \\ lower quartile \\ 25th percentile \\ | splits off the lowest 25% of data from the highest 75% \\ 일사분위수 (하한사분위수) | | Q2 | second quartile \\ median \\ 50th percentile \\ | cuts data set in half \\ (중앙값) | | Q3 | third quartile \\ upper quartile \\ 75th percentile | splits off the highest 25% of data from the lowest 75% \\ 삼사분위수 (상한사분위수) | interquartile and [[:outliers]] 사분범위 = Q3 - Q1 사분범위 = (상한사분위수) - (하한사분위수) ====== Finding lower and upper quartile ====== ===== e.g. 1, Head First method ===== > k <- c(1:8) > k [1] 1 2 3 4 5 6 7 8 > quantile(k) 0% 25% 50% 75% 100% 1.00 2.75 4.50 6.25 8.00 > {1, 2, 3, 4, 5, 6, 7, 8} head first * 하한 * n / 4 = ? * 정수이면? 그 위치값과 다음 위치 값의 사이값 * 정수가 아니면? 올림을 한 위치의 값 * 상한 * 3n / 4 = ? * 정수이면? 그 위치 값과 그 다음에 위치 값의 사이값 * 정수가 아니면? 올림을 한 위치 값 위의 방법으로는 lower quartile: 2.5 upper quartile: 6.5 Ordered Data Set: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49 * 11 / 4 = 2.75 -> 3 * lower quartile: 15 * 33 / 4 = 8.25 -> 9 * upper: 43 ===== r method ===== in r j <- c(1,2,3,4,5) j <- sort(j) quantile(j) > j <- c(1,2,3,4,5) > j <- sort(j) > quantile(j) 0% 25% 50% 75% 100% 1 2 3 4 5 > Odd number of elements * Use the median to divide the ordered data set into two halves. * If there are an odd number of data points in the original ordered data set, include the median (the central value in the ordered list) in both halves. (가운데 숫자) j2 <- c(1,2,3,4,5,6) j2 <- sort(j2) quantile(j2) > j2 <- c(1,2,3,4,5,6) > j2 <- sort(j2) > quantile(j2) 0% 25% 50% 75% 100% 1.00 2.25 3.50 4.75 6.00 > > Even number of elements * If there are an even number of data points in the original ordered data set, split this data set exactly in half. 즉, 3과 4의 가운데 값 (50%) = 3.5 * lower bound (lower quartile) 앞부분을 반으로 쪼갯을 때의 숫자 (여기서는 2) 더하기, 그 다음숫자와의 차이의 (3-2) 1/4지점 (여기서는 2 + 0.25 = 2.25) 구한다. * upper bound는 뒷부분의 반인 5에서 한칸 아래의 숫자인 4 더하기, 그 다음 숫자와의 차이의 (5와 4의 차이인 1) 3/4 지점을 (여기서는 4 + 0.75 = 4.75) 구한다. > j3 <- c(7, 18, 5, 9, 12, 15) > j3s <- sort(j3) > j3s [1] 5 7 9 12 15 18 > quantile(j3s) 0% 25% 50% 75% 100% 5.00 7.50 10.50 14.25 18.00 > median = (9+12)/2 the 1st quartile = 7 + (9-7)*(1/4) = 7 + 0.5 = 7.5 the 3rd quartile = 12 + (12-9)*(3/4) = 12 + 2.25 = 14.25 ---- in r > duration = faithful$eruptions # the eruption duration > quantile(duration) # apply the quantile function 0% 25% 50% 75% 100% 1.6000 2.1627 4.0000 4.4543 5.1000 quantile, not qurtile