Differences

This shows you the differences between two versions of the page.

--- r:sampling_distribution [2025/09/10 08:05] – [qnorm] hkimscil
+++ r:sampling_distribution [2025/09/10 08:43] (current) – [qnorm] hkimscil
@@ Line 672: / Line 672: @@
 >
 </code>
 </WRAP>
 </WRAP>
 <WRAP group>
@@ Line 689: / Line 686: @@
 >
 </code>
+</WRAP>
+<WRAP column half>
+</WRAP>
+</WRAP>
 ===== distribution of sample means =====
+<WRAP group>
+<WRAP column half>
 <code>
 > s.size <- 10
@@ Line 717: / Line 720: @@
 </WRAP>
 </WRAP>
 <WRAP group>
@@ Line 746: / Line 748: @@
 </WRAP>
 </WRAP>
+{{:r:pasted:20250910-080946.png}}
@@ Line 772: / Line 775: @@
 <WRAP column half>
 ....
+  * 위 백만개의 샘플평균이 모인 집합의 히스토그램을 그리고
+  * 그 집합의 표준편차값을 수직선으로 표시하기 위해서
+  * mean(means) +- se.s 와 같은 방법을 쓴 후 그래프로 그린다.
+  * 아래에서 선 하나씩의 길이는 means 집합의 (distribution of sample means)
+  * 표준편차값이다.
+  * 이 표준편차 값을 위에서 sd(means)로 구한 후에 se.s로 저장한 적이 있다.
+  * 그리고 그 값은 3.161886 이었다.
+<code>
+> se.s
+[1] 3.161886
+</code>
 </WRAP>
 </WRAP>
+{{:r:pasted:20250910-081358.png}}
 <WRAP group>
@@ Line 847: / Line 863: @@
 <WRAP column half>
 ....
+  * 그런데 이 값은 (se.s = 3.161886)
+  * se.z 를 구하는 방법과 거의 같은 값을 갖는다 3.162278
+<code>
+> se.z <- sqrt(var(p1)/s.size)
+> se.z <- c(se.z)
+> se.z
+[1] 3.162278
+</code>
+  * 사실, 우리가 백만 번의 샘플을 취해서 구한 means 집합의 평균과 표준편차 값은
+  * 만약에 백만 번이 아니라 무한 대로 더 큰 숫자를 사용한다고 하면
+  * 위의 se.z 값을 구하는 식의 값을 갖게 된다. 이것을 말로 풀어서 설명하면
+  * 샘플평균들의 집합에서 표준편차 값은
+  * 원래 모집단의 분산값을 샘플사이즈로 나누어준 값에 제곱근을 씌워서 구할 수 있다이다.
+  * 즉, 샘플평균을 모은 집합의 분산값은 그 샘플이 추출된 원래 population의 분산값을 샘플크기로 (sample size) 나누어 준 값이다.
+  * 즉, '' var(means) = var(p1) / s.size ''
+  * 따라서, ''std(means) = sqrt(var(p1) / s.size) ''
+  * 더하여 그 샘플평균 집합의 평균 값은 population의 평균값이 된다
+  * 즉, '' mean(means) = mean(p1) ''
+  * 따라서 lo, hi에 해당하는 means분포의 값을 mean(means) +- sd(means)로 구했었는데,
+  * 샘플평균의 분포를 무한대 번을 했다고 하면 사실 이 값은
+  * mean(p1) +- se.z 로 구하는 것이 정확할 것이다.
+  * 여기서 ''se.z = sqrt(var(p1)/s.size))''
+  * loz1 - hiz1, loz2 - hiz2 값들은 이렇게 구한 값들이다.
+참고
+<code>
+> lo1 <- mean(means)-se.s
+> hi1 <- mean(means)+se.s
+> lo2 <- mean(means)-2*se.s
+> hi2 <- mean(means)+2*se.s
+> lo3 <- mean(means)-3*se.s
+> hi3 <- mean(means)+3*se.s
+</code>
 </WRAP>
 </WRAP>
+{{:r:pasted:20250910-083710.png}}
 <WRAP group>
 <WRAP column half>
@@ Line 884: / Line 937: @@
 </WRAP>
+{{:r:pasted:20250910-084125.png}}
 <WRAP group>
 <WRAP column half>
@@ Line 924: / Line 977: @@
 <WRAP column half>
 ....
+  * 만약에 내가 한 샘플을 취해서 평균값을 살펴보니
+  * m.sample.i.got 값이었다고 하자 (104.7383).
+  * 이 값보다 큰 값이거나 아니면
+  * 이 값에 해당하는 평균 반대편 값보다 작은 값이 값이
+  * 나올 확률은 무엇인가?
+  * 즉, 녹색선과 연두색 선 바깥 쪽 부분의 probability 값은?
+  * 아래처럼 구해서 13.4% 정도가 된다
+<code>
+> 2 * pnorm(m.sample.i.got, mean(p1), sd(means), lower.tail = F)
+[1] 0.1339882
+</code>
 </WRAP>
 </WRAP>