r:sampling_distribution
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revision | |||
r:sampling_distribution [2025/09/10 08:05] – [qnorm] hkimscil | r:sampling_distribution [2025/09/10 08:43] (current) – [qnorm] hkimscil | ||
---|---|---|---|
Line 672: | Line 672: | ||
> | > | ||
</ | </ | ||
- | |||
- | |||
</ | </ | ||
</ | </ | ||
- | |||
<WRAP group> | <WRAP group> | ||
Line 689: | Line 686: | ||
> | > | ||
</ | </ | ||
+ | </ | ||
+ | <WRAP column half> | ||
+ | </ | ||
+ | </ | ||
===== distribution of sample means ===== | ===== distribution of sample means ===== | ||
+ | <WRAP group> | ||
+ | <WRAP column half> | ||
< | < | ||
> s.size <- 10 | > s.size <- 10 | ||
Line 717: | Line 720: | ||
</ | </ | ||
</ | </ | ||
- | |||
<WRAP group> | <WRAP group> | ||
Line 746: | Line 748: | ||
</ | </ | ||
</ | </ | ||
+ | {{: | ||
Line 772: | Line 775: | ||
<WRAP column half> | <WRAP column half> | ||
.... | .... | ||
+ | * 위 백만개의 샘플평균이 모인 집합의 히스토그램을 그리고 | ||
+ | * 그 집합의 표준편차값을 수직선으로 표시하기 위해서 | ||
+ | * mean(means) +- se.s 와 같은 방법을 쓴 후 그래프로 그린다. | ||
+ | * 아래에서 선 하나씩의 길이는 means 집합의 (distribution of sample means) | ||
+ | * 표준편차값이다. | ||
+ | * 이 표준편차 값을 위에서 sd(means)로 구한 후에 se.s로 저장한 적이 있다. | ||
+ | * 그리고 그 값은 3.161886 이었다. | ||
+ | < | ||
+ | > se.s | ||
+ | [1] 3.161886 | ||
+ | </ | ||
+ | |||
+ | |||
</ | </ | ||
</ | </ | ||
+ | {{: | ||
<WRAP group> | <WRAP group> | ||
Line 847: | Line 863: | ||
<WRAP column half> | <WRAP column half> | ||
.... | .... | ||
+ | * 그런데 이 값은 (se.s = 3.161886) | ||
+ | * se.z 를 구하는 방법과 거의 같은 값을 갖는다 3.162278 | ||
+ | < | ||
+ | > se.z <- sqrt(var(p1)/ | ||
+ | > se.z <- c(se.z) | ||
+ | > se.z | ||
+ | [1] 3.162278 | ||
+ | </ | ||
+ | * 사실, 우리가 백만 번의 샘플을 취해서 구한 means 집합의 평균과 표준편차 값은 | ||
+ | * 만약에 백만 번이 아니라 무한 대로 더 큰 숫자를 사용한다고 하면 | ||
+ | * 위의 se.z 값을 구하는 식의 값을 갖게 된다. 이것을 말로 풀어서 설명하면 | ||
+ | * 샘플평균들의 집합에서 표준편차 값은 | ||
+ | * 원래 모집단의 분산값을 샘플사이즈로 나누어준 값에 제곱근을 씌워서 구할 수 있다이다. | ||
+ | |||
+ | * 즉, 샘플평균을 모은 집합의 분산값은 그 샘플이 추출된 원래 population의 분산값을 샘플크기로 (sample size) 나누어 준 값이다. | ||
+ | * 즉, '' | ||
+ | * 따라서, '' | ||
+ | * 더하여 그 샘플평균 집합의 평균 값은 population의 평균값이 된다 | ||
+ | * 즉, '' | ||
+ | |||
+ | * 따라서 lo, hi에 해당하는 means분포의 값을 mean(means) +- sd(means)로 구했었는데, | ||
+ | * 샘플평균의 분포를 무한대 번을 했다고 하면 사실 이 값은 | ||
+ | * mean(p1) +- se.z 로 구하는 것이 정확할 것이다. | ||
+ | * 여기서 '' | ||
+ | * loz1 - hiz1, loz2 - hiz2 값들은 이렇게 구한 값들이다. | ||
+ | 참고 | ||
+ | < | ||
+ | |||
+ | > lo1 <- mean(means)-se.s | ||
+ | > hi1 <- mean(means)+se.s | ||
+ | > lo2 <- mean(means)-2*se.s | ||
+ | > hi2 <- mean(means)+2*se.s | ||
+ | > lo3 <- mean(means)-3*se.s | ||
+ | > hi3 <- mean(means)+3*se.s | ||
+ | |||
+ | </ | ||
</ | </ | ||
</ | </ | ||
+ | {{: | ||
<WRAP group> | <WRAP group> | ||
<WRAP column half> | <WRAP column half> | ||
Line 884: | Line 937: | ||
</ | </ | ||
+ | {{: | ||
<WRAP group> | <WRAP group> | ||
<WRAP column half> | <WRAP column half> | ||
Line 924: | Line 977: | ||
<WRAP column half> | <WRAP column half> | ||
.... | .... | ||
+ | * 만약에 내가 한 샘플을 취해서 평균값을 살펴보니 | ||
+ | * m.sample.i.got 값이었다고 하자 (104.7383). | ||
+ | * 이 값보다 큰 값이거나 아니면 | ||
+ | * 이 값에 해당하는 평균 반대편 값보다 작은 값이 값이 | ||
+ | * 나올 확률은 무엇인가? | ||
+ | * 즉, 녹색선과 연두색 선 바깥 쪽 부분의 probability 값은? | ||
+ | * 아래처럼 구해서 13.4% 정도가 된다 | ||
+ | < | ||
+ | > 2 * pnorm(m.sample.i.got, | ||
+ | [1] 0.1339882 | ||
+ | </ | ||
</ | </ | ||
</ | </ |
r/sampling_distribution.txt · Last modified: 2025/09/10 08:43 by hkimscil