User Tools

Site Tools


r:sampling_distribution

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
r:sampling_distribution [2025/09/10 08:05] – [qnorm] hkimscilr:sampling_distribution [2025/09/10 08:43] (current) – [qnorm] hkimscil
Line 672: Line 672:
  
 </code> </code>
- 
-    
 </WRAP> </WRAP>
 </WRAP> </WRAP>
- 
  
 <WRAP group> <WRAP group>
Line 689: Line 686:
  
 </code> </code>
 +</WRAP>
 +<WRAP column half>
 +</WRAP>
 +</WRAP>
  
 ===== distribution of sample means ===== ===== distribution of sample means =====
 +<WRAP group>
 +<WRAP column half>
 <code> <code>
 > s.size <- 10 > s.size <- 10
Line 717: Line 720:
 </WRAP> </WRAP>
 </WRAP> </WRAP>
- 
  
 <WRAP group> <WRAP group>
Line 746: Line 748:
 </WRAP> </WRAP>
 </WRAP> </WRAP>
 +{{:r:pasted:20250910-080946.png}}
  
  
Line 772: Line 775:
 <WRAP column half> <WRAP column half>
 .... ....
 +  * 위 백만개의 샘플평균이 모인 집합의 히스토그램을 그리고 
 +  * 그 집합의 표준편차값을 수직선으로 표시하기 위해서 
 +  * mean(means) +- se.s 와 같은 방법을 쓴 후 그래프로 그린다. 
 +  * 아래에서 선 하나씩의 길이는 means 집합의 (distribution of sample means)
 +  * 표준편차값이다. 
 +  * 이 표준편차 값을 위에서 sd(means)로 구한 후에 se.s로 저장한 적이 있다. 
 +  * 그리고 그 값은 3.161886 이었다. 
 +<code>
 +> se.s
 +[1] 3.161886
 +</code>
 +
 +
 </WRAP> </WRAP>
 </WRAP> </WRAP>
 +{{:r:pasted:20250910-081358.png}}
  
 <WRAP group> <WRAP group>
Line 847: Line 863:
 <WRAP column half> <WRAP column half>
 .... ....
 +  * 그런데 이 값은 (se.s = 3.161886)
 +  * se.z 를 구하는 방법과 거의 같은 값을 갖는다 3.162278
 +<code>
 +> se.z <- sqrt(var(p1)/s.size)
 +> se.z <- c(se.z)
 +> se.z
 +[1] 3.162278
 +</code>
 +  * 사실, 우리가 백만 번의 샘플을 취해서 구한 means 집합의 평균과 표준편차 값은 
 +  * 만약에 백만 번이 아니라 무한 대로 더 큰 숫자를 사용한다고 하면
 +  * 위의 se.z 값을 구하는 식의 값을 갖게 된다. 이것을 말로 풀어서 설명하면
 +  * 샘플평균들의 집합에서 표준편차 값은 
 +  * 원래 모집단의 분산값을 샘플사이즈로 나누어준 값에 제곱근을 씌워서 구할 수 있다이다. 
 +
 +  * 즉, 샘플평균을 모은 집합의 분산값은 그 샘플이 추출된 원래 population의 분산값을 샘플크기로 (sample size) 나누어 준 값이다. 
 +  * 즉, '' var(means) = var(p1) / s.size ''
 +  * 따라서, ''std(means) = sqrt(var(p1) / s.size) ''
 +  * 더하여 그 샘플평균 집합의 평균 값은 population의 평균값이 된다 
 +  * 즉, '' mean(means) = mean(p1) ''
 +
 +  * 따라서 lo, hi에 해당하는 means분포의 값을 mean(means) +- sd(means)로 구했었는데, 
 +  * 샘플평균의 분포를 무한대 번을 했다고 하면 사실 이 값은 
 +  * mean(p1) +- se.z 로 구하는 것이 정확할 것이다. 
 +  * 여기서 ''se.z = sqrt(var(p1)/s.size))''
 +  * loz1 - hiz1, loz2 - hiz2 값들은 이렇게 구한 값들이다. 
 +참고 
 +<code>
 +
 +> lo1 <- mean(means)-se.s
 +> hi1 <- mean(means)+se.s
 +> lo2 <- mean(means)-2*se.s
 +> hi2 <- mean(means)+2*se.s
 +> lo3 <- mean(means)-3*se.s
 +> hi3 <- mean(means)+3*se.s
 +
 +</code>
 </WRAP> </WRAP>
 </WRAP> </WRAP>
  
  
 +{{:r:pasted:20250910-083710.png}}
 <WRAP group> <WRAP group>
 <WRAP column half> <WRAP column half>
Line 884: Line 937:
 </WRAP> </WRAP>
  
 +{{:r:pasted:20250910-084125.png}}
 <WRAP group> <WRAP group>
 <WRAP column half> <WRAP column half>
Line 924: Line 977:
 <WRAP column half> <WRAP column half>
 .... ....
 +  * 만약에 내가 한 샘플을 취해서 평균값을 살펴보니 
 +  * m.sample.i.got 값이었다고 하자 (104.7383).
 +  * 이 값보다 큰 값이거나 아니면 
 +  * 이 값에 해당하는 평균 반대편 값보다 작은 값이 값이 
 +  * 나올 확률은 무엇인가? 
 +  * 즉, 녹색선과 연두색 선 바깥 쪽 부분의 probability 값은?
 +  * 아래처럼 구해서 13.4% 정도가 된다
 +<code>
 +> 2 * pnorm(m.sample.i.got, mean(p1), sd(means), lower.tail = F)
 +[1] 0.1339882
 +</code>
 </WRAP> </WRAP>
 </WRAP> </WRAP>
r/sampling_distribution.txt · Last modified: 2025/09/10 08:43 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki