sampling
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionNext revisionBoth sides next revision | ||
sampling [2018/03/13 16:48] – [Sample statistics] hkimscil | sampling [2019/09/13 11:08] – hkimscil | ||
---|---|---|---|
Line 18: | Line 18: | ||
That same year, George Gallup, an advertising executive who had begun a scientific poll, predicted that Roosevelt would win the election, based on a **quota sample** of 50,000 people. He also predicted that the //Literary Digest// would mis-predict the results. His correct predictions made public opinion polling a critical element of elections for journalists and indeed for politicians. The Gallup Poll would become a staple of future presidential elections, and remains one of the most prominent election polling organizations. | That same year, George Gallup, an advertising executive who had begun a scientific poll, predicted that Roosevelt would win the election, based on a **quota sample** of 50,000 people. He also predicted that the //Literary Digest// would mis-predict the results. His correct predictions made public opinion polling a critical element of elections for journalists and indeed for politicians. The Gallup Poll would become a staple of future presidential elections, and remains one of the most prominent election polling organizations. | ||
-- http:// | -- http:// | ||
+ | |||
+ | * 1916년 Literary Digest지는 Woodrow Wilson 과 Charles Hughes 대통령 후보자에 관한 여론조사를 통해 당선자를 예측하고 정확히 맞힘 | ||
+ | * 그 이후 4년마다 여론조사를 실시하였고 예측이 잘 맞아 왔음 | ||
+ | * 1936년 Landon vs. Roosevelt 예측에서 크게 실패함 | ||
+ | * 천만명 (10 million)에게 우편서베이를 실시하여 2백3십만 (2.3 million)이 응답을 하였고 | ||
+ | * Landon 57% vs Roosebelt 43% 로 예측함 | ||
+ | * 그러나 Roosebelt 61% 로 승리 | ||
+ | * 틀리게 된 이유로는 Literary Digest지가 설문을 요청한 샘플을 구한 방법이 | ||
+ | * 전화번호부 + 자동차소유주 명부 → 1천만명 중 2백만명 응답 (22% 회수율 혹은 응답률) | ||
+ | * 그러나, 당시(1936년)에 전화와 자동차를 소유한 사람들은 대부분 중상류층으로 | ||
+ | * 공화당지지자가 대다수 | ||
+ | * 따라서 무작위 샘플이 아닌, biased sample인 결과 | ||
+ | |||
+ | * 같은 해에 신생의 작은 여론조사회사는 Roosevelt 가 승리할 것으로 맞힘 | ||
+ | * 이 회사가 George Gallup이라는 청년이 세운 Gallup 사 | ||
+ | * Gallup사는 Quota sampling 방법을 통해서 인구구성비Sampling ====== | ||
+ | ===== 용어들 ===== | ||
+ | 연구자는 자신의 연구 문제와 관련된 조사대상의 집단을 규정한다. 이 때 규정되는 집단을 모집단 혹은 [[Population|population]]이라고 한다. 연구자가 청소년의 mp3 음악 사용에 관한 개념에 관해서 관심을 가지고 이에 따른 연구문제를 제시했다면, | ||
+ | |||
+ | 연구자는 모집단에 대한 명확한 규정을 하였어도, | ||
+ | |||
+ | 따라서, 연구자는 population에서 일정 대상을 선출하여, | ||
+ | |||
+ | <WRAP box> | ||
+ | 통계학적인 용어로 수학적으로 정리된 Population의 성격은 parameter라고 하고, Sample 의 성격을 말할 때는 statistics라고 한다. | ||
+ | </ | ||
+ | |||
+ | <WRAP box> | ||
+ | * Alf Landon 대 Franklin Roosevelt | ||
+ | * Literary Digest vs. George Gallup | ||
+ | This election is notable for the Literary Digest poll, which was based on **10 million** questionnaires mailed to readers and potential readers; over two million were returned. | ||
+ | |||
+ | That same year, George Gallup, an advertising executive who had begun a scientific poll, predicted that Roosevelt would win the election, based on a **quota sample** of 50,000 people. He also predicted that the //Literary Digest// would mis-predict the results. His correct predictions made public opinion polling a critical element of elections for journalists and indeed for politicians. The Gallup Poll would become a staple of future presidential elections, and remains one of the most prominent election polling organizations. | ||
+ | -- http:// | ||
+ | |||
+ | * 1916년 Literary Digest지는 Woodrow Wilson 과 Charles Hughes 대통령 후보자에 관한 여론조사를 통해 당선자를 예측하고 정확히 맞힘 | ||
+ | * 그 이후 4년마다 여론조사를 실시하였고 예측이 잘 맞아 왔음 | ||
+ | * 1936년 Landon vs. Roosevelt 예측에서 크게 실패함 | ||
+ | * 천만명 (10 million)에게 우편서베이를 실시하여 2백3십만 (2.3 million)이 응답을 하였고 | ||
+ | * Landon 57% vs Roosebelt 43% 로 예측함 | ||
+ | * 그러나 Roosebelt 61% 로 승리 | ||
+ | * 틀리게 된 이유로는 Literary Digest지가 설문을 요청한 샘플을 구한 방법이 | ||
+ | * 전화번호부 + 자동차소유주 명부 → 1천만명 중 2백만명 응답 (22% 회수율 혹은 응답률) | ||
+ | * 그러나, 당시(1936년)에 전화와 자동차를 소유한 사람들은 대부분 중상류층으로 | ||
+ | * 공화당지지자가 대다수 | ||
+ | * 따라서 무작위 샘플이 아닌, biased sample인 결과 | ||
+ | |||
+ | * 같은 해에 신생의 작은 여론조사회사는 Roosevelt 가 승리할 것으로 맞힘 | ||
+ | * 이 회사가 George Gallup이라는 청년이 세운 Gallup 사 | ||
+ | * Gallup사는 Quota sampling 방법을 통해서 인구구성비율에 맞는 샘플을 채취함. | ||
+ | * 이를 통해 인구에 회자되면서 현재의 갤럽사로 성장함 | ||
</ | </ | ||
Line 36: | Line 87: | ||
==== 원리 | ==== 원리 | ||
* Representativeness (대표성) | * Representativeness (대표성) | ||
- | * ECBS (Equal Chance of Being Selected) | + | * ECoBS (Equal Chance of Being Selected) |
* Sampling bias (샘플링 바이어스) | * Sampling bias (샘플링 바이어스) | ||
* concscious | * concscious | ||
Line 66: | Line 117: | ||
var_ <- new.env() | var_ <- new.env() | ||
- | n< | + | n< |
- | p_mean< | + | p_mean< |
- | p_sd< | + | p_sd< |
- | N< | + | N< |
pdf(' | pdf(' | ||
- | for(i in 1:N) ## do the experiment N times | + | for(i in 1:N) |
{ | { | ||
- | smp< | + | smp< |
+ | |||
+ | var_$x_bar< | ||
- | var_$x_bar<-c(var_$x_bar,mean(smp)) | + | hist(var_$x_bar, |
+ | # Plot a histogram | ||
- | hist(var_$x_bar, | ||
points(mean(smp), | points(mean(smp), | ||
curve(dnorm(x, | curve(dnorm(x, | ||
Line 86: | Line 139: | ||
text(2.5, | text(2.5, | ||
- | curve(dnorm(x, | + | curve(dnorm(x, |
+ | ## Plot the sample | ||
text(2.5, | text(2.5, | ||
Line 100: | Line 154: | ||
dev.off() | dev.off() | ||
</ | </ | ||
- | + | {{SE.pdf}} | |
* Variation See, [[: | * Variation See, [[: |
sampling.txt · Last modified: 2020/12/04 22:37 by hkimscil