연구자는 자신의 연구 문제와 관련된 조사대상의 집단을 규정한다. 이 때 규정되는 집단을 모집단 혹은 population이라고 한다. 연구자가 청소년의 mp3 음악 사용에 관한 개념에 관해서 관심을 가지고 이에 따른 연구문제를 제시했다면, 잠정적으로 이 연구에서 규정하는 모집단은 청소년이라고 하겠다. Conceptualization과 Operationalization과 마찬가지로, 모집단에 대한 규정을 명확히 해 놓을 필요가 있다. 즉, 위의 예에서 청소년이라 하면, 구체적으로 어떤 대상인지를 밝혀야 한다.
연구자는 모집단에 대한 명확한 규정을 하였어도, population이 작은 경우나 혹은 census와 같은 경우를 제외하고는, 그 집단 전체를 조사할 수 없는 경우가 많다. 집단 전체를 모두 조사하는 것을 enumeration이라고 하는데, 이런 경우는 높은 비용이 소요되기 때문이다.
따라서, 연구자는 population에서 일정 대상을 선출하여, 이에 대한 조사를 바탕으로 population의 성격을 추론해 내게 된다. 이렇게 선정되는 population의 일부를 sample이라고 한다.
통계학적인 용어로 수학적으로 정리된 Population의 성격은 parameter라고 하고, Sample 의 성격을 말할 때는 statistics라고 한다.
This election is notable for the Literary Digest poll, which was based on 10 million questionnaires mailed to readers and potential readers; over two million were returned.
That same year, George Gallup, an advertising executive who had begun a scientific poll, predicted that Roosevelt would win the election, based on a quota sample of 50,000 people. He also predicted that the Literary Digest would mis-predict the results. His correct predictions made public opinion polling a critical element of elections for journalists and indeed for politicians. The Gallup Poll would become a staple of future presidential elections, and remains one of the most prominent election polling organizations.
– http://en.wikipedia.org/wiki/United_States_presidential_election,_1936
Literary Digest
Literary Digest지의 여론조사 오류
한편,
Sampling Frame
이렇게 조사의 대상이 되는 population에서 실제로 조사를 할 대상을 선출하는 작업을 샘플링(sampling)한다고 한다. Sampling을 위해서 연구자가 가장 먼저 확보해야 할 것은 population의 리스트이다. 이것을 sampling frame이라고 한다. 가령, 연구자가 청소년의 샘플을 확보하기 위해서 교육부의 중고등학교 학생의 명부를 이용하였다면, 이 명부가 sampling frame이다. 연구자가 전화번호부를 이용하였다면 전화번호부의 명단이 sampling frame이다. Sampling frame와 population의 다른 점은 말 그대로이다. 즉, 중고등학교 학생과 학생명단의 차이점이다.
Sampling에는 두 가지의 방법이 있는데, 첫 째는 non-probability sampling (NPS)이고 둘 째는 probability sampling(PS)이다. 오늘 날 행해지는 큰 규모의 리서치 폴(pole)이나, 서베이는 대개 PS를 기반으로 하는데, 그 주된 이유는 PS를 이용해서 얻어지는 sample은 대표성(representativeness)을 띄기 때문이다. 대통령선거에 관한 여론조사(research pole)가 좋은 예이다. 대표성을 띈다는 말은 곧 샘플조사결과를 일반화(generalization)할 수 있다는 의미이다.
NPS는 선출되는 sample이 대표성(representativeness)을 띄지 않는다. 대표성을 띄는 sample을 얻기가 현실적으로 불가능한 경우가 많은데 이럴 경우는 NPS방법을 쓴다. NPS에는 여러 가지 종류가 있다.
caption=“n=2 4 16 25 100 400 900 1600 일때의 샘플평균들의 분포 (distribution of sampling means)”
rm(list=ls()) var_ <- new.env() n<-20 ## Sample n individuals at a time p_mean<-0 ## Population mean p_sd<-1 ## Population standard deviation N<-500 ## Number of times the experiment (sampling) is replicated pdf('SE.pdf') for(i in 1:N) ## do the experiment N times { smp<-rnorm(n,p_mean,p_sd) ## sample n data points from the population var_$x_bar<-c(var_$x_bar,mean(smp)) ## keep track of the mean (x_bar) from each sample hist(var_$x_bar,probability=TRUE,col="red",xlim=c(-4,4),xlab="x / x_bar",main="",ylim=c(0,2.2)) # Plot a histogram of x_bar values points(mean(smp),0,pch=19,cex=1.5,col='black') curve(dnorm(x,p_mean,p_sd/sqrt(n)),lwd=3,add=TRUE) text(2.5,1.75,labels=paste('sd/sqrt(n) = ',round(p_sd/sqrt(n),2),sep='')) text(2.5,1.5,labels=paste('standard deviation of\nsample means = ',round(sd(var_$x_bar),2),sep='') ) curve(dnorm(x,p_mean,p_sd),main="",ylab="",xlim=c(-4,4),xlab="X",col="blue",lwd=3,add=TRUE) ## Plot the sample text(2.5,0.5,labels=paste('# of means drawn = ',i,sep='')) text(2.5,0.35,labels=paste('Sample size (n) = ',n,sep='')) points(smp,rep(0,n),pch=19,cex=1.5,col='purple') abline(v= mean(smp),col='purple',lwd=4) legend("topleft",legend=c('Sample points','Population Distribution','Sample mean','Theoretical SE','Empirical SE'), lty=c(0,1,1,1,1,1,1),lwd=c(0,3,3,3,3,3,3),pch=c(16,NA,NA,NA,NA,NA,NA),col=c('purple','blue','purple','black','red')) print(paste(i," of ",N)) } dev.off()