User Tools

Site Tools


c:ps1-1:note_on_statistical_test

Types of Variables

Level of (Variable) Measurement

  • Level of Measurement 측정수준
  • 종류 (N): 성별 (gendent, (M, F))
  • 순서 (O): 달리기 등수 (1,2,3등)
  • 숫자: GPA, 한달용돈, IQ, 통화량 (분), etc.
    • (I)
    • (R)

숫자 변인

  • 평균, 분산, 표준편차 등의 성격을 가질 수 있음
  • 종류변인의 경우에는 불가능

가설 (과 검증)

  • 가설: (논리와 상식에 기반을 둔 이론에 근거하여) 두 변인 간의 관계를 예측한 선언문
  • 차이
    • 예1, 남자와 여자 간에 측은지심의 정도가 다를 것이다.
    • 예2, 학년에 따라서 직업에 대한 관심도가 다를 것이다.
    • 예3, VR을 이용해서 통계를 배운 학생과 일반 수업을 이용해서 통계를 배운 학생들 간에 통계점수가 다를 것이다.
    • 예4, 업무내용을 Email로 전달하는 방법과 F2F로 전달하는 방법 간에는 업무내용에 대한 불확실성정도가 다를 것이다 (uncertainty)
  • 연관
    • 예1, 용돈의 정도와 학교생활의 만족도는 연관이 (상관관계가) 있을 것이다.
    • 예2, 국어성적과 수학성적 간에는 연관이 있을 것이다.
    • 예3, 고등학교 수능성적과 대학교 GPA 간에는 연관이 있을 것이다.

Variance

\begin{align} \sigma^2 = \frac {SS}{df} \end{align}

  • $\sigma^2 = $ 한 집합에 속한 개인점수 예측에 대한 불확실성
  • 한 집합에 속한 개인점수를 평균으로 예측했을 때의 불확실성
  • 숫자변인의 경우에 한함

다시 가설

  • 우리가 배운 것: 두 집합 간의 차이를 선언하는 가설
  • 전체 (모집단) 평균과 내 집합 평균의 ($ \overline{X} $) 차이
  • 아주대학교 학생의 IQ ($ \mu $) vs. 강사의 약을 먹은 학생의 (샘플 집합) IQ ($ \overline{X} $) 차이
  • HOW?
    • $\mu - \overline{X} $ 를
    • $se $ 로 나누어 준 점수로 판단 (z-score를 구해서 테스트)
  • remind:
    • $\mu = 50; \sigma^2=100 $
    • $\overline{X}_{(n=100)} = 54 $
    • $se = \sqrt{\frac{\sigma^2} {n}} = \sqrt{\frac{100} {100}} = 1$
    • $z = (54-50)/se = 4/1 = 4 $
    • $zscore = 4$ 는 $\pm 2$ 범위 밖에 있으므로
    • 평범한 샘플에서 나올 수 있는 샘플이 아니다 (영가설 부정)
    • 원래가설 (연구가설) 채택
    • = 아주대학교 대학생의 확률점수와 강사의 약을 먹은 학생샘플의 확률점수는 다를 것이다
  • 이것은 $\frac {\text{difference}} {\text{random error}}$ 인 것
  • random error = standard error
  • = 연구자가 샘플을 prob sampling으로 잘 뽑아도 피할 수 없는 모집단 평균으로부터의 error
  • 이 논리를 확장시키면
    • 두 샘플 간의 평균을 구한 후
    • 그 차이를 검증하는 것도 가능 (see t-test)
    • 이 때의 se값은 아래처럼 구한다.
    • 아래에서 $S_p^2$ 은 pooled variance 라고 부르며, 두 그룹을 하나로 묶었을 때의 variance를 말한다.
    • $se = s_{\overline{X_a}-\overline{X_b}} = \displaystyle {\sqrt{\frac{S_p^2}{n_a} + \frac{S_p^2}{n_b}} }$
    • pooled variance는 아래처럼 구한다.
    • $s_p^2 = \displaystyle \frac{SS_a+SS_b}{df_a+df_b}$
    • 여기서
    • $se = \text{random error}$
    • $\text{difference} = \overline{X_A} - \overline{X_B}$
    • $\text{hypothesis test} = \displaystyle \frac {(\overline{X_A} - \overline{X_B}) } {se} = \displaystyle \frac {\text{difference}} {\text{random error}}$

Different Way of Doing it

c/ps1-1/note_on_statistical_test.txt · Last modified: 2023/12/04 15:23 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki