ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 독립표본 t 검정
    Research Methodologies & Statistics 2021. 11. 8. 06:29

    carAB.csv
    0.00MB

     

    독립표본 t 검정은 두 개 집단의 평균을 비교하는 것으로 예를들면, 남학생과 여학생의 학업성취도 평균차이를 들 수 있다. 독립표본 t검정에서 중요한 것은 두 집단의 분산이 같으냐 같지 않느냐에 따라 다르게 접근해야 하는데 이는 결과의 정확도를 높이기 위해서이다. 

     

    만약 두 모집단의 분산이 같다는 것을 가정할 수 없으면 우리는 unpooled를, 만약 두 모집단의 분산이 같다고 가정 할 수 있으면 pooled를 사용하면 된다. 

     

     두 집단의 분산이 같다는 것을 가정할 수 있는지 없는지 살펴볼 수 있는 방법 중의 한가지는 Levene test이다. 이를 위해서는 lawstat 패키지를 설치한 후 로드해야 한다.

    install.packages("lawstat")
    library(lawstat)

    독립표본 t 검정을 위해서 임의로 생성한 carAB 파일을 사용하였다. 이 파일은 두개의 회사 A와 B에서 출시한 자동차의 연비를 비교한 것으로 연구자는 두 자동차의 연비가 같은지 여부를 살펴보고자 이 연구를 시행하였다. 먼저 Levene 테스트를 통해서 두 모집단의 분산이 같다고 가정할 수 있는지 아닌지를 살펴보고자 한다. 

     

    levene.test(데이터명$변수명, 데이터명$집단을 나타내는 변수명)
    levene.test(carAB$MPG, carAB$Company) ## 중앙값을 기준으로
    
    levene.test(carAB$MPG, carAB$Company, location="mean") ## 평균을 기준으로

    Levene 테스트 결과를 보기에 앞서 어떻게 판단해야 하는지 살펴보면, Levene 테스트의 영가설은 두 모집단의 분산이 같다이다. 그러므로 Levene 테스트 결과에서 p-value가 significance level (여기에서는 0.05)보다 크면 영가설을 기각할 수 없기 때문에 두 모집단의 분산이 같다고 가정할 수 있다. 만약 p-value가 signifcance level보다 작으면 영가설을 기각해야 하기 때문에 두 모집단의 분산이 같다고 가정할 수 없게 된다.

     

    우리 결과에서는 p-value(0.783 또는 0.839)가 0.05보다 크므로 영가설을 기각할 수 없다. 그러므로 두 모집단의 분산이 같다고 가정할 수 있다. 

     

    참고로 location="mean"을 코드에 추가하지 않으면 중앙값을 기준으로 분산이 같은지를 판단하게 되고, 추가하면 평균을 기준으로 판단하게 된다. 

     

    [그림1] Levene Test 결과

    두 모집단의 분산이 같다는 가정하에 t-test를 시행하면, 아래와 같이 코드를 입력한 후 실행시키면 된다.

     

    우선, 영가설은 '두 회사의 자동차의 MPG는 같다'이고 연구가설은 '두 회사 자동차의 MPG는 같지 않다'이다. 그러므로 two-tailed 테스트이다. 그리고 significance level은 0.05로 하였다. 

    t.test(종속변수 ~ 집단변수, 데이터명, var.equal=TRUE)
    t.test(MPG ~ Company, carAB, var.equal=TRUE)

    참고로, 두 모집단의 분산이 같다는 가정을 할 수 없을 경우에는 var.equal=TRUE를 제외시킨 후 코드를 실행하거나, 

    아니면 TRUE 대신에 FALSE를 입력해주면 된다. 

     

    t.test(MPG ~ Company, carAB)
    t.test(MPG ~ Company, carAB, var.equal=FALSE)

     

    그 결과는 [그림2]와 같다.

    [그림2] 독립표본 t 검정 결과(두 모집단의 분산이 동일하다는 전제하에)

    p-value가 2.2e-16으로 0.05보다 작으므로 우리는 두 회사의 자동차의 연비가 같다는 영가설을 기각하고 연구가설을 채택할 증거가 있다. 다시말해 두 회사의 자동차의 연비는 유의수준 .05에서 통계적으로 유의미한 차이가 있으며 B회사의 자동차 연비가 A회사의 자동차 연비보다 높게 나타났다 라고 해석할 수 있다. 

     

     

    댓글

Designed by Tistory.