ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Analysis of Variance (ANOVA; 분산분석)
    Learn/통계 2022. 11. 3. 14:43

    # 기본 개념

    두 모집단이 있을 때 두 집단의 차이가 있는지를 비교하기 위해서는 Two-sample t test를 사용한다. 

     

    예시로 μ₁은 흡연자의 수명, μ₂는 비흡연자의 수명일 때,

    귀무가설 H0 :  μ₁ = μ₂를 확인하기 위해 Two-sample t test를 사용한다. 

     

    그러면 모집단이 세 개 이상이라면? 

    이 때 ANOVA를 사용한다. 

     

    # 용어

    아래 예시는 공부 방법에 따라 수학 점수가 어떻게 다른지를 보여주고 있다. 

     

    확인해보고 싶은 것은 공부 방법에 따라 수학 점수에 차이가 있는지이다. 

    즉, 귀무가설은 H0 : μ₁ = μ₂ = μ₃ 

     

    여기서 공부 방법이 세 가지인데 이를 factor level 또는 treatment라 부른다. 

     

    위의 예시를 일반화하면 아래와 같다. 

    앞으로 용어가 많이 나오므로 잘 정리해둬야한다. 


    factor level (treatment)

    아래와 같이 비교하고 싶은 집단의 수를 의미한다. 

    보통 α로 표현하며 위의 예시에서는 3이 여기에 해당한다. 


    i번째 factor level의 평균을 의미한다. (true mean)

    해당 레벨의 y값을 다 더해서 n으로 나눠주면 구할 수 있다.  


    관측치를 뜻하며 아래와 같이 평균 + 에러로 표현할 수 있다. 

    여기서 에러 ε는 N(0, σ²)를 따른다. 


    i번째 factor level에 대한 모집단의 평균에 대한 추정치를 뜻한다.

     

    모집단의 평균인 μ는 일반적으로 알려져있지 않다. 

    그러므로 표본을 통해 추정해야 한다. 

     

    위의 기호는 y i dot bar 이렇게 읽으며 dot은 모든(all)을 뜻한다. 

    즉 i번째 factor level의 모든 관측치에 대한 평균을 뜻한다. 


    전체 샘플의 평균에 대한 추정치를 뜻한다. 

    n은 샘플의 갯수(세로), k는 level의 갯수(가로)를 뜻한다. 


    Total Sum of Squares

    y dot dot bar는 전체 평균을 뜻한다. 

    즉 각 관측치에서 전체 평균을 빼고 제곱한 것의 합을 뜻한다. 

     

    우측의 식은 계산상의 편의를 위해서 사용된다. 


    Level Sum of Squares

    y i dot bar는 i번째 level의 평균을 뜻한다. 

    i번째 level과 전체 평균의 차를 뜻한다. 

    즉, level간의 차이가 있는지를 보기 위한 지표이다. 


    Error Sum of Squares

    y i dot bar는 level의 평균을 뜻한다. 

    즉, 관측치와 해당 level에서의 평균의 차이를 뜻한다. 

     

    # SSA vs SSE

    SSA와 SSE 크기의 차이가 중요한데,

    SSA >> SSE라면 레벨 간 차이가 레벨 내의 차이보다 크다는 의미이고 

    SSA < SSE라면 레벨 내의 차이가 더 크다는 의미이다.  

     

    # SSA/SSE의 분포를 모른다

    이를 분수로 표현해서 정리하면,

    SSA/SSE가 1보다 크면, 레벨간의 차이가 있다고 볼 수 있다. (귀무가설 기각)

    SSA/SSE가 1보다 작으면, 레벨내의 분산이 더 크므로 레벨간의 차이가 있다고 보기 힘들다. 

     

    문제는, SSA/SSE의 분포를 안다면 판단이 가능할텐데 분포를 모른다는 것이다. 

     

    # SSA, SSE, SST는 카이제곱분포를 따른다

    샘플의 분산은 아래와 같이 계산했다. 

    SSA, SSE, SST도 식을 보면 일종의 분산 형태이다. 

     

    샘플의 분산은 자유도가 n-1인 카이제곱분포를 따른다. 

    즉, SSA, SSE, SST 또한 각각의 자유도에 대한 카이제곱 분포를 따른다. 

     

    # F분포 활용하기

    SSA, SSE 각각은 카이제곱분포를 따른다는 것을 알게 되었다. 

     

    중요한건 SSA/SSE의 분포를 아는 것인데,

    약간의 가공을 하면 F분포를 활용할 수 있다. 

     

    F분포는 아래와 같다. 

    각각의 자유도로 나눈 SSA와 SSE를 나눈다면 F분포를 따른다는 의미이다. 

     

    SST, SSA, SSE의 자유도는 아래와 같다. 

    (SST = SSA + SSE)

    위의 SS값을 자유도로 나눈것을 Mean Square라고 부른다. 

    즉, 우리는 SSA/SSE대신 MSA/MSE를 사용할 것이고 이는 F분포를 따른다. 

     

    # 가설검정

    F분포를 사용하기로 했으니 이제 가설검정을 할 수 있다. 

     

    귀무가설은 레벨간의 평균 차이가 없다는 것이 된다. 

    MSA/MSE는 F분포를 따르므로

    F분포하에 유의수준보다 p-value가 작으면 귀무가설을 기각한다. 

     

    # ANOVA Table

    가설검정에 사용되는 값들을 정리하면 아래와 같다. 

    이 표를 ANOVA Table이라고 부른다. 

    ANOVA Table

    # 예제

    ## 가설

    아래 예시는 세 가지 치료법에 대한 환자들의 거동 능력 점수에 대한 데이터이다. (3 levels)

     

    대조군은 아무 치료를 받지 않았고, 각 레벨의 점수는 정규분포를 따른다고 가정한다. 

     

    H0 : 세 그룹 모두 점수 차이가 없다. 

    H1 : 적어도 두 그룹은 점수 차이가 있다. (정확히 어떤 그룹인지는 모름)

    유의수준(α) = 0.05

     

    ## 평균

    전체 평균과 레벨 평균이 필요하다. 

     

    전체 평균은 18개의 모든 값에 대한 평균으로 계산해보면 41.7이 나온다. 

     

    레벨 평균은 각 레벨의 관측치에 대한 평균으로 아래와 같다. 

    1. Control : 36

    2. Pysical therapy : 44

    3. Counseling & Physical therapy : 45

     

    ## SSE

    각각의 관측치에서 해당 레벨의 평균을 빼고 제곱해서 더한다. 

     

    ## SSA

    전체 평균과 각 레벨의 평균의 차이를 구해서 제곱하고 관측치 수 만큼 더한다. 

     

    ## MSA, MSE

    위에서 구한 SSE와 SSA를 자유도로 나눈다. 

     

     

    ## F-statistic

    F통계량은 146/25.47로 5.73이 나온다. 

    여기에 해당하는 p-value는 0.014로 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 

     

    즉, 최소 두 개의 레벨은 유의미한 차이가 있다고 할 수 있다. 

     

    정확히 어떤 레벨이 차이가 있는지 확인하려면 Multiple comparison test를 해야 하는데 이번 범위는 아니다. 

     

    ## ANOVA Table

    위에서 구한 것들을 ANOVA Table로 정리하면 아래와 같다. 

     

     

    ## 정리

    ANOVA는 짧게 요약하자면 "가설 검정 방법"이다. 

     

    세 개 이상의 레벨들의 (모)평균이 같은지를 확인하기 위한 것이다. 

     

    이 과정에서 분산을 가지고 분석하므로 Analysis of Variance라고 부른다. 

     

     

    참고: 김성범 교수님 유튜브 

    'Learn > 통계' 카테고리의 다른 글

    카이제곱분포, t분포, F분포  (4) 2022.10.11
    표본 분포(Sampling Distribution)  (0) 2022.10.10
    [통계] 데이터와 표본분포  (0) 2022.05.18
    [통계] 탐색적 데이터 분석  (0) 2022.05.11

    댓글

Designed by Tistory.