-
Analysis of Variance (ANOVA; 분산분석)Learn/통계 2022. 11. 3. 14:43
# 기본 개념
두 모집단이 있을 때 두 집단의 차이가 있는지를 비교하기 위해서는 Two-sample t test를 사용한다.
예시로 μ₁은 흡연자의 수명, μ₂는 비흡연자의 수명일 때,
귀무가설 H0 : μ₁ = μ₂를 확인하기 위해 Two-sample t test를 사용한다.
그러면 모집단이 세 개 이상이라면?
이 때 ANOVA를 사용한다.
# 용어
아래 예시는 공부 방법에 따라 수학 점수가 어떻게 다른지를 보여주고 있다.
확인해보고 싶은 것은 공부 방법에 따라 수학 점수에 차이가 있는지이다.
즉, 귀무가설은 H0 : μ₁ = μ₂ = μ₃
여기서 공부 방법이 세 가지인데 이를 factor level 또는 treatment라 부른다.
위의 예시를 일반화하면 아래와 같다.
앞으로 용어가 많이 나오므로 잘 정리해둬야한다.
factor level (treatment)
아래와 같이 비교하고 싶은 집단의 수를 의미한다.
보통 α로 표현하며 위의 예시에서는 3이 여기에 해당한다.
i번째 factor level의 평균을 의미한다. (true mean)
해당 레벨의 y값을 다 더해서 n으로 나눠주면 구할 수 있다.
관측치를 뜻하며 아래와 같이 평균 + 에러로 표현할 수 있다.
여기서 에러 ε는 N(0, σ²)를 따른다.
i번째 factor level에 대한 모집단의 평균에 대한 추정치를 뜻한다.
모집단의 평균인 μ는 일반적으로 알려져있지 않다.
그러므로 표본을 통해 추정해야 한다.
위의 기호는 y i dot bar 이렇게 읽으며 dot은 모든(all)을 뜻한다.
즉 i번째 factor level의 모든 관측치에 대한 평균을 뜻한다.
전체 샘플의 평균에 대한 추정치를 뜻한다.
n은 샘플의 갯수(세로), k는 level의 갯수(가로)를 뜻한다.
Total Sum of Squares
y dot dot bar는 전체 평균을 뜻한다.
즉 각 관측치에서 전체 평균을 빼고 제곱한 것의 합을 뜻한다.
우측의 식은 계산상의 편의를 위해서 사용된다.
Level Sum of Squares
y i dot bar는 i번째 level의 평균을 뜻한다.
i번째 level과 전체 평균의 차를 뜻한다.
즉, level간의 차이가 있는지를 보기 위한 지표이다.
Error Sum of Squares
y i dot bar는 level의 평균을 뜻한다.
즉, 관측치와 해당 level에서의 평균의 차이를 뜻한다.
# SSA vs SSE
SSA와 SSE 크기의 차이가 중요한데,
SSA >> SSE라면 레벨 간 차이가 레벨 내의 차이보다 크다는 의미이고
SSA < SSE라면 레벨 내의 차이가 더 크다는 의미이다.
# SSA/SSE의 분포를 모른다
이를 분수로 표현해서 정리하면,
SSA/SSE가 1보다 크면, 레벨간의 차이가 있다고 볼 수 있다. (귀무가설 기각)
SSA/SSE가 1보다 작으면, 레벨내의 분산이 더 크므로 레벨간의 차이가 있다고 보기 힘들다.
문제는, SSA/SSE의 분포를 안다면 판단이 가능할텐데 분포를 모른다는 것이다.
# SSA, SSE, SST는 카이제곱분포를 따른다
샘플의 분산은 아래와 같이 계산했다.
SSA, SSE, SST도 식을 보면 일종의 분산 형태이다.
샘플의 분산은 자유도가 n-1인 카이제곱분포를 따른다.
즉, SSA, SSE, SST 또한 각각의 자유도에 대한 카이제곱 분포를 따른다.
# F분포 활용하기
SSA, SSE 각각은 카이제곱분포를 따른다는 것을 알게 되었다.
중요한건 SSA/SSE의 분포를 아는 것인데,
약간의 가공을 하면 F분포를 활용할 수 있다.
F분포는 아래와 같다.
각각의 자유도로 나눈 SSA와 SSE를 나눈다면 F분포를 따른다는 의미이다.
SST, SSA, SSE의 자유도는 아래와 같다.
(SST = SSA + SSE)
위의 SS값을 자유도로 나눈것을 Mean Square라고 부른다.
즉, 우리는 SSA/SSE대신 MSA/MSE를 사용할 것이고 이는 F분포를 따른다.
# 가설검정
F분포를 사용하기로 했으니 이제 가설검정을 할 수 있다.
귀무가설은 레벨간의 평균 차이가 없다는 것이 된다.
MSA/MSE는 F분포를 따르므로
F분포하에 유의수준보다 p-value가 작으면 귀무가설을 기각한다.
# ANOVA Table
가설검정에 사용되는 값들을 정리하면 아래와 같다.
이 표를 ANOVA Table이라고 부른다.
ANOVA Table # 예제
## 가설
아래 예시는 세 가지 치료법에 대한 환자들의 거동 능력 점수에 대한 데이터이다. (3 levels)
대조군은 아무 치료를 받지 않았고, 각 레벨의 점수는 정규분포를 따른다고 가정한다.
H0 : 세 그룹 모두 점수 차이가 없다.
H1 : 적어도 두 그룹은 점수 차이가 있다. (정확히 어떤 그룹인지는 모름)
유의수준(α) = 0.05
## 평균
전체 평균과 레벨 평균이 필요하다.
전체 평균은 18개의 모든 값에 대한 평균으로 계산해보면 41.7이 나온다.
레벨 평균은 각 레벨의 관측치에 대한 평균으로 아래와 같다.
1. Control : 36
2. Pysical therapy : 44
3. Counseling & Physical therapy : 45
## SSE
각각의 관측치에서 해당 레벨의 평균을 빼고 제곱해서 더한다.
## SSA
전체 평균과 각 레벨의 평균의 차이를 구해서 제곱하고 관측치 수 만큼 더한다.
## MSA, MSE
위에서 구한 SSE와 SSA를 자유도로 나눈다.
## F-statistic
F통계량은 146/25.47로 5.73이 나온다.
여기에 해당하는 p-value는 0.014로 유의수준 0.05보다 작으므로 귀무가설을 기각한다.
즉, 최소 두 개의 레벨은 유의미한 차이가 있다고 할 수 있다.
정확히 어떤 레벨이 차이가 있는지 확인하려면 Multiple comparison test를 해야 하는데 이번 범위는 아니다.
## ANOVA Table
위에서 구한 것들을 ANOVA Table로 정리하면 아래와 같다.
## 정리
ANOVA는 짧게 요약하자면 "가설 검정 방법"이다.
세 개 이상의 레벨들의 (모)평균이 같은지를 확인하기 위한 것이다.
이 과정에서 분산을 가지고 분석하므로 Analysis of Variance라고 부른다.
참고: 김성범 교수님 유튜브
'Learn > 통계' 카테고리의 다른 글
카이제곱분포, t분포, F분포 (4) 2022.10.11 표본 분포(Sampling Distribution) (0) 2022.10.10 [통계] 데이터와 표본분포 (0) 2022.05.18 [통계] 탐색적 데이터 분석 (0) 2022.05.11