Learn/통계
-
Analysis of Variance (ANOVA; 분산분석)Learn/통계 2022. 11. 3. 14:43
# 기본 개념 두 모집단이 있을 때 두 집단의 차이가 있는지를 비교하기 위해서는 Two-sample t test를 사용한다. 예시로 μ₁은 흡연자의 수명, μ₂는 비흡연자의 수명일 때, 귀무가설 H0 : μ₁ = μ₂를 확인하기 위해 Two-sample t test를 사용한다. 그러면 모집단이 세 개 이상이라면? 이 때 ANOVA를 사용한다. # 용어 아래 예시는 공부 방법에 따라 수학 점수가 어떻게 다른지를 보여주고 있다. 확인해보고 싶은 것은 공부 방법에 따라 수학 점수에 차이가 있는지이다. 즉, 귀무가설은 H0 : μ₁ = μ₂ = μ₃ 여기서 공부 방법이 세 가지인데 이를 factor level 또는 treatment라 부른다. 위의 예시를 일반화하면 아래와 같다. 앞으로 용어가 많이 나오므로 잘..
-
카이제곱분포, t분포, F분포Learn/통계 2022. 10. 11. 00:27
# 카이제곱분포 카이제곱분포는 짧게 대략 표현하면 표준정규분포 제곱의 합의 분포라고 볼 수 있다. 카이제곱분포에서는 각각의 확률변수는 아래와 같이 표준정규분포를 따른다고 가정한다. 이 때 각각의 확률변수를 제곱해서 더한 새로운 확률변수 Z는 카이제곱분포를 따른다. 여기서 v는 자유도라고 부르는데 표준정규분포를 몇 개 더했는지를 뜻한다. 밀도 함수는 아래와 같이 생겼다. 당연히 외울 필요는 없다. 평균은 v, 분산은 2v이다. 카이제곱분포는 감마분포에서 α=v/2, λ=2인 스페셜 케이스에 해당한다. ## 자유도 자유도에 대해서는 쉽고 명확하게 설명해주는 책은 없다. 좀 쉽게 컨셉을 설명해보자면 만약 x1, x2, x3, x4, x5의 합이 20으로 이미 정해져있다면, x1, x2, x3, x4를 정하는 ..
-
표본 분포(Sampling Distribution)Learn/통계 2022. 10. 10. 14:46
# 모집단과 표본 population : 모집단 (전체) sample : 모집단의 일부 통계 : 표본을 이요하여 모집단의 특성을 파악하는 학문 모집단, 표본의 평균과 분산은 아래와 같은 기호를 쓴다. # 통계량 통계학에서 가장 중요한 세 개의 함수는 아래와 같다. ① 확률 변수 ②확률 함수 ③ 통계량 크기가 n인 샘플을 뽑았을 때 이 샘플들에 대한 함수를 통계량이라고 부른다. 아래와 같이 표본 평균, 표본 분산이 대표적인 통계량이다. # 표본 분포 (Sampling Distribution) 통계량의 분포를 뜻한다. (표본 평균, 표본 분산) 모집단의 분포를 N(μ, σ²)라 가정하고 각각의 샘플들도 같은 분포로 뽑았다면 (i.i.d. : independent identically distributed) ..
-
[통계] 데이터와 표본분포Learn/통계 2022. 5. 18. 00:49
- 2장 읽고 정리하기- sampling 빅데이터 시대가 되면서 샘플링이 필요 없을 것이라고 생각하기 쉽다. 그러나 오히려 좋은 샘플이 더 중요해졌다. sample bias 샘플이 크다고 좋은게 아니다. 실제 미국 대통령 선거에서 1000만의 샘플이 bias가 발생하여 2000 X n개의 랜덤 샘플을 못이겼던 적이 있다. (설문조사 대상 선정 방식에서 bias 발생) 층화표본추출 (stratified sampling) 모집단을 여러 층으로 나눠서 샘플을 추출한다. 가령 백인/흑인/라틴계가 섞인 집단에서 랜덤 샘플링을 하면 라틴계가 너무 적을 수 있다. 그래서 각각의 층에서 샘플링을 할 수 있다. 대량의 데이터가 필요한 경우 예시로 검색 쿼리를 벡터로 표현하면 매우 sparse 하다. 그러므로 데이터가 많..
-
[통계] 탐색적 데이터 분석Learn/통계 2022. 5. 11. 23:52
-1장 읽고 정리하기- 평균 현실의 데이터에는 outlier가 낀 경우가 대부분이다. 늘 습관적으로 중간값을 쓰곤했는데 절사평균도 고려해보자. 절사평균은 scipy.stats의 trim_mean함수를 쓰면 된다. Robust SE쪽에서 많이 쓰던 단어인데 여기서는 outlier에 민감하지 않은 것을 이렇게 부른다. outlier outlier를 언급할 때 자주 비교되는게 noise이다. outlier는 값이 잘못되었다는 뜻이 아니며 때로는 일반 값들보다 더 의미를 가진다. 사실 anomaly detection에서 noise와 outlier를 구분하는건 현실적으로 쉽지 않다. 분산과 표준편차 표준편차는 분산에 루트를 씌운 값이다. 왜 이런걸 만들었을까 생각해본적이 없었는데 루트를 씌우면 원래의 데이터와 같..