[Anomaly Detection] 개요, 확률 분포 기반

Learn/머신러닝 2022. 8. 10. 13:10

# Novelty vs Anomaly vs Outlier

비슷한 듯 하지만 다르다. 그런데 우리나라에서는 다 '이상치'로 번역.

Novelty

- 본질은 같지만 특성이 같은 유형

ex. 일반 호랑이가 정상 데이터일 때 백호는 novelty

Anomaly

- 대부분의 데이터와 특성이 다른 관측치.

- 약간 부정적인 느낌이 있음.

ex. 일반 호랑이가 정상 데이터면 라이거는 anomaly

Outlier

- 대부분의 데이터와 본질적인 특성이 다른 관측치.

- 아주 부정적인 느낌. 보통 데이터에서 발견되면 삭제함.

ex. 일반 호랑이가 정상 데이터면 사자가 outlier

# Anomaly Detection

이상치는 정상 데이터보다 소수 (심한 불균형)

> Classification이 잘 되지 않는다!

classification이지만 class를 이용하지 않기 때문에 보통 one-class classification 이라고 부른다.

정상 데이터를 잘 아우르는 바운더리를 찾아야 함

> 너무 크지도 않게, 너무 타이트하지도 않게

# 언제 사용할 것인가?

- 정상 데이터만 있는 경우 (평가는 어려움)

> 현재 이상치가 없다고 포기하지말고 모델링하자. 나중에 나올 수도 있다.

- 이상치 데이터가 극소수인 경우

# 이슈

- 정상 데이터를 정의하기 어려운 경우

- 어떤 종류의 이상치인지 모르는 경우 (이상치의 종류가 많음)

> 별도의 사후 분석이 필요 (post-hoc analysis)

# 밀도 기반 Anomaly Detection 알고리즘

알고리즘이 되려면 객관적인 score과 threshold가 필요하다.

확률분포로 접근할 수 있다.

> 단, 데이터가 우리가 알고있는 분포인건 현실적이지 않다.

(그렇지만 여기서 확장되는거니 알아야한다)

# Gaussian Density Estimation

- 각 객체가 생성될 확률을 하나의 정규분포로 가정

- 정상 관측치는 높은 확률, 불량 관측치는 낮은 확률을 가진다는 가정

# Mixture of Gaussian Density Estimation

- 각 객체가 생성될 확률을 여러 정규분포의 선형 결합으로 가정하는 방법론

- 가운데 골짜기는 세 클러스터 사이의 빈 공간인데 이상치일 수도 있고 정상일 수도 있다.

# Local Outlier Factor (LOF)

- 각각의 지점에 대한 score를 구하는 알고리즘

- 단, threshold는 제시하지 않음

LOF는 뒤에서 다시 자세히 정리

강의 영상, 그림 출처: https://youtu.be/TqSwuCX7Lds

'Learn > 머신러닝' 카테고리의 다른 글

[Anomaly Detection] Isolation Forest (0)	2022.08.11
[Anomaly Detection] Local Outlier Factor (LOF) (0)	2022.08.10
Pandas 2부 (0)	2021.05.26
Pandas 1부 (0)	2021.05.25
ndarray (0)	2021.05.07

ABOUT ME

push and sleep push and sleep

# Novelty vs Anomaly vs Outlier

# Anomaly Detection

# 언제 사용할 것인가?

# 이슈

# 밀도 기반 Anomaly Detection 알고리즘

# Gaussian Density Estimation

# Mixture of Gaussian Density Estimation

# Local Outlier Factor (LOF)

'Learn > 머신러닝' 카테고리의 다른 글

티스토리툴바

ABOUT ME

# Novelty vs Anomaly vs Outlier

# Anomaly Detection

# 언제 사용할 것인가?

# 이슈

# 밀도 기반 Anomaly Detection 알고리즘

# Gaussian Density Estimation

# Mixture of Gaussian Density Estimation

# Local Outlier Factor (LOF)

'Learn > 머신러닝' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바