-
Distance MeasuresLearn/머신러닝 2022. 11. 13. 16:34
# 개요
다양한 거리측도가 존재한다.
변수들이 다른 데이터 범위, 분산을 가질 경우 반드시 정규화 혹은 표준화를 해야한다.
# Euclidean Distance
가장 흔히 사용되는 거리측도
두 관측치 사이의 직선 거리를 의미한다.
# Manhattan Distance
X에서 Y로 이동 시 각 좌표축 방향으로만 이동할 경우에 계산되는 거리
Euclidean ≤ Manhattan 가 항상 성립한다.
# Mahalanobis Distance
변수 내 분산, 변수 간 공분산을 모두 반영한 x, y간의 거리
위의 식을 보면 covariance matrix를 곱해주지 않으면 Euclidean과 식이 같다.
즉, covariance matrix가 identity matrix인 경우는 Euclidean distance와 동일하다.
Mahalanobis distance를 제곱하면 타원의 식이 된다. (수식 전개는 생략)
예시로 아래의 그림의 경우 B가 Euclidean 거리는 더 까갑지만
상관관계를 고려한 Mahalanobis 거리는 A가 더 가깝다.
# Correlation Distance
correlation은 -1 ≤ r ≤ 1이므로 0 ≤ 1-r ≤ 2가 된다.
주로 시그널 데이터의 유사성을 확인하기 위해 많이 사용한다.
아래의 경우 왼쪽처럼 유사한건 거리가 0에 가깝고
오른족처럼 반대로 움직일 때는 2에 가깝게 나온다.
즉, 데이터 간 Pearson correlation을 거리측도로 사용하는 방식으로
데이터 패턴의 유사도를 반영할 수 있다.
# Spearman Rank Correlation Distance
데이터가 rank로 되어있을 때 사용하는 거리 계산 방식이다.
대략적인 컨셉은 두 집단의 랭크 차이 제곱을 이용한다.
참고 : 김성범 교수님 유튜브
'Learn > 머신러닝' 카테고리의 다른 글
Decision tree (0) 2022.11.18 K-Nearest Neighbor (KNN) (0) 2022.11.13 뉴럴네트워크모델 (neural network model) (0) 2022.11.11 로지스틱 회귀모델(Logistic Regression) (0) 2022.11.06 선형 회귀 (Linear Regression) (0) 2022.10.09