User Tools

Site Tools


mahalanobis_distance

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

mahalanobis_distance [2016/04/27 08:06] (current)
hkimscil created
Line 1: Line 1:
 +{{keywords>​mahalanobis distance, multivariate statistics, 마하라노비스 거리, 통계}}
 +====== Mahalanobis distance ======
 +[[:​Mahalanobis Distance|마할라노비스 거리]]란 각각의 케이스가 여러가지 변인(variables) 중심값 (평균값, mean) 들로 이루어진 중심 (centroid) 에 대해서 갖는 거리를 말한다. 개념적으로 살펴보면,​ 여러변인을 동시에 이용하여 살펴보는 테스트 (multivariate) 경우에 각각의 중심값을 중앙에 교차시켜 케이스 값들을 나열해보면 일종의 군집을 이루게 되는데, Mahalanobis distance는 특정 케이스의 값이 여기서 심하게 벗어났는가를 보기 위한 거리값이다.  ​
 +
 +이렇게 얻은 각 case의 값을 데이터로 $\chi^2$ distribution 을 이용하여 극한 값을 가려낼 수 있는데, 데이터의 극한 값을 찾는데 쓰이기도 한다. 그 판단의 기준은 $\chi^2$ 값의 p 가치가 .001보다 작을 때 (즉, standard deviation 거리의 약 3-4배가 넘을 때) 이다. ​
 +
 +====== Other measures for outlier detection ======
 +__Leverage__ \\
 +Mahalanobis distance와 비슷한 기준으로 outlier를 찾기 위해서 사용되는 방법으로는 leverage, discrepancy,​ influence 값들이 있다. leverage는 흔히 $h_{ii}$ 로 표시하고,​ Mahalanobis distance 값과의 관계는:
 +
 +$$ \text{Mahalanobis distance} = (N-1)(\frac{h_{ii}-1}{N}) $$ 따라서,
 +$$ h_{ii} = \frac{\text{Mahalanobis distance}}{N-1} + \frac{1}{N} $$
 +
 +__Discrepancy__ \\
 +\\ 
 +__Influence__ 혹은 __Cook'​s distance__ \\ 
 +Influence 는 leverage와 discrepancy값을 곱한 값으로 흔히 Cook's distance 값이 쓰인다. 보통 케이스의 값이 1을 넘을 때, outlier가 아닌가를 살펴보게 된다.
 +
 +====== Use with caution ======
 +Mahalanovis distance가 outlier를 확실하게 밝혀주는 방법은 아니다. Mahalanovis distance 값은 변인의 [[:​Variance|분산]]값이 클 경우나, 변인들 간의 [[:​Correlation|상관관계]] 가 높을 경우에 과소평가되어 계산되므로,​ 이의 사용에 주의를 기울여야 한다. Mahalanovis distance와 비슷하게 쓰이는 leverage, discrepancy,​ Cook's distance 등의 값도 이와 같은 한계를 갖는다. ​
 +
  
mahalanobis_distance.txt · Last modified: 2016/04/27 08:06 by hkimscil