Table of Contents
Mahalanobis distance
마할라노비스 거리란 각각의 케이스가 여러가지 변인(variables) 중심값 (평균값, mean) 들로 이루어진 중심 (centroid) 에 대해서 갖는 거리를 말한다. 개념적으로 살펴보면, 여러변인을 동시에 이용하여 살펴보는 테스트 (multivariate) 경우에 각각의 중심값을 중앙에 교차시켜 케이스 값들을 나열해보면 일종의 군집을 이루게 되는데, Mahalanobis distance는 특정 케이스의 값이 여기서 심하게 벗어났는가를 보기 위한 거리값이다.
이렇게 얻은 각 case의 값을 데이터로 $\chi^2$ distribution 을 이용하여 극한 값을 가려낼 수 있는데, 데이터의 극한 값을 찾는데 쓰이기도 한다. 그 판단의 기준은 $\chi^2$ 값의 p 가치가 .001보다 작을 때 (즉, standard deviation 거리의 약 3-4배가 넘을 때) 이다.
Other measures for outlier detection
Leverage
Mahalanobis distance와 비슷한 기준으로 outlier를 찾기 위해서 사용되는 방법으로는 leverage, discrepancy, influence 값들이 있다. leverage는 흔히 $h_{ii}$ 로 표시하고, Mahalanobis distance 값과의 관계는:
$$ \text{Mahalanobis distance} = (N-1)(\frac{h_{ii}-1}{N}) $$ 따라서,
$$ h_{ii} = \frac{\text{Mahalanobis distance}}{N-1} + \frac{1}{N} $$
Discrepancy
Influence 혹은 Cook's distance
Influence 는 leverage와 discrepancy값을 곱한 값으로 흔히 Cook's distance 값이 쓰인다. 보통 케이스의 값이 1을 넘을 때, outlier가 아닌가를 살펴보게 된다.