mahalanobis_distance
no way to compare when less than two revisions
Differences
This shows you the differences between two versions of the page.
— | mahalanobis_distance [2016/04/27 08:06] (current) – created hkimscil | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | {{keywords> | ||
+ | ====== Mahalanobis distance ====== | ||
+ | [[: | ||
+ | |||
+ | 이렇게 얻은 각 case의 값을 데이터로 $\chi^2$ distribution 을 이용하여 극한 값을 가려낼 수 있는데, 데이터의 극한 값을 찾는데 쓰이기도 한다. 그 판단의 기준은 $\chi^2$ 값의 p 가치가 .001보다 작을 때 (즉, standard deviation 거리의 약 3-4배가 넘을 때) 이다. | ||
+ | |||
+ | ====== Other measures for outlier detection ====== | ||
+ | __Leverage__ \\ | ||
+ | Mahalanobis distance와 비슷한 기준으로 outlier를 찾기 위해서 사용되는 방법으로는 leverage, discrepancy, | ||
+ | |||
+ | $$ \text{Mahalanobis distance} = (N-1)(\frac{h_{ii}-1}{N}) $$ 따라서, | ||
+ | $$ h_{ii} = \frac{\text{Mahalanobis distance}}{N-1} + \frac{1}{N} $$ | ||
+ | |||
+ | __Discrepancy__ \\ | ||
+ | \\ | ||
+ | __Influence__ 혹은 __Cook' | ||
+ | Influence 는 leverage와 discrepancy값을 곱한 값으로 흔히 Cook's distance 값이 쓰인다. 보통 케이스의 값이 1을 넘을 때, outlier가 아닌가를 살펴보게 된다. | ||
+ | |||
+ | ====== Use with caution ====== | ||
+ | Mahalanovis distance가 outlier를 확실하게 밝혀주는 방법은 아니다. Mahalanovis distance 값은 변인의 [[: | ||
+ | |||
mahalanobis_distance.txt · Last modified: 2016/04/27 08:06 by hkimscil