Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Mahalanobis-Distanz

Author: Hans Lohninger

Betrachtet man die Distanz in mehrdimensionalen Räumen, so stellt man fest, dass die "klassische" euklidische Distanz irreführend sein kann. Dazu ein kleines Experiment: Nehmen wir an, dass wir einen zweidimensionalen Raum mit bivariat normalverteilten Daten füllen, wobei die Standardabweichungen der beiden Raumrichtungen unterschiedlich sind und die Daten korreliert sind (r = 0.8). Die folgende Abbildung zeigt eine Stichprobe von 500 Daten:

Zieht man einen Kreis um den Mittelpunkt M der Datenwolke, so entspricht dieser Kreis einem konstanten euklidischen Abstand vom Mittelpunkt. Misst man die Datendichten (und damit die Wahrscheinlichkeit des Auftretens dieser Daten) an den Punkten P1, P2 und P3, so sieht man, dass diese nicht gleich sind, obwohl die Punkte alle denselben Abstand vom Mittelpunkt der Wolke aufweisen. Ganz offensichtlich liegt also der Punkt P1 - gemessen in Standardabweichungen der Verteilung - viel weiter vom Zentrum entfernt als der Punkt P2. Betrachtet man die Schnitte durch die Verteilung entlang der Geraden P1M und P2M so sieht man ganz deutlich, dass der Punkt P1 wesentlich weiter außen liegt (bezogen auf die Wahrscheinlichkeitsverteilung) als der Punkt P2.

Die Wahrscheinlichkeit, dass an der Stelle P1 ein Datenpunkt auftritt, liegt bei 0.1%, an der Stelle P2 liegt sie in diesem Beispiel bei ca. 4%. Man kann nun Kurven gleicher Wahrscheinlichkeit einzeichnen (Ellipsen), so dass Punkte entlang einer solchen Ellipse die selbe Auftrittswahrscheinlichkeit aufweisen. Oder anders formuliert: In "multivariaten Standardabweichung" gemessen, haben die Punkte auf der Ellipse alle den selben Abstand vom Mittelpunkt. Die Ellipsen konstanter Wahrscheinlichkeit entsprechen einer konstanten Mahalanobis-Distanz.

Die Mahalanobis-Distanz berücksichtig die unterschiedlichen Standardabweichungen entlang der Achsen des n-dimensionalen Raumes und auch die Korrelationen zwischen den einzelnen Achsen. Zur Berechnung der Mahalanobis-Distanz dij zwischen den Punkten Pi und Pj muss die Kovarianzmatrix des betreffenden Datenraumes bekannt sein:

mit
pi, pj ..... Ortsvektoren der Punkte Pi und Pj,
C-1 .... inverse Kovarianzmatrix.

Ist die Kovarianzmatrix C gleich der Einheitsmatrix, dann sind die Daten nicht korreliert und weisen gleiche Standardabweichungen auf. Für diesen Fall wird die Mahalanobis-Distanz gleich der euklidischen Distanz.

Man könnte dies auch so interpretieren, dass durch korrelierte Daten der Raum in einer gewissen Weise verzerrt wird, so dass die euklischen Abstände von der Raumrichtung abhängen. Mathematisch formuliert, misst die Mahalanobis-Distanz den Abstand zweier Punkte unter Berücksichtigung der Varianzen und Kovarianzen der beteiligten Variablen.


Last Update: 2013-02-20