Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Streu-, Kovarianz- und Korrelationsmatrix

Author: Hans Lohninger

Diese drei Arten von Matrizen bilden oft die Basis einer multivariaten Methode. Die Korrelations- und die Kovarianzmatrix werden auch dazu genutzt, eine erste Überprüfung von Beziehungen zwischen den Variablen eines multivariaten Datensatzes durchzuführen. Deshalb ist es wichtig, die Prinzipien dahinter zu verstehen und die Fallstricke, die sich aus ungewöhnlichen Datensätzen ergeben, zu erkennen.

Wie sind diese Matrizen miteinander verwandt?

Grundsätzlich werden alle diese Matrizen durch das gleiche Verfahren berechnet: ATA. Der einzige Unterschied ist die Skalierung der Daten, bevor die Matrixmultiplikation ausgeführt wird:

  • Streumatrix: keine Skalierung
  • Kovarianzmatrix: der Mittelwert jeder Variablen wird vor der Multiplikation subtrahiert
  • (Kreuz-)Korrelationsmatrix: jede Variable wird standardisiert (der Mittelwert wird subtrahiert und dann durch die Standardabweichung dividiert)


Welchen Effekt hat ein einzelner Ausreißers auf diese Matrizen?

Stellen Sie sich vor, Sie haben eine Datenmatrix, die ein Objekt enthält, das Sie verglichen zum Rest der Daten als Ausreißer erkennen. Dieser Ausreißer wird die Matrizen komplett "verfälschen" (speziell die Korrelationsmatrix), indem er eine vorgetäuschte Korrelation zeigt. Diese vorgetäuschte Korrelation kann einen darauf nicht vorbereiteten Benutzer in die Irre führen. Sie können diesen Effekt selber ausprobieren, indem Sie das folgende interaktive Beispiel durchführen.

Seien Sie sehr vorsichtig, wenn Sie Variablen aus der Kreuzkorrelationstabelle auswählen. Ein hoher Korrelationswert könnte seine Ursache in einem einzelnen Ausreißer in der Datenmatrix haben.


Last Update: 2021-08-15