Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Verteilung des Korrelationskoeffizienten

Author: Hans Lohninger

Diese Simulation ermöglicht es, die Verteilung des Korrelationskoeffizienten in Abhängigkeit der Stichprobengröße zu ermitteln. Klicken Sie auf das Bild, um die Applikation zu starten und selbst zu experimentieren.
Nehmen wir an, wir beobachten einen Prozess, der durch zwei Variablen beschrieben werden kann (es könnte sich z.B. um Temperatur und Fließgeschwindigkeit in einer chemischen Anlage handeln), und nehmen wir weiters an, dass die beiden gemessenen Variablen unkorreliert sind. Das bedeutet, dass man bei Messung sehr vieler Werte der beiden Variablen einen Korrelationskoeffizienten von ca. null beobachten wird.

Da die Messung sehr vieler Werte aber zu zeitraubend ist, messen wir nur jeweils eine kleine Zahl an Werten (z.B. fünf) und berechnen die Korrelation dieser fünf Werte. Die Messung dieser kleinen Zahl an Werten wird mehrmals wiederholt. Wir werden nun feststellen, dass der tatsächlich ermittelte Wert der Korrelation manchmal ganz erheblich vom eigentlich erwarteten Wert null abweicht. Wiederholen wir das Experiment sehr oft, so können wir die Häufigkeiten der Korrelationswerte in einem Histogramm zusammenfassen und erhalten dadurch die Verteilung des Korrelationskoeffizienten (siehe Experiment rechts).

Der Korrelationskoeffizient r ist eine Zufallsvariable, die wie jede Zufallsvariable einer Verteilungsfunktion unterliegt. Die Breite und die Form der Verteilung ist vom Populations-Wert des Korrelationskoeffizienten ρ und von der Zahl der Proben n abhängig.

In den Abbildungen der Verteilungsfunktionen oben kann man sehen, dass es eine erhebliche Chance gibt, einen deutlich von null abweichenden Korrelationskoeffizienten zu erhalten, falls nur wenige Beobachtungen vorliegen. Ein hoher Korrelationskoeffizient repräsentiert also nicht notwendigerweise eine hohe Korrelation zwischen zwei Variablen. Der Grund für eine hohe zufällige Korrelation kann auch die geringe Stichprobengröße sein. Speziell bei vier Stichprobenwerten ist die Wahrscheinlichkeit einen beliebigen Korrelationskoeffizienten zu erhalten immer gleich groß.

Als Konsequenz dieses Effekts muss immer auch die Signifikanz des Korrelationskoeffizienten getestet werden. Als Daumenregel kann man sich merken, dass bei 10 Beobachtungen der Korrelationskoeffizient mindestens 0.8 sein muss, damit er sich signifikant von null unterscheidet. Bei 20 Beobachtungen liegt diese Grenze bei ca. 0.5.


Last Update: 2012-10-08