Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Kontingenzkoeffizient

Author: Hans Lohninger

Betrachten wir die Kontingenztafel für zwei nominal skalierte Variablen, so können wir die Häufigkeit des Auftretens einer Merkmalskombination hij bei unkorrelierten Variablen berechnen mit:

hik = hihk/N

Tritt eine Korrelation auf, so werden die tatsächlichen Häufigkeiten Hik von den idealen unkorrelierten Häufigkeiten hik abweichen. Die Differenz Dik zwischen unkorrelierter und tatsächlicher Häufigkeit ergibt sich somit aus

Dik = Hik - hik = Hik - hihk/N

Für unkorrelierte Variablen muss die diese Differenz für jede Zelle jeweils um null herum liegen. Eine Aussage über die Korrelation lässt sich nun treffen wenn man die Häufigkeitsdifferenzen quadriert und aufsummiert und jeweils zu den Idealwerten in Relation setzt:

Dieser χ2-Koeffizient hat allerdings den gravierenden Nachteil, dass der Wert von der Dimension der Kontingenztabelle und vom Stichprobenumfang abhängt. Um die Abhängigkeit vom Stichprobenumfang zu eliminieren, wird der Kontingenzkoeffizient C nach Pearson wie folgt definiert:

Dieser ist allerdings noch von der Dimension der Kontingenztabelle abhängig und muss so normiert werden, dass der Wertebereich des korrigierten Kontingenzkoeffizienten Ccorr sich im Bereich von 0 bis 1 erstreckt:

mit mmin = min(q,p).

Hinweis: Im Gegensatz zum Korrelationskoeffizienten gibt der (korrigierte) Kontingenzkoeffizient nicht die Richtung der Korrelation an, sondern nur die Stärke des Zusammenhangs.


Last Update: 2012-10-18