Regression - Annahmen
Author: Hans Lohninger
So wie jede andere Methode basiert auch die lineare Regression auf Annahmen,
die erfüllt sein müssen, um ein korrektes Ergebnis zu erzielen:
- Der erwartete Zusammenhang zwischen X und Y ist linear: Man sollte
sorgfältig zwischen linearen, krummlinigen (kurvilinearen) und nicht linearen
Zusammenhängen unterscheiden. Während krummlinige Zusammenhänge in lineare transformiert werden
können, ist das bei nicht linearen Zusammenhängen nicht möglich.
- Alle Messungen sind voneinander unabhängig; jeder Trend über die Zeit oder eine gemeinsame Korrelation mit einer dritten Variablen müssen vermieden werden.
- Für jedes X sind die Y-Werte normal verteilt (vgl. auch den Hinweis auf den DataLab-Blog unten).
- Für jedes X hat die Y-Verteilung dieselbe Varianz (homoskedastische Daten). Diese
Anforderung wird oft nicht erfüllt, besonders dann nicht, wenn die Daten einen
großen Bereich abdecken (verschiedene Größenordnungen).
Diese Annahmen sollten durch Überprüfung der Daten und der
Residuen kontrolliert werden. Man sollte immer auf das X-Y-Diagramm, das
Histogramm der Residuen und den Residuenplot (Residuen aufgetragen gegen Xi), achten. Weiters ist zu überprüfen, ob die Residuen unkorreliert sind (z.B. mit dem Durbin-Watson-Test), da sonst die Konfidenzintervalle der Parameter falsch geschätzt werden.
|