Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Variablenauswahl - Übersicht

Author: Hans Lohninger

Obwohl manchmal eine große Menge an unabhängigen Variablen, Xi, für ein gegebenes Modellierungsproblem verfügbar ist, tragen nicht alle dieser Variablen gleich gut zur Erklärung der vorausgesagten Variablen Y bei. Manche der unabhängigen Variablen werden überhaupt keinen Beitrag zum Modell liefern, andere nur im Verbund mit anderen. Wir müssen aus diesen Variablen einige auswählen, um so ein Modell zu erhalten, das möglichst wenige Variablen enthält und trotzdem die "beste" Performance aufweist. Im Prinzip sollten alle möglichen Kombinationen von unabhängigen Variablen ausprobiert werden. In den meisten Fällen erweist sich das aber als undurchführbar, selbst wenn leistungsstarke Computer verwendet werden. Daneben gibt es auch noch einige theoretische Bedenken, die mit einbezogen werden sollten:

  • Alle möglichen Kombinationen auszuprobieren, kann zu Zufallskorrelationen führen.
  • Der Beitrag einer einzigen Variablen zur Erklärung von Y ist meist nicht leicht zu beurteilen, wenn nur eine geringe Zahl an Beobachtungen verfügbar ist.
  • Ein einfaches Kriterium, wie das Quadrat des Korrelationskoeffizienten, r2, kann zu falschen Schlussfolgerungen führen, wenn die Zahl der ausgewählten Variablen der Zahl der Beobachtungen nahe kommt.
  • Für kompliziertere Modelle (z.B. künstliche neuronale Netzwerke) kann die Berechnung eines einzelnen Modells so zeitaufwendig sein, dass es praktisch unmöglich ist, die "beste" Kombination der unabhängigen Variablen zu finden.
  • Die Auswahl der Kombinationen wird durch die verfügbaren Daten geleitet; deshalb reflektiert die resultierende Endauswahl das "beste" Modell für den gegebenen Datensatz und nicht die "beste" Untermenge für die Grundgesamtheit.
  • Einige der Selektionsmethoden sind speziell auf die lineare Regression zugeschnitten; sie sind für nicht lineare Methoden, wie z.B. neuronale Netzwerke, nicht verwendbar.
Abhängig vom Typ des Modells, das verwendet wird, gibt es einige Strategien, zur (teilweisen) Lösung des Problems:

Bei Verwendung aller möglichen Untermengen an Variablen:

Schrittweise Prozeduren:


Last Update: 2012-10-08