Dimensionsreduktion

Dimensionsreduktion ist eine Sammlung statistischer Methoden, die die Dimension der Daten reduziert und gleichzeitig relevante Informationen bewahrt.

Hochdimensionale Daten sind bei Regierungsbehörden, wissenschaftlichen Erhebungen und in Industrieunternehmen weit verbreitet. Die hohe Dimension und das große Datenvolumen werfen jedoch mindestens zwei Fragen auf:

Man muss den Fluch der Dimensionalität überwinden, der besagt, dass hochdimensionale Räume auch bei einer großen Anzahl von Beobachtungen von Natur aus spärlich sind.

Wie kann man die Informationen innerhalb der Daten sparsam darstellen?

Die Techniken der Dimensionsreduktion beheben diese Probleme in unterschiedlichem Maße, indem sie die Menge der Variablen auf einen kleineren Satz entweder der ursprünglichen oder von neuen Variablen reduzieren, wobei die neuen Variablen lineare Kombinationen oder sogar nichtlineare Funktionen der ursprünglichen Variablen sind. Wenn die Anzahl der Dimension des neuen Datensatzes relativ klein ist (meist bis etwa 3), wird eine Datenvisualisierung möglich, was die Datenmodellierung oft erheblich erleichtert.

Der Umgang mit hoher Dimensionalität kann für Algorithmen des maschinellen Lernens schwierig sein. Eine hohe Dimensionalität erhöht die Komplexität der Berechnung und erhöht das Risiko einer Überanpassung (da der Algorithmus mehr Freiheitsgrade besitzt).

Methoden

Die Techniken der Dimensionsreduktion lassen sich in zwei Hauptkategorien einteilen: überwachte Dimensionsreduktion (supervised dimension reduction) und unüberwachte Dimensionsreduktion (unsupervised dimension reduction).

Die unüberwachte Dimensionsreduktion behandelt alle Variablen gleich. Die Analyse hat in der Regel eine natürliche Definition über die Informationen die uns interessiert. Unüberwachte Methoden zur Dimensionsreduktion finden einen neuen Satz einer kleineren Anzahl von Variablen, die entweder eine einfachere Darstellung bieten oder eine intrinsische Struktur in den Daten unter Beibehaltung der meisten wichtigen Informationen beibehalten. Nachfolgend sind nur einige der am häufigsten verwendeten Techniken aufgeführt.

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (principle component analysis, PCA) findet einige wenige orthogonale Linearkombinationen der ursprünglichen Variablen mit den größten Abweichungen; diese Linearkombinationen sind die Hauptkomponenten, die für spätere Analysen beibehalten würden. In der PCA ist diese Information die Variation innerhalb der Daten. In der Regel werden die Hauptkomponenten in absteigender Reihenfolge nach ihrer Varianz sortiert. Die Anzahl der Hauptkomponenten, die in die Analyse einbezogen werden sollen, hängt davon ab, wie viel Varianz erhalten bleiben soll.

Faktoranalyse

Die Faktoranalyse geht davon aus, dass eine Reihe von Variablen die Beziehungen untereinander durch eine kleinere Reihe von gemeinsamen Faktoren. Es schätzt die gemeinsamen Faktoren mit Annahmen über die Varianz-Kovarianz-Struktur.

Kanonische Korrelationsanalyse

Die kanonische Korrelationsanalyse identifiziert und misst die Assoziation zwischen zwei Sätzen von Zufallsvariablen. Oft findet es für jeden Satz eine lineare Kombination von Variablen, wobei diese beiden neuen Variablen die größte Korrelation aufweisen. Kanonische Korrelation ist in den gleichen Situationen angemessen, in denen eine multiple Regression es auch wäre, wo es aber mehrere interkorrelierte Ausgangsvariablen vorhanden sind.

Korrespondenzanalyse

Die Korrespondenzanalyse ist ein grafisches Werkzeug zur explorativen Datenanalyse einer Kontingenztabelle. Es projiziert die Zeilen und Spalten als Punkte in ein Diagramm, wobei Zeilen (Spalten) ein ähnliches Profil haben, wenn die entsprechenden Punkte dicht beieinander liegen.

Multidimensionale Skalierung

Multidimensionale Skalierung findet eine Projektion der Daten in einen kleineren dimensionalen Raum, so dass die Abstände zwischen den Punkten im neuen Raum die Näherungen in den ursprünglichen Daten widerspiegeln. Die Anzahl der Dimensionen eines MDS-Plots kann 2 überschreiten und wird a priori angegeben.

Random Forests

Random Forests eignen sich nicht nur als effektive Klassifikatoren, sondern auch für die Featureauswahl. Ein Ansatz zur Reduzierung der Dimensionalität besteht darin, eine große und sorgfältig konstruierte Menge von Decision Trees (Entscheidungsbäumen) gegen ein Zielattribut zu erzeugen und dann die Nutzung jedes Attributs zu verwenden, um die aussagekräftigste Teilmenge von Merkmalen zu finden. Konkret können wir eine große Menge (2000) von sehr flachen Bäumen (2 Ebenen) erzeugen, wobei jeder Baum auf einem kleinen Bruchteil (3) der Gesamtzahl der Attribute trainiert wird. Wenn ein Attribut häufig als bester Split ausgewählt wird, ist es höchstwahrscheinlich ein informatives Feature, das erhalten bleibt. Ein Score, der auf den Attributnutzung im Random Forest berechnet wird, sagt uns – im Vergleich zu den anderen Attributen -, welche die prädiktivsten Attribute sind.