Chi-Quadrat-Test
Der Chi-Quadrat-Test (χ²-Test) findet sich in vielen Studien wieder, in denen Häufigkeiten verglichen werden. Während beispielsweise der t-Test mindestens die Intervallskala voraussetzt, wird der Chi-Quadrat-Test für nomialskalierte (kategorische) Variablen verwendet. Der Chi-Quadrat-Test macht dann eine Aussage darüber, ob die beobachteten Häufigkeiten sich signifikant von denen unterscheiden, die man erwarten würde.
In diesem Artikel besprechen wir sowohl den χ²-Goodness-of-Fit-Test als auch den χ²-Test für Unabhängigkeit.
χ²-Statistiken werden in vielen wissenschaftlichen Bereichen eingesetzt, unter anderem für Kohortenstudien (Empirie), Fall-Kontroll-Studien (Medizin), Hedging von Optionen (Ökonomie) und Optionspreistheorie (Finanzmathematik).
Die Berechnung des χ²-Wertes erfordert relativ einfache – dafür aber verhältnismäßig viele – Berechnungen. Für jede Zelle in in einer Chi-Quadrat-Tabelle muss folgendes berechnet werden:
Diese Formel muss allerdings für jede Zelle einer Kreuztabelle berechnet werden. Daher wird der Chi-Quadrat-Wert als Summe all dieser Werte berechnet:
Voraussetzungen
Es gibt allerdings auch einige Voraussetzungen und Regeln, die erfüllt sein müssen, damit man den χ²-Test berechnen darf:
- Die erwarteten Häufigkeiten in jeder Zelle müssen größer als 5 sein. Ist dies nicht gegeben, werden die Ergebnisse des χ²-Tests etwas ungenau. Einige Autoren sind sind etwas großzügiger und geben an, dass ein Fünftel aller Zellhäufigkeiten kleiner als 5 sein muss, damit der χ²-Test noch valide Ergebnisse liefert. Andererseits berechnen einige Statistikprogramme Alternativen zum χ²-Test, wenn diese Regel auch nur ein einziges Mal gebrochen wurde.
- Der χ²-Test darf nur auf Häufigkeiten angewendet werden, niemals auf relative Werte, wie beispielsweise Prozentangaben.
- Die Stichprobe ist zufällig entnommen worden.
Ist die erste Bedingung nicht erfüllt, kann alternativ auch der Fisher-Yates-Test (auch exakter χ²-Test genannt) gerechnet werden.
Einschränkungen
- Wie bei allen Signifikanzen ist auch hier die Stichprobengröße von Bedeutung: je größer die Stichprobe, desto eher werden auch kleine Unterschiede signifikant. Daher sagt ein signifikantes Ergebnis erst einmal noch nichts über die Stärke des Effekts (Zusammenhangs) aus.
- Der χ²-Test sagt nur aus, dass es Unterschiede gibt – nicht allerdings die Richtung des Effekts. Man kann daher aus einem signifikant gewordenen χ²-Test nicht ablesen, ob die beobachteten Werte größer oder kleiner sind als die erwarteten, sondern nur, dass es einen Unterschied gibt.
- Der χ²-Wert sagt nichts über die Stärke des Effekts aus. Um die Effektstärke zu berechnen benötigen wir andere Maße wie Cramérs V (2×2 Kreuztabelle) oder den Kontingenzkoeffizient C.
Chi-Quadrat Unabhängigkeitstest
Spalte 1 | Spalte 2 | … | Spalte n | Σ | |
---|---|---|---|---|---|
Zeile 1 | h1,1 | h1,2 | … | h1,n | h1,• |
Zeile 2 | h2,1 | h2,2 | … | h2,n | h2,• |
… | … | … | … | … | … |
Zeile m | hm,1 | hm,2 | … | hm,n | hm,• |
Σ | h•,1 | h•,2 | … | h•,n | h•,• |
Der Chi-Quadrat-Unabhängigkeitstest untersucht, ob eine Häufigkeitsverteilung einer nomialskalierten Variablen stochastisch unabhängig von einer anderen nomialskalierten Variablen ist.
Bei einem Chi-Quadrat Unabhängigkeitstest stellen wir zwei kategorische Variablen gegenüber. Ein einfaches Hilfsmittel hierfür ist eine Kreuztabelle (rechts). In einer Kreuztabelle werden die Ausprägungen einer Variablen in die Spalten geschrieben und die Ausprägungen der anderen Variablen in die Zeilen. In die Zellen (hier mit einem h symbolisiert) werden die Verbundhäufigkeiten beider Variablen geschrieben, also die Häufigkeiten, für die sowohl das Kriterium aus der Zeile wie auch das aus der Spalte zutrifft. In die letzte Spalte werden die Summen aller Werte in der Spalte geschrieben; in der letzten Zeile werden analog alle Werte in der Zeile aufsummiert. Die letzte Zeile in der letzten Spalte (also die Zelle ganz unten rechts), enthält die Summe aller Werte, h•,• (auch als N geschrieben). Die Punkte im Subskript drücken diese Summierung symbolisch aus.
Die Teststatistik des Chi-Quadrat-Unabhängigkeitstest wird wie folgt berechnet:
- H0: Die Zufallsvariablen A und B sind stochastisch unabhängig voneinander
- H1: Die Zufallsvariablen A und B sind stochastisch nicht unabhängig voneinander
Die Freiheitsgrade (df) berechnen sich anhand der Anzahl der Kategorien einer n×m Kreuztabelle der beiden Zufallsvariablen
df = (n − 1) · (m − 1)
Beispiel mit Erklärung
In der Kreuztabelle unter sehen wir die Verteilung von Einkommen auf den höchsten erlangten Bildungsabschluss für 1.000 zufällig befragte Personen. Wir wollen wissen ob diese Verteilung dem entspricht, was wir normalerweise erwartet hätten. Anders gesagt: wir wollen wissen, ob Einkommen und Bildungsabschluss zusammenhängen, ob der Bildungsabschluss einen Einfluss auf das Einkommen hat. Daher lauten unsere Hypothesen:
- H0: Einkommen und der höchste erlangte Bildungsabschluss sind unabhängig
- H1: Einkommen und der höchste erlangte Bildungsabschluss sind nicht unabhängig
Einkommen | kein Schulabschluss |
Hauptschule | Realschule | Abitur | Bachelor/ Master |
Promotion | Σ |
---|---|---|---|---|---|---|---|
unter 1.500 Euro | 17 | 132 | 103 | 95 | 39 | 4 | 390 |
1.500 bis 3.000 Euro | 5 | 6 | 32 | 95 | 92 | 9 | 239 |
über 3.000 Euro | 1 | 12 | 44 | 121 | 148 | 45 | 371 |
Σ | 23 | 150 | 179 | 311 | 279 | 58 | 1.000 |
Nun, da wir die beobachteten Häufigkeiten haben, wie berechnen wir daraus die erwarteten Häufigkeiten?
Erwartete Zellhäufigkeiten
Die erwarteten Zellhäufigkeiten errechnen sich direkt aus den beobachteten. Um sie zu berechnen, wenden wir die die Formel aus der Definition oben auf jede Zelle an. Die Formel berechnet die relative Häufigkeit für die Zeile (\( \dfrac{h_{n,\bullet }}{N} \)) multipliziert mit der relativen Häufigkeit der Spalte (\( \dfrac{h_{\bullet ,m}}{N} \)). Multiplikation bedeutet übersetzt UND. Wir haben somit die relative Häufigkeit des Wertes berechnet, der beide Kriterien erfüllt. Um diese relative in eine absolute Häufigkeit umzuwandeln, müssen wir mit der Stichprobengröße N multiplizieren. Diese Formel lässt sich allerdings zu der Formel oben weiter vereinfachen:
Wenn wir diese Formel auf alle Zellen anwenden, erhalten wir:
Einkommen | kein Schulabschluss |
Hauptschule | Realschule | Abitur | Bachelor/ Master |
Promotion | Σ |
---|---|---|---|---|---|---|---|
unter 1.500 Euro | \( \dfrac{h_{1,\bullet}\cdot h_{\bullet ,1}}{N} \) |
\( \dfrac{h_{1,\bullet}\cdot h_{\bullet ,2}}{N} \) |
\( \dfrac{h_{1,\bullet}\cdot h_{\bullet ,3}}{N} \) |
\( \dfrac{h_{1,\bullet}\cdot h_{\bullet ,4}}{N} \) |
\( \dfrac{h_{1,\bullet}\cdot h_{\bullet ,5}}{N} \) |
\( \dfrac{h_{1,\bullet}\cdot h_{\bullet ,6}}{N} \) |
h1,• |
1.500 bis 3.000 Euro | \( \dfrac{h_{2,\bullet}\cdot h_{\bullet ,1}}{N} \) |
\( \dfrac{h_{2,\bullet}\cdot h_{\bullet ,2}}{N} \) |
\( \dfrac{h_{2,\bullet}\cdot h_{\bullet ,3}}{N} \) |
\( \dfrac{h_{2,\bullet}\cdot h_{\bullet ,4}}{N} \) |
\( \dfrac{h_{2,\bullet}\cdot h_{\bullet ,5}}{N} \) |
\( \dfrac{h_{2,\bullet}\cdot h_{\bullet ,6}}{N} \) |
h2,• |
über 3.000 Euro | \( \dfrac{h_{3,\bullet}\cdot h_{\bullet ,1}}{N} \) |
\( \dfrac{h_{3,\bullet}\cdot h_{\bullet ,2}}{N} \) |
\( \dfrac{h_{3,\bullet}\cdot h_{\bullet ,3}}{N} \) |
\( \dfrac{h_{3,\bullet}\cdot h_{\bullet ,4}}{N} \) |
\( \dfrac{h_{3,\bullet}\cdot h_{\bullet ,5}}{N} \) |
\( \dfrac{h_{3,\bullet}\cdot h_{\bullet ,6}}{N} \) |
h3,• |
Σ | h•,1 | h•,2 | h•,3 | h•,4 | h•,5 | h•,6 | N (h•,•) |
Angewendet auf unseren Beispieldatensatz bedeutet dies, dass wir folgende Werte erwartet hätten:
Einkommen | kein Schulabschluss |
Hauptschule | Realschule | Abitur | Bachelor/ Master |
Promotion | Σ |
---|---|---|---|---|---|---|---|
unter 1.500 Euro | 8,97 | 58,5 | 69,81 | 121,29 | 108,81 | 22,62 | 390 |
1.500 bis 3.000 Euro | 5,497 | 35,85 | 42,781 | 74,329 | 66,681 | 13,862 | 239 |
über 3.000 Euro | 8,533 | 55,65 | 66,409 | 115,381 | 103,509 | 21,518 | 371 |
Σ | 23 | 150 | 179 | 311 | 279 | 58 | 1.000 |
Wie man sehen kann, müssen die erwarteten Häufigkeiten keine ganzen Zahlen sein, auch wenn dies vielleicht der Fragestellung widerspricht. Da wir nun die beobachteten und erwarteten Häufigkeiten haben, können wir gemäß der Formel des χ²-Tests folgendes berechnen:
Unsere Kreuztabelle hat 6 Spalten und 3 Zeilen. Das bedeutet, dass die χ²-Verteilung (6-1) · (3-1) = 10 Freiheitsgrade hat. Wir wollen nun wissen, wie wahrscheinlich es ist einen Wert von 319,28402 oder noch extremer zu bekommen. Über die kumulierte Verteilungsfunktion erhalten wir
Mit einem P-Wert von gerundet Null liegen wir unter unserem vorher festgelegten Signifikanzniveau von 5%. Der χ²-Test ist daher signifikant geworden; wir müssen unsere Nullhypothese ablehnen, da Schulabschluss und Einkommen in unseren Daten nicht unabhängig voneinander sind.
Yates’s Korrektur
Die Yate’s Korrektur ist eine (etwas veraltete) Korrektur der Berechnungsformel, um sicher zu stellen, dass die Daten zu der theoretischen Chi-Quadrat-Verteilung passen. Sie wurde ursprünglich für 2×2 Kreuztabellen entwickelt. Die Yate’s Korrektur lässt sich einfach anwenden, indem 0,5 von dem Betrag des Zählers abgezogen wird, bevor wir ihr quadrieren:
Bei großen erwarteten Zellhäufigkeiten hat die Yates’s Korrektur praktisch keinen Effekt. Bei kleinen erwarteten Zellhäufigkeiten wird die Prüfgröße und damit auch die statistische Signifikanz vermindert. Auch wenn wir die Yate’s Korrektur in unseren Beispielen und Berechnungen nicht verwenden, kann man dies tun. Die Entscheidung ob nach Yates’s korrigiert wird oder nicht liegt also bei dem Statistiker.
Chi-Quadrat Goodness-of-Fit-Test
Der Chi-Quadrat Goodness-of-Fit-Test untersucht, wie gut eine beobachtete Häufigkeitsverteilung einer nominalen Variablen einer erwarteten Häufigkeitsverteilung entspricht. Goodness-of-Fit wird auch Anpassungsgüte oder einfach nur Anpassung genannt.
Die Prüfgröße χ² wird wie folgt berechnet:
Mit den Hypothesen:
- H0: Die Zufallsvariable besitzt die angegebene Verteilung
- H1: Die Zufallsvariable besitzt nicht die angegebene Verteilung
Freiheitsgrade: Anzahl der möglichen Ausprägungen der Variable − 1.
Beispiel mit Erklärung
monatliches Haushaltsnettoeinkommen |
Anteil, in Prozent |
Umfrage |
---|---|---|
unter 1.300 Euro | 18,8 | 110 |
1.300 bis 2.600 Euro | 32,8 | 176 |
2.600 bis 3.600 Euro | 18,7 | 73 |
3.600 bis 5.000 Euro | 15,6 | 80 |
mehr als 5.000 Euro | 14,0 | 61 |
Das Statistische Bundesamt erstellt regelmäßig Statistiken zu den Einkommensverhältnissen in Deutschland. Dessen Angaben für das Jahr 2011 sind in der Tabelle rechts zusammengefasst. Im Jahr {Y} wurde erneut eine Umfrage unter 500 zufällig ausgewählten Personen durchgeführt. Wir wollen wissen, ob sich die Einkommensverhältnisse in Deutschland statistisch signifikant innerhalb dieser Jahre verändert haben.
Zuerst müssen wir die Hypothesen aufstellen. Diese lauten für diese Fragestellung:
- H0: Die Verteilung der Haushaltsnettoeinkommen aus dem {Y} ist gleich der aus dem Jahr 2011
- H1: Die Verteilung der Haushaltsnettoeinkommen aus dem {Y} ist nicht gleich der aus dem Jahr 2011
Wir prüfen auf einem Signifikanzniveau von 5%.
Das Konzept hinter dem χ² Goodness-of-Fit-Tests ist, die beobachteten Häufigkeiten mit den erwarteten Häufigkeit zu vergleichen, unter der Annahme, dass die Verteilung aus dem Jahr {Y} der aus 2011 entspricht. Entsprechen die beobachtete Häufigkeit etwa der erwarteten, dann lehnen wir die Nullhypothese nicht ab.
Um allerdings diese Fragestellung beantworten zu können, müssen wir folgende Fragen beantworten:
- Welche Häufigkeiten können wir aus unserer Stichprobe von 500 Personen erwarten, wenn beide Verteilungen gleich sind?
- Wie können wir entscheiden, ob beide Verteilungen gleich sind?
Die erste Frage lässt sich einfach beantworten: Wenn beide Verteilungen gleich sind, müssten wir erwarten, dass die beobachteten Werte (ungefähr) mit den erwarteten übereinstimmen. In unserem Beispiel haben wir 176 Personen, die zwischen 1.300 und 2.600 Euro pro Monat verdienen; erwartet haben wir 32,8% · 500 = 164. Wir können daher die erwarteten Häufigkeiten mit der einfachen Formel E = n · p berechnen, wobei n die Stichprobengröße ist und p die relative Häufigkeit. Mit dieser Formel können wir die erwarteten Häufigkeiten für alle weiteren Einkommensstufen berechnen.
Einkommensstufe | beobachtete Häufigkeit B |
erwartete Häufigkeit E E = n · p |
Differenz B − E |
Quadrat der Differenz (B − E)² |
χ² (B − E)²/E |
---|---|---|---|---|---|
unter 1.300 Euro | 110 | 94 | 16 | 256 | 2,7234 |
1.300 bis 2.600 Euro | 176 | 164 | 12 | 144 | 0,87805 |
2.600 bis 3.600 Euro | 73 | 93,5 | -20,5 | 420,25 | 4,49465 |
3.600 bis 5.000 Euro | 80 | 78 | 2 | 4 | 0,05128 |
mehr als 5.000 Euro | 61 | 70,5 | -9,5 | 81 | 1,14894 |
Σ | 500 | 500 | 0 | 9,29632 |
Um die Anpassungsgüte der beobachteten und erwarteten Häufigkeiten zu bestimmen, müssen wir die Differenz dieser beiden Werte betrachten, welche in der vierten Spalte der Tabelle zu finden ist. Allerdings ist dieser Wert nicht sehr hilfreich, da seine Summe immer Null ist. Daher quadrieren wir die Differenz (fünfte Spalte) und teilen sie durch die korrespondierende erwartete Häufigkeit (sechste Spalte). Dieser Wert ist die χ²-Zwischensumme. Die Summe aller χ²-Zwischensummen ist der χ²-Wert,
den wir als Prüfgröße für die Anpassungsgüte der beobachteten und erwarteten Häufigkeiten verwenden. Wenn die Nullhypothese H0 wahr ist, sollten die beobachteten und die erwarteten Häufigkeiten annähernd übereinstimmen. Daher sollte die Prüfgröße ein Wert nahe Null sein.
Wenn die Nullhypothese wahr ist, sollte die Differenz der beobachteten und erwarteten Häufigkeiten klein sein, und damit die daraus berechnete Prüfgröße auch. Im Umkehrschluss bedeutet dies auch, dass größere Prüfgrößen darauf hindeutet, dass die Nullhypothese falsch ist.
Wie wir berechnet haben, ist in unserem Beispiel der χ²-Wert 9,29632. Ist dieser Wert immer noch klein genug, dass man behaupten könnte, er käme allein durch einen Stichprobenfehler zustande, oder ist er groß genug, dass wir die Nullhypothese ablehnen müssen. Um diese Frage zu beantworten, müssen wir die Verteilungsfunktion des χ²-Wertes kennen.
Die unterliegende Verteilungsfunktion ist die Chi-Quadrat-Verteilung (χ²-Verteilung), die einen weiteren Parameter besitzt, der ihr Aussehen und damit auch die Berechnungsgrundlage verändert. Dieser Parameter heißt Freiheitsgrade (englisch: degrees of freedom). Wie sich eine Veränderung der Freiheitsgrade auf die χ²-Verteilung auswirkt, kann in der interaktiven Verteilungsfunktion unten erkundet werden. In unserem Beispiel hat die Variable fünf Ausprägungen (Einkommensstufen), daher haben wir 4 Freiheitsgrade. Daraus errechnet sich
Da wir für die Anpassungsgüte immer rechtsseitig testen, müssen wir Eins von dem Funktionswert der Verteilungsfunktion subtrahieren. Mit einem P-Wert über 0,05 können wir die Nullhypothese nicht ablehnen. (Der P-Wert kann mit unserem Rechner für die χ²-Verteilung berechnet werden.) Wir können also davon ausgehen, dass die beobachteten Werte innerhalb des statistischen Rahmens, das wir über den α-Wert von 5% festgelegt haben, mit den erwarteten übereinstimmen. Konkret bedeutet dies, dass sich das Einkommen in unserer Stichprobe von {Y} statistisch nicht von der Einkommensverteilung aus dem Jahr 2011 unterscheidet.
Eigenschaften der Chi-Quadrat-Verteilung
Eigenschaft | Wert |
---|---|
Parameter | \( v \in \mathbb{N}_{>0} \;\;\text{Freiheitsgrade} \) |
Wertebereich | x ≥ 0 |
Verteilungsfunktion | \( f(x,v) \,=\, \dfrac{x^{\frac{v}{2}-1} e^{-\frac{x}{2}}}{2^{\frac{v}{2}}\Gamma\left(\frac{v}{2}\right)} \) |
Dichtefunktion | \( F(x,v) \,=\, \int_{0}^{x}\displaystyle\frac{x^{\frac{v}{2}-1} e^{-\frac{x}{2}}}{2^{\frac{v}{2}}\Gamma\left(\frac{v}{2}\right)} \,=\, \frac{\gamma\left(\frac{v}{2},\,\frac{x}{2}\right)}{\Gamma\left(\frac{v}{2}\right)} \) |
Mittelwert | v |
Median | \( \approx v\bigg(1-\frac{2}{9v}\bigg)^3 \) |
Modus | \( \operatorname{max}\!\big(v-2;\; 0\big) \) |
Varianz | 2 · v |
Schiefe | \( \sqrt{\dfrac{8}{v}} \) |
Die χ²-Verteilung ist die unterliegende Verteilungsfunktion aller χ²-Tests. Sie ist gleichzeitig eine der am häufigsten verwendeten Verteilungen in der Interferenzstatistik, mit zahlreichen Anwendungen in vielen wissenschaftlichen Disziplinen.
Die Chi-Quadrat-Verteilung hat folgende Charakteristika:
- Die gesamte Fläche, die von der χ²-Kurve eingeschlossen wird, ist 1
- Die χ²-Kurve ist auf der x-Achse definiert ab 0 und erstreckt sich bis in die positive Unendlichkeit
- Sie ist rechtsschief bzw. linkssteil
- Je höher die Freiheitsgrade sind, desto ähnlicher wird die χ²-Kurve der Normalverteilung
- Es gibt unendliche viele χ²-Kurven, deren Aussehen durch die Freiheitsgrade definiert wird
- Die χ²-Kurve ist asymmetrisch; je größer die Freiheitsgrade werden, desto symmetrischer wird sie
In der Tabelle rechts ist Γ(x) die Gammafunktion. Sie funktioniert wie die Fakultätsfunktion, nur für alle reellen (und komplexen) Zahlen. Wenn ihr Funktionsargument x eine natürliche Zahl ist, gilt Γ(x) = (x–1)!
Interaktive Chi-Quadrat-Verteilung
Freiheitsgrade (df)
Chi-Quadrat-Rechner
Mit dem Rechner lassen sich die Verteilungsfunktion, die kumulierte Verteilungsfunktion sowie die Quantile und Konfidenzintervalle der Chi-Quadrat-Verteilung berechnen.
$$ \large P(X=k) \,=\, f(k;\, n,\, p) \,=\, {n\choose k}\cdot p^k\cdot (1-p)^{n-k} $$
Berechnungsergebnis
$$ \large F(k;\, n,\, p) \,=\, P(X \le k) \,=\, \sum_{i=0}^{\lfloor k \rfloor} {n\choose i}\cdot p^i\cdot (1-p)^{n-i} $$
Berechnungsergebnis
$$ \large P(X \ge k) \,=\, \sum_{i=\lfloor k \rfloor}^{n} {n\choose i}\cdot p^i\cdot (1-p)^{n-i} $$