MatheGuru Logo

Chi-Quadrat-Test

Der Chi-Quadrat-Test (χ²-Test) findet sich in vielen Studien wieder, in denen Häufigkeiten verglichen werden. Während beispielsweise der t-Test mindestens die Intervallskala voraussetzt, wird der Chi-Quadrat-Test für nomialskalierte (kategorische) Variablen verwendet. Der Chi-Quadrat-Test macht dann eine Aussage darüber, ob die beobachteten Häufigkeiten sich signifikant von denen unterscheiden, die man erwarten würde.

In diesem Artikel besprechen wir sowohl den χ²-Goodness-of-Fit-Test als auch den χ²-Test für Unabhängigkeit.

χ²-Statistiken werden in vielen wissenschaftlichen Bereichen eingesetzt, unter anderem für Kohortenstudien (Empirie), Fall-Kontroll-Studien (Medizin), Hedging von Optionen (Ökonomie) und Optionspreistheorie (Finanzmathematik).

Die Berechnung des χ²-Wertes erfordert relativ einfache – dafür aber verhältnismäßig viele – Berechnungen. Für jede Zelle in in einer Chi-Quadrat-Tabelle muss folgendes berechnet werden:

Diese Formel muss allerdings für jede Zelle einer Kreuztabelle berechnet werden. Daher wird der Chi-Quadrat-Wert als Summe all dieser Werte berechnet:

{Index}

Voraussetzungen

Es gibt allerdings auch einige Voraussetzungen und Regeln, die erfüllt sein müssen, damit man den χ²-Test berechnen darf:

  1. Die erwarteten Häufigkeiten in jeder Zelle müssen größer als 5 sein. Ist dies nicht gegeben, werden die Ergebnisse des χ²-Tests etwas ungenau. Einige Autoren sind sind etwas großzügiger und geben an, dass ein Fünftel aller Zellhäufigkeiten kleiner als 5 sein muss, damit der χ²-Test noch valide Ergebnisse liefert. Andererseits berechnen einige Statistikprogramme Alternativen zum χ²-Test, wenn diese Regel auch nur ein einziges Mal gebrochen wurde.
  2. Der χ²-Test darf nur auf Häufigkeiten angewendet werden, niemals auf relative Werte, wie beispielsweise Prozentangaben.
  3. Die Stichprobe ist zufällig entnommen worden.

Ist die erste Bedingung nicht erfüllt, kann alternativ auch der Fisher-Yates-Test (auch exakter χ²-Test genannt) gerechnet werden.

Einschränkungen

  • Wie bei allen Signifikanzen ist auch hier die Stichprobengröße von Bedeutung: je größer die Stichprobe, desto eher werden auch kleine Unterschiede signifikant. Daher sagt ein signifikantes Ergebnis erst einmal noch nichts über die Stärke des Effekts (Zusammenhangs) aus.
  • Der χ²-Test sagt nur aus, dass es Unterschiede gibt – nicht allerdings die Richtung des Effekts. Man kann daher aus einem signifikant gewordenen χ²-Test nicht ablesen, ob die beobachteten Werte größer oder kleiner sind als die erwarteten, sondern nur, dass es einen Unterschied gibt.
  • Der χ²-Wert sagt nichts über die Stärke des Effekts aus. Um die Effektstärke zu berechnen benötigen wir andere Maße wie Cramérs V (2×2 Kreuztabelle) oder den Kontingenzkoeffizient C.

Chi-Quadrat Unabhängigkeitstest

  Spalte 1 Spalte 2 ... Spalte n Σ
Zeile 1 h1,1 h1,2 ... h1,n h1,•
Zeile 2 h2,1 h2,2 ... h2,n h2,•
... ... ... ... ... ...
Zeile m hm,1 hm,2 ... hm,n hm,•
Σ h•,1 h•,2 ... h•,n h•,•

Der Chi-Quadrat-Unabhängigkeitstest untersucht, ob eine Häufigkeitsverteilung einer nomialskalierten Variablen stochastisch unabhängig von einer anderen nomialskalierten Variablen ist.

Bei einem Chi-Quadrat Unabhängigkeitstest stellen wir zwei kategorische Variablen gegenüber. Ein einfaches Hilfsmittel hierfür ist eine Kreuztabelle (rechts). In einer Kreuztabelle werden die Ausprägungen einer Variablen in die Spalten geschrieben und die Ausprägungen der anderen Variablen in die Zeilen. In die Zellen (hier mit einem h symbolisiert) werden die Verbundhäufigkeiten beider Variablen geschrieben, also die Häufigkeiten, für die sowohl das Kriterium aus der Zeile wie auch das aus der Spalte zutrifft. In die letzte Spalte werden die Summen aller Werte in der Spalte geschrieben; in der letzten Zeile werden analog alle Werte in der Zeile aufsummiert. Die letzte Zeile in der letzten Spalte (also die Zelle ganz unten rechts), enthält die Summe aller Werte, h•,• (auch als N geschrieben). Die Punkte im Subskript drücken diese Summierung symbolisch aus.

Definition

Die Teststatistik des Chi-Quadrat-Unabhängigkeitstest wird wie folgt berechnet:

  • H0: Die Zufallsvariablen A und B sind stochastisch unabhängig voneinander
  • H1: Die Zufallsvariablen A und B sind stochastisch nicht unabhängig voneinander

Die Freiheitsgrade (df) berechnen sich anhand der Anzahl der Kategorien einer n×m Kreuztabelle der beiden Zufallsvariablen

df = (n − 1) · (m − 1)

Beispiel mit Erklärung

SchulabschlussIn der Kreuztabelle unter sehen wir die Verteilung von Einkommen auf den höchsten erlangten Bildungsabschluss für 1.000 zufällig befragte Personen. Wir wollen wissen ob diese Verteilung dem entspricht, was wir normalerweise erwartet hätten. Anders gesagt: wir wollen wissen, ob Einkommen und Bildungsabschluss zusammenhängen, ob der Bildungsabschluss einen Einfluss auf das Einkommen hat. Daher lauten unsere Hypothesen:

  • H0: Einkommen und der höchste erlangte Bildungsabschluss sind unabhängig
  • H1: Einkommen und der höchste erlangte Bildungsabschluss sind nicht unabhängig
Einkommen  kein
Schulabschluss
Hauptschule Realschule Abitur Bachelor/
Master
Promotion Σ
unter 1.500 Euro 17 132 103 95 39 4 390
1.500 bis 3.000 Euro 5 6 32 95 92 9 239
über 3.000 Euro 1 12 44 121 148  45 371
Σ 23 150 179 311 279 58 1.000

Nun, da wir die beobachteten Häufigkeiten haben, wie berechnen wir daraus die erwarteten Häufigkeiten?

Erwartete Zellhäufigkeiten

Die erwarteten Zellhäufigkeiten errechnen sich direkt aus den beobachteten. Um sie zu berechnen, wenden wir die die Formel aus der Definition oben auf jede Zelle an. Die Formel berechnet die relative Häufigkeit für die Zeile () multipliziert mit der relativen Häufigkeit der Spalte (). Multiplikation bedeutet übersetzt UND. Wir haben somit die relative Häufigkeit des Wertes berechnet, der beide Kriterien erfüllt. Um diese relative in eine absolute Häufigkeit umzuwandeln, müssen wir mit der Stichprobengröße N multiplizieren. Diese Formel lässt sich allerdings zu der Formel oben weiter vereinfachen:

Wenn wir diese Formel auf alle Zellen anwenden, erhalten wir:

 Einkommen kein
Schulabschluss
Hauptschule Realschule Abitur Bachelor/
Master
Promotion Σ
unter 1.500 Euro h1,•
1.500 bis 3.000 Euro h2,•
über 3.000 Euro h3,•
Σ h•,1 h•,2 h•,3 h•,4 h•,5 h•,6 N
(h•,•)

 

Angewendet auf unseren Beispieldatensatz bedeutet dies, dass wir folgende Werte erwartet hätten: 

Einkommen kein
Schulabschluss
Hauptschule Realschule Abitur Bachelor/
Master
Promotion Σ
unter 1.500 Euro 8,97 58,5 69,81 121,29 108,81 22,62 390
1.500 bis 3.000 Euro 5,497 35,85 42,781 74,329 66,681 13,862 239
über 3.000 Euro 8,533 55,65 66,409 115,381 103,509 21,518 371
Σ 23 150 179 311 279 58 1.000

Wie man sehen kann, müssen die erwarteten Häufigkeiten keine ganzen Zahlen sein, auch wenn dies vielleicht der Fragestellung widerspricht. Da wir nun die beobachteten und erwarteten Häufigkeiten haben, können wir gemäß der Formel des χ²-Tests folgendes berechnen:

Unsere Kreuztabelle hat 6 Spalten und 3 Zeilen. Das bedeutet, dass die χ²-Verteilung (6-1) · (3-1) = 10 Freiheitsgrade hat. Wir wollen nun wissen, wie wahrscheinlich es ist einen Wert von 319,28402 oder noch extremer zu bekommen. Über die kumulierte Verteilungsfunktion erhalten wir

Mit einem P-Wert von gerundet Null liegen wir unter unserem vorher festgelegten Signifikanzniveau von 5%. Der χ²-Test ist daher signifikant geworden; wir müssen unsere Nullhypothese ablehnen, da Schulabschluss und Einkommen in unseren Daten nicht unabhängig voneinander sind.

Yates's Korrektur

Die Yate's Korrektur ist eine (etwas veraltete) Korrektur der Berechnungsformel, um sicher zu stellen, dass die Daten zu der theoretischen Chi-Quadrat-Verteilung passen. Sie wurde ursprünglich für 2×2 Kreuztabellen entwickelt. Die Yate's Korrektur lässt sich einfach anwenden, indem 0,5 von dem Betrag des Zählers abgezogen wird, bevor wir ihr quadrieren:

Bei großen erwarteten Zellhäufigkeiten hat die Yates's Korrektur praktisch keinen Effekt. Bei kleinen erwarteten Zellhäufigkeiten wird die Prüfgröße und damit auch die statistische Signifikanz vermindert. Auch wenn wir die Yate's Korrektur in unseren Beispielen und Berechnungen nicht verwenden, kann man dies tun. Die Entscheidung ob nach Yates's korrigiert wird oder nicht liegt also bei dem Statistiker.

Chi-Quadrat Goodness-of-Fit-Test

Der Chi-Quadrat Goodness-of-Fit-Test untersucht, wie gut eine beobachtete Häufigkeitsverteilung einer nominalen Variablen einer erwarteten Häufigkeitsverteilung entspricht. Goodness-of-Fit wird auch Anpassungsgüte oder einfach nur Anpassung genannt.

Definition

Die Prüfgröße χ² wird wie folgt berechnet:

Mit den Hypothesen:

  • H0: Die Zufallsvariable besitzt die angegebene Verteilung
  • H1: Die Zufallsvariable besitzt nicht die angegebene Verteilung

Freiheitsgrade: Anzahl der möglichen Ausprägungen der Variable − 1.

Beispiel mit Erklärung

monatliches
Haushaltsnettoeinkommen
Anteil,
in Prozent
Umfrage
unter 1.300 Euro 18,8 110
1.300 bis 2.600 Euro 32,8 176
2.600 bis 3.600 Euro 18,7 73
3.600 bis 5.000 Euro 15,6 80
mehr als 5.000 Euro 14,0 61

Das Statistische Bundesamt erstellt regelmäßig Statistiken zu den Einkommensverhältnissen in Deutschland. Dessen Angaben für das Jahr 2011 sind in der Tabelle rechts zusammengefasst. Im Jahr {Y} wurde erneut eine Umfrage unter 500 zufällig ausgewählten Personen durchgeführt. Wir wollen wissen, ob sich die Einkommensverhältnisse in Deutschland statistisch signifikant innerhalb dieser Jahre verändert haben.

Zuerst müssen wir die Hypothesen aufstellen. Diese lauten für diese Fragestellung:

  • H0: Die Verteilung der Haushaltsnettoeinkommen aus dem {Y} ist gleich der aus dem Jahr 2011
  • H1: Die Verteilung der Haushaltsnettoeinkommen aus dem {Y} ist nicht gleich der aus dem Jahr 2011

Wir prüfen auf einem Signifikanzniveau von 5%.

HaushaltsnettoeinkommenDas Konzept hinter dem χ² Goodness-of-Fit-Tests ist, die beobachteten Häufigkeiten mit den erwarteten Häufigkeit zu vergleichen, unter der Annahme, dass die Verteilung aus dem Jahr {Y} der aus 2011 entspricht. Entsprechen die beobachtete Häufigkeit etwa der erwarteten, dann lehnen wir die Nullhypothese nicht ab.

Um allerdings diese Fragestellung beantworten zu können, müssen wir folgende Fragen beantworten:

  1. Welche Häufigkeiten können wir aus unserer Stichprobe von 500 Personen erwarten, wenn beide Verteilungen gleich sind?
  2. Wie können wir entscheiden, ob beide Verteilungen gleich sind?

Die erste Frage lässt sich einfach beantworten: Wenn beide Verteilungen gleich sind, müssten wir erwarten, dass die beobachteten Werte (ungefähr) mit den erwarteten übereinstimmen. In unserem Beispiel haben wir 176 Personen, die zwischen 1.300 und 2.600 Euro pro Monat verdienen; erwartet haben wir 32,8% · 500 = 164. Wir können daher die erwarteten Häufigkeiten mit der einfachen Formel E = n · p berechnen, wobei n die Stichprobengröße ist und p die relative Häufigkeit. Mit dieser Formel können wir die erwarteten Häufigkeiten für alle weiteren Einkommensstufen berechnen.

Einkommensstufe beobachtete
Häufigkeit B
erwartete
Häufigkeit E
E = n · p
Differenz
B − E
Quadrat der Differenz
(B − E
χ²
(B − E)²/E
unter 1.300 Euro 110 94 16 256 2,7234
1.300 bis 2.600 Euro 176 164 12 144 0,87805
2.600 bis 3.600 Euro 73 93,5 -20,5 420,25 4,49465
3.600 bis 5.000 Euro 80 78 2 4 0,05128
mehr als 5.000 Euro 61 70,5 -9,5 81 1,14894
Σ 500 500 0   9,29632

Um die Anpassungsgüte der beobachteten und erwarteten Häufigkeiten zu bestimmen, müssen wir die Differenz dieser beiden Werte betrachten, welche in der vierten Spalte der Tabelle zu finden ist. Allerdings ist dieser Wert nicht sehr hilfreich, da seine Summe immer Null ist. Daher quadrieren wir die Differenz (fünfte Spalte) und teilen sie durch die korrespondierende erwartete Häufigkeit (sechste Spalte). Dieser Wert ist die χ²-Zwischensumme. Die Summe aller χ²-Zwischensummen ist der χ²-Wert,

den wir als Prüfgröße für die Anpassungsgüte der beobachteten und erwarteten Häufigkeiten verwenden. Wenn die Nullhypothese H0 wahr ist, sollten die beobachteten und die erwarteten Häufigkeiten annähernd übereinstimmen. Daher sollte die Prüfgröße ein Wert nahe Null sein.

Wenn die Nullhypothese wahr ist, sollte die Differenz der beobachteten und erwarteten Häufigkeiten klein sein, und damit die daraus berechnete Prüfgröße auch. Im Umkehrschluss bedeutet dies auch, dass größere Prüfgrößen darauf hindeutet, dass die Nullhypothese falsch ist.

Wie wir berechnet haben, ist in unserem Beispiel der χ²-Wert 9,29632. Ist dieser Wert immer noch klein genug, dass man behaupten könnte, er käme allein durch einen Stichprobenfehler zustande, oder ist er groß genug, dass wir die Nullhypothese ablehnen müssen. Um diese Frage zu beantworten, müssen wir die Verteilungsfunktion des χ²-Wertes kennen.

Die unterliegende Verteilungsfunktion ist die Chi-Quadrat-Verteilung (χ²-Verteilung), die einen weiteren Parameter besitzt, der ihr Aussehen und damit auch die Berechnungsgrundlage verändert. Dieser Parameter heißt Freiheitsgrade (englisch: degrees of freedom). Wie sich eine Veränderung der Freiheitsgrade auf die χ²-Verteilung auswirkt, kann in der interaktiven Verteilungsfunktion unten erkundet werden. In unserem Beispiel hat die Variable fünf Ausprägungen (Einkommensstufen), daher haben wir 4 Freiheitsgrade. Daraus errechnet sich

Da wir für die Anpassungsgüte immer rechtsseitig testen, müssen wir Eins von dem Funktionswert der Verteilungsfunktion subtrahieren. Mit einem P-Wert über 0,05 können wir die Nullhypothese nicht ablehnen. (Der P-Wert kann mit unserem Rechner für die χ²-Verteilung berechnet werden.) Wir können also davon ausgehen, dass die beobachteten Werte innerhalb des statistischen Rahmens, das wir über den α-Wert von 5% festgelegt haben, mit den erwarteten übereinstimmen. Konkret bedeutet dies, dass sich das Einkommen in unserer Stichprobe von {Y} statistisch nicht von der Einkommensverteilung aus dem Jahr 2011 unterscheidet. 

Eigenschaften der Chi-Quadrat-Verteilung

Eigenschaft Wert
Parameter
Wertebereich x ≥ 0
Verteilungsfunktion
Dichtefunktion
Mittelwert v
Median
Modus
Varianz 2 · v
Schiefe

Die χ²-Verteilung ist die unterliegende Verteilungsfunktion aller χ²-Tests. Sie ist gleichzeitig eine der am häufigsten verwendeten Verteilungen in der Interferenzstatistik, mit zahlreichen Anwendungen in vielen wissenschaftlichen Disziplinen.

Die Chi-Quadrat-Verteilung hat folgende Charakteristika:

  • Die gesamte Fläche, die von der χ²-Kurve eingeschlossen wird, ist 1
  • Die χ²-Kurve ist auf der x-Achse definiert ab 0 und erstreckt sich bis in die positive Unendlichkeit
  • Sie ist rechtsschief bzw. linkssteil
  • Je höher die Freiheitsgrade sind, desto ähnlicher wird die χ²-Kurve der Normalverteilung
  • Es gibt unendliche viele χ²-Kurven, deren Aussehen durch die Freiheitsgrade definiert wird
  • Die χ²-Kurve ist asymmetrisch; je größer die Freiheitsgrade werden, desto symmetrischer wird sie

In der Tabelle rechts ist Γ(x) die Gammafunktion. Sie funktioniert wie die Fakultätsfunktion, nur für alle reellen (und komplexen) Zahlen. Wenn ihr Funktionsargument x eine natürliche Zahl ist, gilt Γ(x) = (x–1)!

Interaktive Chi-Quadrat-Verteilung

Freiheitsgrade (df)
1

Chi-Quadrat-Rechner

Mit dem Rechner lassen sich die Verteilungsfunktion, die kumulierte Verteilungsfunktion sowie die Quantile und Konfidenzintervalle der Chi-Quadrat-Verteilung berechnen.

{ChiQuadratRechner}