\( \newcommand{\br}[1]{\left( #1\right)} \newcommand{\logpar}[1]{\log\left( #1\right)} \newcommand{\cospar}[1]{\cos\left( #1\right)} \newcommand{\sinpar}[1]{\sin\left( #1\right)} \newcommand{\tanpar}[1]{\tan\left( #1\right)} \newcommand{\arcsinpar}[1]{\sin^{-1}\!\left( #1\right)} \newcommand{\arccospar}[1]{\cos^{-1}\!\left( #1\right)} \newcommand{\arctanpar}[1]{\tan^{-1}\!\left( #1\right)} \newcommand{\asin}[1]{\sin^{-1}\! #1} \newcommand{\acos}[1]{\cos^{-1}\! #1} \newcommand{\atan}[1]{\tan^{-1}\! #1} \newcommand{\asinh}[1]{\sinh^{-1}\! #1} \newcommand{\acosh}[1]{\cosh^{-1}\! #1} \newcommand{\atanh}[1]{\tanh^{-1}\! #1} \newcommand{\logten}[1]{\log_{10}\! #1} \definecolor{explaination}{RGB}{0, 166, 226} \newcommand{\ubrace}[2][u]{ { \color{explaination}{\underbrace{ {\color{black}{#2}} }_{#1}} } } \newcommand{\obrace}[2][u]{ { \color{explaination}{\overbrace{ {\color{black}{#2}} }^{#1}} } } \definecolor{highlight}{RGB}{181, 41, 118} \newcommand{\xplain}[1]{{ \textcolor{explaination} { \footnotesize{ #1 \newline}}}} \newcommand{\hilite}[1]{{ \textcolor{highlight} { { #1 }}}} \definecolor{lightergray}{gray}{.675} \newcommand{\hide}[1]{{ \textcolor{lightergray} { \footnotesize{ #1 \newline}}}} \newcommand{\mth}[1]{ { \textcolor{black} { { \small #1 } } } } \)

Homoskedastizität, Heteroskedastizität

Homoskedastizität ist eines der Wörter in der Statistik, die am schwierigsten auszusprechen sind. Homoskedastizität bedeutet, dass die Varianzen verschiedener Gruppen gleich sind (griechisch: homos = gleich; skedannynai = streuen). Analog dazu, liegt Heteroskedastizität vor, wenn die Varianzen verschiedener Gruppen ungleich ist. Homoskedastizität ist eine wichtige Annahme vieler statistischer Verfahren.

Datenbeispiel, bei dem Homoskedastizität vorliegt
Die Daten (Punktewolke) sind gleichmäßig um die Regressionsgerade (rot) verteilt, Homoskedastizität liegt vor
Datenbeispiel, bei dem Heteroskedastizität vorliegt
Während die Punkte am Anfang noch relativ eng an der Geraden liegen, entsteht ein Spreizung für höhere Werte von x; die Daten sind heteroskedastisch verteilt
Zweites Datenbeispiel, bei dem Heteroskedastizität vorliegt
Der umgekehrte Fall geht auch: am Anfang sind die Daten noch relativ weit um die Gerade verteilt; für größere Werte von x allerdings nicht mehr; Heteroskedastizität liegt vor

Warum muss Homoskedastizität vorliegen?

Die meisten statischen Verfahren die wir verwenden, sind lineare Modelle (wie z.B. ANOVA, ANCOVA, einfache lineare Regression, der t-Test und der F-Test). Dies bedeutet aber auch, dass diese Annahmen für die meisten abgeleiteten Verfahren auch zutreffen, und das sind praktisch alle parametrische Verfahren (= Verfahren, die annehmen, die Zufallsvariable sei auf eine bestimmte Art und Weise verteilt). Wenn wir also mit einem linearen Modell rechnen, müssen die Voraussetzungen für eine lineare Regression auch erfüllt sein. Die vier wichtigsten Voraussetzungen linearer Modelle sind:

Was beeinflusst Homoskedastizität?

Vor allem drei Dinge werden von Homoskedastizität bzw. Heteroskedastizität beeinflusst:

  1. Standardfehler. Der Standardfehler entspricht der Wurzel der Varianz geteilt durch die Wurzel der Gruppengröße. Der Standardfehler quantifiziert die Präzision des Mittelwerts. Er misst damit, wie weit der Mittelwert der Stichprobe von dem Mittelwert der Grundgesamtheit entfernt liegt. Aus dem Standardfehler werden andere Parameter (wie Konfidenzintervalle) berechnet.
  2. Schätzer. Wenn wir gewisse Parameter schätzen — sei dies der Mittelwert oder Koeffizienten in einer Regression — erhalten wir das beste Ergebnis, wenn wir von einer Gleichheit der Varianzen ausgehen. Das “Beste” bedeutet dabei lediglich das Ergebnis mit der geringsten Varianz, verglichen mit anderen linearen Schätzern.
  3. Statistische Testverfahren. Oft prüfen wir Parameter gegen einen Nullwert. Wir testen daher, ob sich eine Variable von 0 unterscheidet und wie wahrscheinlich es ist, dass diese Unterscheidung durch Zufall zustande gekommen sein könnte. Damit dies auch funktioniert, müssen die Variablen normalverteilt sein

Warum spielen diese Annahmen eine Rolle?

  1. Der Standardfehler wird in Mitleidenschaft gezogen, wenn die Varianzen der Gruppen nicht gleich sind. Dies bedeutet auch, dass andere Größen, die von dem Standardfehler abgeleitet werden oder ihn zur Berechnung benötigen, fehlerbehaftet sein können. Vor allem Konfidenzintervalle sind davon betroffen. Allerdings muss dazu gesagt werden, dass der Fehler normalerweise groß sein muss, bevor er wirklich ins Gewicht fällt. Es sollte immer im Einzelfall entschieden werden.
  2. Es wird angenommen das die Residuen (daher der Fehler) eines linearen Modells für alle vorhergesagten Werte der abhängigen Variable homoskedastisch verteilt sind. Einfacher ausgedrückt: sind die Fehler gleich verteilt (homoskedastisch), dann ist das lineare Modell in der Lage, die abhängige Variable mit konstanter Präzision für alle Werte der abhängigen Variablen vorherzusagen. Kann ein Modell hingegen die abhängige Variable auf einem Intervall sehr gut vorhersagen und auf einem anderen nur schlecht, liegt wahrscheinlich Heteroskedastizität vor und dem Modell sollte nicht vertraut werden.
  3. Wie bereits erwähnt, ist die Annahme der Homoskedastizität eine Annahme bei vielen statistischen Testverfahren, unter anderem auch der ANOVA. Allerdings sollte diese Annahme auch nicht zu kritisch gesehen und zu streng interpretiert werden. Die ANOVA ist ein statisch relativ robustes Verfahren, was gewisse Abweichungen ihrer Annahmen immer noch gut verkraften kann. Die ANOVA kann Heteroskedastizität vor allem gut verkraften, wenn die Gruppengrößen gleich sind. Bei ungleicher Gruppengröße allerdings erhöht sich das Risiko, stark ungenaue Ergebnisse zu bekommen, wenn die Daten nicht homoskedastisch sind.
    Gleichzeitig ist es so, dass, wenn Homoskedastizität nicht vorliegt, eine lineare Beziehung einer Variablen zu der Transformation einer anderen besteht (Weiner, 2003).

Was tun bei Heteroskedastizität?

Statistiker sind sich oft uneins, wenn es drum geht zu entscheiden, wie mit Heteroskedastizität umzugehen ist. Während einige der Meinung sind, dass geringere Verletzungen der Homoskedastizitätsannahme keine Konsequenzen nach sich ziehen müssen, meinen andere, dass bei jeder Verletzung Gegenmaßnahmen eingeleitet werden müssen. Jüngere Studien widersprechen dieser Empfehlung allerdings und sagen, das selbst bei ausgewogenen Forschungsdesigns die Wahrscheinlichkeit eines Fehlers 1. Art bei heteroskedastizität erhöht wird. Wiederrum andere Argumentieren, dass im Falle von Heteroskedastizität die Daten neue und interessante Informationen enthalten könnten, die weiter erforscht werden sollten (Salkind, 2010).

Sind die Varianzen einmal nicht gleich verteilt, gibt es eine Reihe von Möglichkeiten, wie man damit umgehen kann. Dazu existieren eine Reihe von Test auf Gleichheit der Varianzen (wie z.B. Bartlett-Test, Levene-Test, Goldfeld-Quandt-Test, White-Test, Glejser-Test). Da die Tests verschiedene Ansätze verwenden, um Homoskedastizität zu überprüfen, kann es sein, dass ein Test signifikant wird und ein anderer nicht.

Entscheidet man sich dazu, Gegenmaßnahmen zu ergreifen, existieren eine Reihe von Möglichkeiten:

  • Es existieren auch robustere Methoden um den Standardfehler zu berechnen (meistens als Huber/White-Schätzer oder Sandwich-Schätzer der Varianz bezeichnet). Viele Statistikprogramme überprüfen automatisch auf die Verletzung der Gleichheit der Varianzen und wenden ein solches Verfahren an. Diese Methoden verbessern das Modell, machen allerdings nicht aus einem schlechten Modell ein gutes.
  • Oft hilft es, Variablen zu transformieren. Logarithmische oder exponentielle Transformation der Variablen kann angewendet werden, und die Verteilungseigenschaften zu verändern.

Auch wenn eigentlich nur die Residuen bei den meistens statistischen Verfahren normalverteilt werden müssen, ist es immer noch üblich, die Antwortvariable auf Normalverteilung zu überprüfen. Dies ist eigentlich nicht nötig. Zwar ist es so, dass, wenn eine Variable normalverteilt ist, auch automatisch ihre Residuen normalverteilt sind, der umgekehrte Fall trifft allerdings nur zu, wenn die Residuen homoskedastisch verteilt sind.

Wichtig

Allerdings bedeutet ein Verletzung der Annahme über die Gleichheit der Varianzen nicht, dass ein statistisches Verfahren unbrauchbar ist, nur dass das es geschwächt ist.

Quellen

  1. Hayes, A. F., & Cai, L. (2007). Using heteroskedasticity-consistent standard error estimators in OLS regression: An introduction and software implementation. Behavior research methods, 39(4), 709-722.
  2. Salkind, N. J. (2010). Encyclopedia of research design. Thousand Oaks, Calif: Sage.
  3. Weiner, I. B. (Ed.). (2003). Handbook of psychology. Hoboken, NJ: Wiley.
  4. Wilcox, R. R. (2010). Fundamentals of modern statistical methods: Substantially improving power and accuracy. Springer Science & Business Media.