Fehlerbalken
Fehlerbalken sind eine graphische Repräsentation der Variabilität von Daten. Sie geben an, wie genau eine Messung ist, oder anders gesagt, in welchem Bereich sich der tatsächliche Wert (ohne Messfehler) befinden könnte. Fehlerbalken geben den Fehler gewöhnlicherweise als Standardfehler, Standardabweichung oder 95%-Konfidenzintervall an. Sie werden in Diagrammen als vertikale Linien über und unter dem Messwert gezeichnet.
Auch wenn Fehlerbalken in den meisten wissenschaftlichen Publikationen zum Standard gehören, werden sie oft von vielen Wissenschaftlern nicht verstanden. Belia (2005) bat 473 Forscher, die in sehr anerkannten wissenschaftlichen Magazinen publiziert hatten, Fehlerbalken zu interpretieren. Lediglich 22% konnten die Konfidenzintervalle richtig einschätzen.
Standardabweichung
Die Standardabweichung ist ein Maß für die Varianz der Daten – sie gibt daher an, wie weit die Datenpunkte voneinander entfernt liegen. Eine geringe Standardabweichung bedeutet daher, dass die gemessenen Daten relativ nahe beieinander waren, während eine hohe Standardabweichung für weit verstreute Daten spricht. Die Standardabweichung ist somit ein Maß für die Aussagekraft des Mittelwerts: je größer sie ist, desto weniger genau spiegelt der Mittelwert die tatsächliche Population wieder.
Geht man davon aus, dass die Daten normalverteilt sind, so liegen 95% der Messwerte innerhalb ±1,96 Standardabweichungen. Will man daher wissen ob ein Wert noch als normal zu klassifizieren wäre, könnte man schauen, ob er innerhalb von 2 Standardabweichungen fällt. Weniger als 5% aller Werte liegen außerhalb von 2 Standardabweichungen. Solche Werte würden nach wissenschaftlichen Kriterien nicht mehr als normal gelten. Es ist daher wichtig, sich die Bildunterschriften bei Diagrammen anzuschauen: besonders die Standardabweichung wird oft mit einem Faktor multipliziert.
Über die Standardabweichung alleine lassen sich keine direkten Schlüsse über den signifikanten Unterschied zweier Gruppen ziehen, wie es bei den anderen hier aufgeführten Verfahren der Fall ist. Die Standardabweichung gehört daher auch zu der deskriptiven Statistik.
Standardfehler
Der Standardfehler (auch SE = standard error oder SEM = standard error of the mean genannt) wird bei Diagrammen verwendet, bei denen der Mittelwert abgebildet wird. Der Berechnung des Standardfehlers geht die Berechnung der Standardabweichung voraus. Die Grundidee des Standardfehlers ist, dass, je größer die Stichprobe ist (= je mehr Versuchspersonen), desto näher ist unsere Stichprobe an der Grundgesamtheit und desto genauer ist unser berechneter Mittelwert. Da die Berechnung des Standardfehlers auf der Berechnung der Standardabweichung beruht, wird der Standardfehler auch kleiner sein, umso geringer die Varianz der Stichprobe ist. Aus dem Standardfehler lassen sich auch Rückschlüsse über einen signifikanten Unterschied zwischen zwei Gruppen ziehen.
In den Abbildungen rechts sieht man zwei Diagramme, bei denen die durchschnittliche enzymatische Aktivität abgebildet wurde. In ersten Diagramm überlappen die Fehlerbalken der beiden Gruppen. Mit einem t-Test könnten wir überprüfen, ob der Unterschied zwischen den beiden Gruppen statistisch signifikant ist oder nicht. Der t-Test prüft dabei, ob der Mittelwert beider Gruppen tatsächlich groß genug ist, dass man behaupten könnte, er sei verschieden. Wenn die Fehlerbalken überlappen bedeutet dies, dass der Messfehler so groß ist, dass beide Gruppen prinzipiell voneinander verschieden sein müssen (P > 0,05) – der Unterschied den wir gemessen haben, kann alleine durch einen Fehler zustande gekommen sein.
Im zweiten Diagramm überlappen sich die Fehlerbalken nicht. Hieraus können wir allerdings nicht den Umkehrschluss ziehen, dass sich beide Gruppen tatsächlich statistisch voneinander unterscheiden. In dem Beispieldatensatz beträgt der P-Wert 0,11 und ist damit nicht mehr statistisch signifikant.
Von den hier genannten Verfahren, wird der Standardfehler kleiner sein als das 95%-Konfidenzintervall und die Standardabweichung.
Wenn die Fehlerbalken sich überlappen und die Stichprobengröße gleich oder fast gleich ist, ist P größer als 0,05 und das Ergebnis damit nicht signifikant. Umgekehrt muss dies nicht stimmen: wenn zwei SEM-Fehlerbalken sich nicht überlappen, können wir keine Rückschlüsse auf den P-Wert ziehen. Sind die Stichprobengrößen zu unterschiedlich, kann man diese Faustregel nicht anwenden.
95%-Konfidenzintervall
Das 95%-Konfidenzintervall (oft abgekürzt als CI, engl.: confidence intervall) wird verwendet, wenn man angeben will, wie genau man den Mittelwert bestimmt hat. Daher findet man die Angabe des Kondfidenzintervalls häufig bei dem t-Test und der ANOVA. Das 95%-Konfidenzintervall gibt damit den Bereich an, bei dem wir mit einer Wahrscheinlichkeit von 95% davon ausgehen können, dass sich innerhalb dessen der wahre Mittelwert befindet. Oder anders ausgedrückt: wiederholt man das Experiment mit 100 verschiedenen Stichproben, dann liegt der wahre Mittelwert der Grundgesamtheit in 95% der berechneten Konfidenzintervalle.
Anhand der Abbildungen (rechts) lassen sich wichtige Regeln für das visuelle Beurteilen von Konfidenzintervallen aufstellen:
- Überlappen 95%-Konfidenzintervalle nicht, kann man davon ausgehen, dass die Unterschiede statistisch auf einem Signifikanzniveau von 5% nicht signifikant sind (Achtung: das Gegenteil muss nicht stimmen!)
- Enthält das 95%-Konfidenzintervall auch den Wert Null, so sind die Unterschiede nicht signifikant (P > 0,05).
- Die vorige Regel gilt auch für Werte unter Null. Die Bedingung aber bleibt: Null darf nicht Teil des Intervalls sein.
Allgemein kann man sagen, dass die Länge des Konfidenzintervalls von drei Faktoren abhängt:
- Konfidenzniveau: In der Regel wird ein Konfidenzniveau von 95% vorausgesetzt. Andere typische Werte sind 90%, 99%, 80% und 85%. Je höher das Konfidenzniveau, desto länger die CI-Fehlerbalken.
- Varianz, wie sie von der Standardabweichung berechnet wird. Stichproben (oder Populationen) mit höherer Varianz haben auch längere CI-Fehlerbalken.
- Stichprobenumgröße. Kleinere Stichproben haben längere CI-Fehlerbalken. Es besteht dabei ein Verhältnis von x-½ zwischen dem Stichprobenumfang und dem Konfidenzintervall (das bedeutet, dass wenn man seine Fehlerspanne halbieren will, muss man seine Stichprobengröße vervierfachen – vorausgesetzt die anderen Parameter bleiben gleich).
Das 95%-Konfidenzintervall ist größer als Standardabweichung und Standardfehler, in der Regel ungefähr 2- bis 3-mal die Standardabweichung.
Da sich sowohl durch 95%-Konfidenzintervalle als auch den Standardfehler Aussagen über die Signifikanz treffen lassen, gehören beide Verfahren zu der Interferenzstatistik.
Zusammenfassung
Art der Fehlerbalken | Aussage wenn Fehlerbalken überlappen | Aussage wenn Fehlerbalken nicht überlappen |
---|---|---|
Standardabweichung (SD) | keine Aussage möglich | keine Aussage möglich |
Standardfehler (SE, SEM) | P > 0,05 | keine Aussage möglich |
95%-Konfidenzintervall (CI) | P > 0,05 | keine Aussage möglich |
Between und Within Subjects Design
Die Angaben die wir in diesem Artikel gemacht haben, beziehen sich auf ein Between Design, die Probanden in beiden Versuchsbedingungen waren also verschieden. Daher wurde auch die statistische Signifikanz mit einem ungepaarten t-Test berechnet.
Hätten wir hingegen ein Within-Design (Messwiederholung), daher eine Gruppe von Probanden, die beide Versuchsbedingungen bekommt, so bräuchten wir gar keine Fehlerbalken in unseren Diagrammen. Bei einem Between-Design interessiert uns die Streuung zwischen den Gruppen, weil eine zu große Streuung bedeuten könnte, dass unsere Ergebnisse alleine durch Zufall zustande gekommen sind. Bei einem Within-Deisgn haben wir dieses Problem nicht, da jede Versuchsperson beide Treatments bekommt. Hier interessieren uns hauptsächlich die Unterschiede zwischen den beiden Gruppen und ob diese möglichst gleich sind und dies lässt sich durch die Fehlerbalken nicht darstellen.
Die Beziehung zwischen Fehlerbalken und statistischer Signifikanz ist geringer als viele Wissenschaftler glauben wollen. Dennoch ist es vorteilhaft, zu wissen, dass, wenn zwei SE Fehlerbalken überlappen, der Unterschied statistisch nicht signifikant ist, auch wenn das Gegenteil pauschal nicht behauptet werden kann.
Quellen
- Belia, S., Fidler, F., Williams, J., & Cumming, G. (2005). Researchers misunderstand confidence intervals and standard error bars. Psychological methods, 10(4), 389.
- Cumming, G., & Finch, S. (2005). Inference by Eye: Confidence Intervals and How to Read Pictures of Data. American Psychologist, 60(2), 170.