Standardmessfehler

Damit sich die Ergebnisse eines Messinstruments (Scores) für die Grundlagenforschung oder die angewandte Forschung als nützlich erweisen, ist es von entscheidender Bedeutung, dass Messinstrument reliabel ist.

Reliabilität ist – rein theoretisch betrachtet – das Verhältnis der wahren Werte zu der Varianz der beobachteten Werte. Die Differenz ist die Fehlervarianz. Fehlervarianz ist hier nur der unsystematische Fehler und beinhaltet keinen systematischen Fehler.

Reliabilität bezieht sich dabei auf die Präzision einer Messung, woraus sich sich zwei Punkte ergeben:

Reliabilität macht keine Aussagen über den Inhalt einer Skala
Reliabilität kann verwendet werden, um den Messfahler zu schätzen, macht aber gleichzeitig keine Aussage darüber, ob die Skala auch das misst, was sie vorgibt zu messen (Validität)

Definition

Nach der klassischen Testtheorie basiert die Reliabilität auf dem Konzept, dass jede Beobachtung (z.B. Testergebnis, Verhaltensbeobachtung) eine Kombination aus der wahren Punktzahl eines Individuums plus einem Messfehler ist:

\( \mathrm{Observation} = T + E \)
Basierend auf der obigen Formel schlugen Theoretiker dann vor, dass die Varianz der Beobachtung oder des Scores gleich der Varianz des wahren Scores plus der Varianz des Fehlers wäre:

\( s_{O}^{2} = s_{T}^{2} + s_{E}^{2} \)
Um die obige Gleichung zu etwas zu machen, das zur Bestimmung der Reliabilität verwendet werden kann, können wir beide Seiten durch die beobachtete Varianz teilen:

\( \frac{s_{O}^{2}}{s_{O}^{2}} = \frac{s_{T}^{2}}{s_{O}^{2}} + \frac{s_{E}^{2}}{s_{O}^{2}} \)
Da alles, was durch sich selbst geteilt wird, gleich 1 ist, wird die Gleichung dann zu:

\( 1 = \frac{s_{T}^{2}}{s_{O}^{2}} + \frac{s_{E}^{2}}{s_{O}^{2}} \)
Mathematisch ist es nun möglich, die Fehlervarianz auf die Seite beobachteten Varianz zu bringen:

\( 1 – \frac{s_{E}^{2}}{s_{O}^{2}} = \frac{s_{T}^{2}}{s_{O}^{2}} + \frac{s_{E}^{2}}{s_{O}^{2}} – \frac{s_{E}^{2}}{s_{O}^{2}} \)
Da alles Minus sich selbst 0 ist, lautet die verbleibende Gleichung:

\( 1 – \frac{s_{E}^{2}}{s_{O}^{2}} = \frac{s_{T}^{2}}{s_{O}^{2}} = \mathbf{Reliabilit\ddot{a}t} \)

Auf Grundlage der klassischen Testtheorie liefert ein Maß der Reliabilität eine Schätzung des Verhältnisses der wahren Varianz zu der beobachteten Varianz. Wenn im Testhandbuch eines Instruments angegeben ist, dass es einen Reliabilitätskoeffizienten von .80 hat, wird dies nach der klassischen Testtheorie so interpretiert, dass 80 % der beobachteten Varianz in den Testwerten, der auf Variation in den wahren Testwerten zurückgeht. Anders ausgedrückt: Ein Reliabilitätskoeffizient von .80 gibt an, dass die beobachtete Varianz der Testwerte zu 80 % auf wahre Unterschiede zwischen den Testpersonen zurückzuführen ist und zu 20 % auf Fehlervarianz beruht (1 – .20 = .80).

Zuverlässigkeit eines Messinstruments

Es gibt zwei grundsätzliche Möglichkeiten, die Reliabilität eines Messinstruments zu quantifizieren. Eine davon ist der Reliabilitätskoeffizient (ρ_xx), der zwischen 0 (völlig reliabel) und 1 (völlig unreliabel) schwankt.

Die andere Möglichkeit wird mithilfe des Standardmessfehlers S_E berechnet, der nicht mit dem Standardfehler (SEM) zu verwechseln ist und auf den wir im Nachfolgenden weiter eingehen werden.

Beispiel

Es ist eine viel diskutierte Frage, ob Testwerte – irgendwelche Testwerte – die wahren Testwerte darstellen. Nehmen wir beispielsweise an, wir wollen die Intelligenz einer Person messen. Die einfachste und wissenschaftlich anerkannteste Art dies zu tun, wäre einen IQ-Test durchzuführen. Doch spiegelt dieser eine Testwert wirklich den wahren Wert der Person wieder? Vielleicht war die Person an dem Tag übermüdet und ihr wahrer IQ ist höher als den, den wir gemessen haben. Um den wahren IQ zu messen, müssten wir mathematisch betrachtet unendlich viele IQ-Tests mit der Person durchführen und mitteln. Der Mittelwert all dieser Testwerte wäre dann der beste Schätzer des wahren Intelligenzquotienten der Person. Die Standardabweichung all dieser Messungen wäre der Standardmessfehler.

Natürlich ist es nicht möglich, eine Versuchsperson unendlich oft zu testen. Daher nehmen wir an, dass jedes Testergebnis bereits der beste Schätzer für den wahren Wert der Person ist, aber wir gehen auch gleichzeitig davon aus, dass es Fehler bei der Schätzung gegeben hat. Wenn diese Fehler zufällig auftreten (also nicht systematisch sind), gehen wir davon aus, dass sie normalverteilt sind (Zufallsfehler sind der Definition nach immer normalverteilt). Sie haben damit auch eine Standardabweichung und genau die entspricht dem Standardmessfehler.

Definition

Der Standardmessfehler gibt an, wie stark die zufälligen Messfehler um den wahren Werte einer Person streuen.

\( \large{ S_E = s_x \cdot \sqrt{1-r_{xx}} } \)

S_E ist der Standardmessfehler
S_x ist die Standardabweichung des Tests
r_xx ist die Reliabilität des Testverfahrens

IQ-Tests sind so normiert, dass ihr Mittelwert bei 100 und ihre Standardabweichung bei 15 liegt. Hätten wir beispielsweise einen IQ-Test mit einer Reliabilität von .89, würde sich der Standardmessfehler wie folgt berechnen:

\( \begin{align} S_E &= s_x \cdot \sqrt{1-r_{xx}} \\ &= 15 \cdot \sqrt{1-.89} \\ &= 15 \cdot \sqrt{.11} \\ &\approx 4.97 \end{align} \)

Der Standardmessfehler des IQ-Tests würde entsprechend bei etwa 4,97 liegen.

Anwendungsbeispiel

Eine nützliche Anwendung des Standardmessfehlers ist die Berechnung von Konfidenzintervallen.

Testwerte sind immer nur eine Schätzung. Durch den Einsatz von Konfidenzintervallen erhalten wie einen Bereich, in welchem der wahre Wert der Person mit einer gewissen, vordefinierten, Wahrscheinlichkeit liegt. Die Berechnung von Konfidenzintervallen beruht auf Werten der Normalverteilung, da zufällige Messfehler normalverteilt sind.

Die Konfidenzintervalle (CI) berechnen sich direkt aus dem erzielten Testwert, der Normalverteilung und dem Standardmessfehler und zwar so:

Definition

\( \large{ CI = X \pm z_\frac{\alpha}{2} \cdot S_E } \)

X ist der erzielte Testwert
Z ist die Standardnormalverteilung
S_E der Standardmessfehler

Wir wollen beispielsweise feststellen, ob eine Person hochbegabt ist (IQ > 130). Der IQ-Test lieferte aber lediglich einen Wert von 128 Punkten. Hier ist es wieder wichtig zu verstehen, dass dies nur einen einzelne Messung darstellt und Fehlerbehaftet sein kann. Sie kann also noch sowohl weiter nach unten, als auch weiter nach oben schwanken, aber auch richtig sein.

95% der Wahrscheinlichkeit liegt ± 1,96 Standardabweichungen um den Mittelwert der Standardnormalverteilung. Aus der Formel (oben) ergibt sich ein Konfidenzintervall von [118; 138]. Das heißt, dass wir uns mit einer Wahrscheinlichkeit von 95% sicher sind, dass der wahre Wert irgendwo zwischen 118 und 138 Punkten liegt. Das heißt allerdings auch, dass es durchaus möglich sein kann, dass die getestete Person tatsächlich hochbegabt ist, auch wenn unser Test und die eine Messung dies nicht ergeben haben.

Für Anna