\( \newcommand{\br}[1]{\left( #1\right)} \newcommand{\logpar}[1]{\log\left( #1\right)} \newcommand{\cospar}[1]{\cos\left( #1\right)} \newcommand{\sinpar}[1]{\sin\left( #1\right)} \newcommand{\tanpar}[1]{\tan\left( #1\right)} \newcommand{\arcsinpar}[1]{\sin^{-1}\!\left( #1\right)} \newcommand{\arccospar}[1]{\cos^{-1}\!\left( #1\right)} \newcommand{\arctanpar}[1]{\tan^{-1}\!\left( #1\right)} \newcommand{\asin}[1]{\sin^{-1}\! #1} \newcommand{\acos}[1]{\cos^{-1}\! #1} \newcommand{\atan}[1]{\tan^{-1}\! #1} \newcommand{\asinh}[1]{\sinh^{-1}\! #1} \newcommand{\acosh}[1]{\cosh^{-1}\! #1} \newcommand{\atanh}[1]{\tanh^{-1}\! #1} \newcommand{\logten}[1]{\log_{10}\! #1} \definecolor{explaination}{RGB}{0, 166, 226} \newcommand{\ubrace}[2][u]{ { \color{explaination}{\underbrace{ {\color{black}{#2}} }_{#1}} } } \newcommand{\obrace}[2][u]{ { \color{explaination}{\overbrace{ {\color{black}{#2}} }^{#1}} } } \definecolor{highlight}{RGB}{181, 41, 118} \newcommand{\xplain}[1]{{ \textcolor{explaination} { \footnotesize{ #1 \newline}}}} \newcommand{\hilite}[1]{{ \textcolor{highlight} { { #1 }}}} \definecolor{lightergray}{gray}{.675} \newcommand{\hide}[1]{{ \textcolor{lightergray} { \footnotesize{ #1 \newline}}}} \newcommand{\mth}[1]{ { \textcolor{black} { { \small #1 } } } } \)

Cronbachs Alpha

Cronbachs Alpha ist eine von mehreren Verfahren um die Reliabilität zu quantifizieren. Es gibt das Verhältnis von beobachteter Varianz zu der Varianz der wahren Testwerte an und ist damit ein Maß für die interne Konsistenz. Cronbachs Alpha kann Werte zwischen  − ∞ und 1 annehmen.

Vor allem in der psychologischen Forschung wird es eingesetzt, um die interne Konsistenz psychometrischer Verfahren zu bestimmen. Es wird oftmals fälschlicherweise als Maß für die Eindimensionalität bzw. Homogenität einer Skala gesehen.

Reliabilität

Reliabilität ist eine Eigenschaft von Testverfahren und setzt sich zusammen aus den wahren Testwerten, den beobachteten Werten und dem Messfehler. Werte oder Scores, die durch die Erhebung eines Merkmals oder einer Charakteristik einer Person zustande gekommen sind (beispielsweise Leistungswerte, Präferenzen, Persönlichkeitseigenschaften, Intelligenz, usw.), werden beobachtete Werte genannt.

Im Verhältnis dazu stehen die wahren Testwerte. Diese Werte würden wir messen, wenn unsere Verfahren frei von Messfehler wären. Der beobachtete Wert setzt sich damit aus dem wahren Wert und dem Messfehler zusammen. Wenn sich eine Person für ein halbes Jahr jede Woche einmal ihre Körpergröße messen würde, wäre es normal, dass die Werte nicht immer exakt gleich sind. Differenzen von 1–2 cm wären nicht ungewöhnlich. Ähnlich verhält es sich mit Merkmalen – und auch physikalischen Eigenschaften. Es existiert kein perfekt reliables Messverfahren.

Der Messfehler kann durch unterschiedliche Weise zustande kommen. In unserem Beispiel der Messung der Körpergröße könnte beispielsweise die Art und Weise der Messung einen Unterschied gemacht haben. Das eine Mal stand die Versuchsperson besonders gerade, das andere Mal nicht. Schlafmangel und Sport könnten auch unbeabsichtigte Messfehler verursachen. Vorübergehende Einflussfaktoren wie Gesundheit, Laune, Priming, Rateverhalten, Reihenfolge der Fragen, Testdurchführung, oder Fehler bei der Auswertung können Testwerte ebenfalls künstlich erhöhen oder senken.

Um die Reliabilität eines Testverfahrens oder Scores zu bestimmen, müssen wir zuerst schätzen, inwieweit individuelle Differenzen in den Testwerten eine Funktion der wahren Differenzen der Versuchsteilnehmer sind oder durch Messfehler zustande gekommen sind. Reliable Testverfahren besitzen einen geringen Messfehler; daher korrelieren wahrer Wert und Testwert bei reliablen Verfahren hoch miteinander.

Verfahren zur Berechnung von Reliabilität

Gemäß den Annahmen der klassischen Testtheorie, können wir den Messfehler über die Testwerte schätzen. Reliabilität kann durch verschiedenen Verfahren berechnet werden. Zu den gängigen Verfahren gehören Test-Retest-Reliabilität, Paralleltest Reliabilität und die interne Konsistenz.

Bei der Test-Retest-Reliabilität müssen Teilnehmer denselben Test mehrmals durchführen (beispielsweise das mehrmalige Messen der Körpergröße). Paralleltest Reliabilität ist von den genannten Beispielen am schwierigsten praktisch umzusetzen. Sie erfordert es, ein zweites Testverfahren zu konzipieren, welches dasselbe Merkmal misst und dieselbe Fehlervarianz hat (dies ist theoretisch zwar möglich, aber praktisch oft mit Schwierigkeiten verbunden).

Interne Konsistenz ist eine praktische Alternative zu den anderen beiden genannten Verfahren, da sie einfacher zu berechnen ist und nur erfordert, dass Teilnehmer den Test einmal durchführen. Es existieren auch hier wieder mehrere Verfahren, die unter die Kategorie interne Konsistenz fallen. Eine Variante ist Testhalbierungsreliabilität (auch Split-half Reliabilität genannt), bei dem ein einzigen Test meist zufällig in zwei Gruppen aufgeteilt wird, Summenscores für diese Gruppen berechnet werden und diese Scores miteinander korreliert werden (dieser Wert wird dann noch mit der Spearman-Brown-Formel korrigiert, um die Testverkürzung zu berücksichtigen). Testhalbierung ist im Prinzip eine ökonomische Alternative zur Paralleltest Reliabilität, nur, dass wir statt ein neues Testverfahren zu verwenden, das bestehende in zwei teilen. Testhalbierungsreliabilität wird in der Praxis nicht oft verwendet, da sichergestellt werden muss, dass beide Testhälften wirklich parallel sind und dies oft schwierig ist.

Cronbachs Alpha

Das am häufigsten verwendete Verfahren zur Schätzung der internen Konsistenz ist Cronbachs Alpha (α). Es ist mathematisch äquivalent zu allen möglichen Testhalbierungsreliabilitäten, auch wenn es nicht so berechnet wird. Für die Berechnung von Cronbachs α müssen weniger Voraussetzungen erfüllt werden, als für beispielsweise die Testhalbierungsreliabilität.

Definition

\( \large{ \alpha \;=\; {N \bar c \over (\bar v + (N-1) \cdot \bar c)} \;=\; \frac{N}{N-1} \left( 1- \dfrac{\sum_{i=1}^N \sigma^{2}_{Y_i}}{\sigma^{2}_{X}} \right) \qquad \text{mit} \qquad X = \displaystyle\sum_{i=1}^N Y_i } \)

  • N: Die Anzahl der Komponenten (z.B. Items oder Subskalen).
  • \( \bar r \): Die durchschnittliche Korrelation zwischen den Items.
  • \( \sigma^{2}_{X} \): Die Varianz der beobachteten Gesamttestscores.
  • \( \sigma^{2}_{Y_i} \): Die Varianz der Komponente i für die aktuelle Stichprobe von Personen.
  • \( \bar v \): Die durchschnittliche Varianz jeder Komponente (z.B. Items oder Subskalen).
  • \( \bar c \): Durchschnitt aller Kovarianzen zwischen den Komponenten der aktuellen Stichprobe von Personen (d. h. ohne Berücksichtigung der Varianz der einzelnen Komponenten).

Interpretation

Cronbach’s α Interne Konsistenz
α ≥ 0.9 Exzellent
0.9 > α ≥ 0.8 Gut
0.8 > α ≥ 0.7 Akzeptabel
0.7 > α ≥ 0.6 Fragwürdig
0.6 > α ≥ 0.5 Schlecht
0.5 > α Unakzeptabel

Ein zuverlässiger Test minimiert den zufälligen Messfehler, so dass der Fehler nicht stark mit den wahren Werten korreliert wird. Die Beziehung zwischen dem wahren Score und den beobachteten Scores sollte stark sein. Cronbach’s α ist der Anteil der beobachteten Score-Varianz, der als wahrheitsgetreue Score-Varianz gilt. So bedeutet ein Cronbach’s α von. 75 für einen Test, dass 25% der Varianz zufällig und nicht aussagekräftig ist.

Die Interpretation des Koeffizienten Alpha und anderer Arten von Reliabilität hängt zum Teil davon ab, was gemessen wird. Wenn Tests verwendet werden, um wichtige Entscheidungen über Menschen zu treffen, ist eine hohe Zuverlässigkeit (daher ab .90) unerlässlich. Im Gegensatz dazu kann eine geringere Reliabilität (z. B. .,60 bis .80) für die Betrachtung von Gruppenunterschieden in Persönlichkeitsmerkmalen (Offenheit) akzeptabel sein.

Alternative

Cronbach’s α geht davon aus, dass alle Faktorladungen gleich sind. In der Realität ist dies selten der Fall. Damit unterschätzt Cronbach’s α systematisch die Reliabilität. Eine Alternative zu Cronbachs Alpha, die sich nicht auf diese Annahme stützt, ist die kongenerische Reliabilität