Kovarianz
Kovarianz ist ein Maß für den linearen Zusammenhang zweier Variablen. Sie ist eng verwandt mit der Korrelation.
Ein positives Vorzeichen gibt an, dass sich beide Variablen in dieselbe Richtung bewegen (daher, steigt der Wert einer Variablen an, steigt auch der Wert der anderen). Ein negatives Vorzeichen sagt das Gegenteil über den Zusammenhang aus (daher, wenn der Wert einer Variablen steigt, fällt der Wert der anderen). Ein Wert von Null oder nahe Null deutet darauf hin, dass kein Zusammenhang besteht.
Auch wenn die Kovarianz mit der Stärke des Zusammenhangs steigt, ist es immer noch relativ schwierig, aus dem Wert der Kovarianz konkrete Schlüsse zu ziehen, da Kovarianz unstandardisiert ist. Hier liegt auch der Unterschied zur Korrelation: Korrelation ist die standardisierte Kovarianz.
Die Kovarianz zwischen zwei Zufallsvariablen x und y wird wie folgt berechnet:
- x und y sind die Zufallsvariablen
- x und y sind die Mittelwerte der Datenreihen der Zufallsvariablen x und y
- N ist die Größe der Stichprobe (daher die Anzahl an Elementen in der Datenreihe von x oder y)
Im Nenner der Formel wird die Anzahl der Datenpunkte N um eins korrigiert. Diese Korrektur wird auch als Bessel-Korrektur bereichnet. Wenn die Bessel-Korrektur angewendet wird, spricht man auch von der Kovarianz der Stichprobe oder Stichprobenkovarianz. Wird die Bessel-Korrektur nicht angewendet spricht man von der Kovarianz der Population oder Populationskovarianz. Weitere Informationen, wann genau man die Bessel-Korrektur anwendet, finden sich im Artikel zur Standardabweichung wieder.
Beispiel: Verwandtschaft von Kovarianz und Korrelation
Wie bereits erwähnt, sind Korrelation und Kovarianz identisch, wenn die Datenreihen z-standardisiert wurden. In dem Beispiel unten sind in der Tabelle auf der linken Seite die original Messwerte. Die Messwerte in der Tabelle rechts wurden z-standardisiert. Unterhalb beider Tabellen stehen Korrelation und Kovarianz.
Wie man sehen kann, ist die Korrelation der Originalmesswerte identisch mit der Kovarianz mit den standardisierten Messwerten.
x | y |
---|---|
1 | 13 |
2 | 22 |
5 | 28 |
8 | 31 |
9 | 35 |
10 | 45 |
15 | 80 |
Mittelwert & Standardabweichung | |
x = 7,142857 | y = 36,28571 |
SDx = 4,8795 | SDy = 21,72337 |
Kovarianz & Korrelation | |
Kovarianz: | 99,28571 |
Korrelation (r): | 0,936665 |
x | y |
---|---|
\( \footnotesize{ \frac{1-7{,}142857}{4{,}8795}= } \) -1,25891 | \( \footnotesize{ \frac{13-36{,}28571}{21{,}72337}= } \) -1,07192 |
\( \footnotesize{ \frac{2-7{,}142857}{4{,}8795}= } \) -1,05397 | \( \footnotesize{ \frac{22-36{,}28571}{21{,}72337}= } \) -0,65762 |
\( \footnotesize{ \frac{5-7{,}142857}{4{,}8795}= } \) -0,43916 | \( \footnotesize{ \frac{28-36{,}28571}{21{,}72337}= } \) -0,38142 |
\( \footnotesize{ \frac{8-7{,}142857}{4{,}8795}= } \) 0,175662 | \( \footnotesize{ \frac{31-36{,}28571}{21{,}72337}= } \) -0,24332 |
\( \footnotesize{ \frac{9-7{,}142857}{4{,}8795}= } \) 0,380601 | \( \footnotesize{ \frac{35-36{,}28571}{21{,}72337}= } \) -0,05919 |
\( \footnotesize{ \frac{10-7{,}142857}{4{,}8795}= } \) 0,58554 | \( \footnotesize{ \frac{45-36{,}28571}{21{,}72337}= } \) 0,401148 |
\( \footnotesize{ \frac{15-7{,}142857}{4{,}8795}= } \) 1,610235 | \( \footnotesize{ \frac{80-36{,}28571}{21{,}72337}= } \) 2,012316 |
Mittelwert & Standardabweichung | |
x = 0 | y = 0 |
SDx = 1 | SDy = 1 |
Kovarianz & Korrelation | |
Kovarianz: | 0,936665 |
Korrelation (r): | 0,936665 |
Kovarianz zu Korrelation umrechnen
Der Zusammenhang von Kovarianz und Korrelation lässt sich auch formelhaft darstellen. Hat man Kovarianz und möchte daraus die Korrelation berechnen, kann man die folgende Formel verwenden. Wichtig ist nur, dass, wenn die Bessel-Korrektur (N-1) für die Berechnung der Kovarianz verwendet wird, man auch die Stichprobenvarianz verwenden muss.
Zusammenhang von Kovarianz und Varianz
Nicht nur Korrelation und Kovarianz sind miteinander verwandt, auch Kovarianz und Varianz sind enge Verwandte. Dies wird auch ersichtlich, wenn man sich die Formel zur Berechnung der Varianz Var(x) anschaut.
Die Formel wird identisch mit der Formel zur Berechnung der Kovarianz, wenn beide Datenreihen identisch sind, also Var(x) = Cov(x, x).
Ein weiterer wichtiger Unterschied ist, dass bei Kovarianz die Maßeinheit erhalten bleibt, während dies bei Korrelation nicht der Fall ist (Korrelation ist daher dimensionslos). Wurden also die Messungen in Metern vorgenommen, wird die Einheit der Kovarianz auch Meter sein, während die Korrelation keine Einheit hat.
Eigenschaften der Kovarianz
- Symmetrie
Cov(X, Y) = Cov(Y, X) – Die Reihenfolge der Parameter macht bei der Formel der Kovarianz keinen Unterschied. - Anfälligkeit für Ausreißer
Die Kovarianz ist sehr anfällig für Ausreißer. Ein einziger Ausreißer kann massive Auswirkungen auf die gesamte Berechnung haben. Wäre in unserem Beispiel das letzte Wertepaar nicht (15, 80) sondern (15, -80) gewesen, wäre die Kovarianz von ca. 99 auf ca. -110 gefallen. - Positiv semi-definit
Var(X) = Cov(X, X) ≥ 0
Die Kovarianz mit zwei identischen Datenreihen bzw. die Varianz ist immer größer oder gleich Null. - Unabhängigkeit
Sind zwei Zufallsvariablen X und Y unabhängig, dann ist ihre Kovarianz gleich Null: Cov(X, Y) = 0. - Faktorisierbarkeit
Lassen sich die reellen Zahlen a und b aus den Datenreihen von X und Y faktorisieren, kann besteht folgender Zusammenhang zwischen der Kovarianz und den Variablen: Cov(a · X, b · Y) = a · b · Cov(X, Y) - Ein konstanter Parameter
Besteht eine Datenreihe aus identischen Werten, dann ist die Kovarianz gleich Null: Cov(X, a) = 0.
Kovarianzmatrix
ANCOVA (Analysis of Covariance)
In experimentellen Designs wie man sie z.B. in der Psychologie, Soziologie, Medizin oder Wirtschaftswissenschaften findet, wollen Forscher sicherstellen, dass ihre Ergebnisse nicht ausschließlich durch Zufall zustande gekommen sind. ANCOVA (ANalysis of COVAriance) ist ein allgemeines lineares Modell, das als eine Mischung aus der Varianzanalyse ANOVA und Regression angesehen werden kann. Das bedeutet auch, dass eine ANCOVA nur gerechnet werden darf, wenn man davon ausgeht, dass der Zusammenhang zwischen der abhängigen und unabhängigen Variable linear ist. Die ANCOVA erweitert dass Modell der ANOVA um weitere quantitative Variablen, so genannte Kovariaten, welche in Beziehung zu der Antwortvariablen stehen. Die Kovariaten werden eingeführt, um die Fehlervarianz zu reduzieren und die Messung des Effekts des Treatments zu verbessern. ANCOVA wird verwendet, um auf Haupt- und Interaktionseffekte zu testen, während gleichzeitig für die Kovariate kontrolliert wird.