MatheGuru Logo

Effektstärke


EffektstärkeÄhnlich wie p-Werte ein Maß dafür sind, wie wahrscheinlich ein beobachteter Wert ist, ist die Effektstärke ein Maß für die Stärke eines Treatments bzw. Phänomens. Effektstärken sind eine der wichtigsten Größen empirischer Studien. Sie können benutzt werden, um die Stichprobengröße für nachfolgende Studien zu bestimmen und die Stärke des Effektes über mehrere Studien hinweg zu vergleichen.

Hat man ein Experiment mit einer großen Anzahl von Teilnehmern, ist es wahrscheinlicher, dass die H0 Hypothese abgelehnt wird und das Ergebnis statistisch signifikant wird. Je schneller dies passiert, desto größer ist die Power (auch Trennschärfe und Teststärke genannt, auch wenn der Begriff Trennschärfe heutzutage meist für ein anderes statistisches Konzept verwendet wird) des statistischen Verfahrens. Bei Verfahren mit einer hohen Power, ist es unwahrscheinlich, einen Effekt zu übersehen, auch wenn dieser nur klein ist. Auf der anderen Seite wird bei einem Testverfahren mit einer hohen Teststärke jeder relativ kleine Effekt schnell signifikant, auch wenn dieser keine praktische Bedeutung mehr hat. Unter Statistikern existiert daher auch die Meinung nicht mehr nur p-Werte, sondern verstärkt Effektstärken zu betrachten, um den Nutzen von Ergebnissen einzuordnen (daher die praktische Signifikanz). Dies lässt sich auch dadurch erklären, dass Studien mit einer hohen Stichprobengröße selbst für kleine Unterschiede der Mittelwerte signifikant werden. (Für eine differenzierte Darstellung, siehe auch Sedlmeier, 2009.)

Auch wenn es relativ einfach ist, die Größe eines Effekts in einer Korrelationsstudie zu bestimmen, ist dies schwieriger für Studien, bei denen t-Tests, Chi-Quadrat-Tests oder nichtparametrische Verfahren wie beispielsweise der Wilcoxon-Test zum Einsatz kommen. Eine Möglichkeit ist daher, jede dieser Statistiken in einen Korrelationskoeffizienten umzuwandeln. Der so berechnete Wert kann so wie jeder andere Korrelationskoeffizient interpretiert werden.

Effektstärken können in eine von zwei Familien unterteilt werden: die d-Familie, die Unterschiede zwischen Gruppen betrachtet, und die r-Familie, welche ein Maß für Zusammenhang zwischen Daten ist.

Cohen’s d


Unterteilung von Effektstärken nach StärkeDie bekannteste und am häufigsten verwendete Methode zur Berechnung der Effektstärke ist Cohen’s d. Cohen’s d wird verwendet um den Effekt über verschiedene Studien hinweg zu vergleichen, selbst wenn die abhängige Variable auf unterschiedliche Weise gemessen wurde. Diese Formel entspricht relativ genau der Formel für die z-Standardisierung, daher sprechen einige Autoren auch von einer standardisierten Effektstärke. (μ1 und σ1 beziehen sich auf die Gruppe, die das Treatment bekommen hat.)

Problematisch hierbei ist, dass Cohen in seiner Originalpublikation (Cohen, 1988) keine Angabe darüber gemacht hat, wie genau die Standardabweichung definiert ist. Hier schreibt er, dass man für σ eine der beiden Standardabweichungen einsetzen kann, da angenommen wird, beide seien gleich. Andere Autoren definieren Cohen’s d expliziter und verwenden die Wurzel aus dem Mittelwert beider Varianzen (gepoolte Standardabweichung), so wie wir es hier auch tun (manche Autoren verwenden die Notation ds für Cohen’s d mit gepoolter Standardabweichung).

Interpretation von d

Interpretation von d
nach Cohen (1988)
kleiner Effekt |d| = 0,2
mittlerer Effekt |d| = 0,5
großer Effekt |d| = 0,8


Die drei wichtigsten Indizes der d-Familie (Cohen’s, Glass’s Δ und Hedge’s g) vermitteln Informationen über die Größe des Effekts bezogen auf die Standardabweichung. Eine Effektstärke von .50 bedeutet demnach, dass die Differenz zwischen beiden Gruppen gleich einer halben Standardabweichung ist. Ein Wert von .75 bedeutet, dass die Differenz gleich dreiviertel einer Standardabweichung ist. Je größer die Effektstärke, desto größer auch der Effekt. Ein großer Vorteil von Effektstärken ist, dass sie standardisiert sind. Das bedeutet: Effektstärken können über verschiedene Studien hinweg miteinander verglichen werden. Geben zwei Autoren in unterschiedlichen Studien eine Effektstärke von .40 an, dann haben ihre Studien Effekte in gleicher Größe gefunden.

Cohen (1988) lieferte auch gleich eine Faustregel zur Interpretation der Ergebnisse aus seiner Formel. Demnach fängt ein kleiner Effekt ab 0,2 an, ein mittlerer ab 0,5 und ein großer ab 0,8. Hier ist zu beachten, dass Cohen’s d durchaus auch negativ werden kann. Dies bedeutet lediglich, dass der Effekt in die umgekehrte Richtung geht. Die Faustregeln hierfür bleiben die gleichen. Die Formel nach Cohen ist allerdings anders zu interpretieren als der Korrelationskoeffizient: sie kann auch Werte größer 1 oder kleiner -1 einnehmen (Cohen’s d ist definiert von -∞ bis +∞). In diesem Fall handelt es sich einfach nur um einen ausgesprochen großen Effekt.

Faustregeln sind und bleiben allerdings nur Faustregeln. Auch wenn es kompfortable ist, die Faustregeln nach Cohen zur Interpreatation zu verwenden, gibt es Situationen, in denen geringe Effekstärken große Effekte haben können. Thompson (2007) empfiehlt hier "nicht Cohen’s Faustregeln zu verwenden" sondern stattdessen die berechnete Effektstärke "direkt und explizit mit Effektstärken aus [vergleichbaren] vorigen Studien zu vergleichen". Als Beispiel nennt er Interventionen bei schwierig zu behandelnen Krankheiten (wie Essstörungen) oder Veränderungen, die nur schrittweise über einen längeren Zeitraum wirken (wie eine Intervention, die in einem Kindergarten gemacht wurde und zum damaligen Zeitpunkt nur einen kleinen Effekt hatte, sich aber noch auf das gesamte Leben der Kinder positiv auswirken wird). Demnach ist der einzige Grund, Cohen’s Faustregeln zu verwenden, wenn die Studie so neu ist, dass keine vergleichbaren Studien existieren.

Cohen’s d für den Einstichproben t-Test und den paarweisen t-Test

Die Berechnung für Cohen’s d für einen einstichproben t-Test bzw. für einen gepaarten t-Test (paarweisen t-Test) ist relativ ähnlich: wieder benötigen wir die Differenz zwischen Mittwerten, welche wir durch die Standardabweichung teilen. Da wir allerdings mit einer Paarung von Messergebnissen und damit einer Wiederholung arbeiten, verwenden wir die Differenz zwischen den Messergebnissen für beide Berechnungen.

Mathematisch betrachtet ist ein gepaarten t-Test identisch mit einem Einstichproben t-Test, bei dem wir testen, ob sich die Messungen signifikant von Null unterscheiden. Auf ähnliche Weise hat die auch Berechnung für Cohen’s d für beide Verfahren viel gemein. Die standardisierte Durchschnittsdifferenz-Effektstärke bei Messwiederholungen (within-subjects design) wird auch als dz bezeichnet (z für Differenz).

Definition

  • Xdiff berechnet sich für jedes einzelne Messpaar aus der Differenz der Kontrollmessung und der Messung mit dem Treatment.
  • Für die Berechnung der Effektstärke für einen einstichproben t-Test, wäre die Xkontroll immer 0.

Cohen’s d berechnet aus der t-Statistik

Zwischen dem t-Wert bei unabhängigen Stichproben und Cohen’s d besteht ein Zusammenhang, der es uns auf einfache Art und Weise erlaubt Cohen’s d aus dem t-Wert zu berechnen:

Definition

  • SE ist der Standardfehler
  • N ist die Größe der Stichprobe
  • μ ist der Mittelwert der jeweiligen Gruppe

Cohen’s d in den Korrelationskoeffizienten r umrechnen

McGrath und Meyer (2006) publizierten eine Formel zum Umrechnen von d in den Korrelationskoeffizienten r, bei ungleicher Größe der Gruppen n1 und n2:

Hedge’s g (oft auch einfach nur d)


Eine Variante von Cohen’s d ist Hedge’s g. Hedge’s g wird analog zu Cohen’s d berechnet, nur das die Varianzen nicht nur gepoolt, sondern auch noch mit der Besselkorrektur (n-1) berichtigt werden. Die Besselkorrektur verringert dabei den Fehler der Schätzung vor allem bei kleinen Stichproben (n < 20).

Definition

Hedge’s g*

Neben Hedge’s g entwickelte Larry Hedge noch eine weitere Variante, die auf seiner bereits korrigierten Version von Cohen’s d aufbaut: Hedge’s g*. g* wurde entwickelt, um einen kleinen positiven Approximationsfehler bei der Berechnung von g zu korrigieren.

Definition

Für Hedge’s g* existiert eine vereinfachte Formel zur Schätzung, da die Originalformel die transzendente Gammafunktion (Γ) enthält, die auf vielen Rechnern nicht zur Verfügung steht.

Auch wenn der Unterschied zwischen Hedge’s g* und Hedge’s g gering ist (besonders wenn n > 20), ist es vorzuziehen, Hedge’s g* anzugeben.

Glass’s Δ

Glass’s delta gehört zu der gleichen Familie, wie die Formeln von bereits vorgestellten Formeln von Cohen und Hedge. Glass’s Δ wurde unsprünglich für experimentelle Studien entwickelt. Anstatt eine gepoolte oder Besselkorrigierte Standardabweichung zu verwenden, wird einfach die Standardabweichung der Kontrollgruppe verwendet. Die Idee dahinter ist, dass die Kontrollgruppe kein Treatment bekommen hat und daher die Standardabweichung der Grundgesamtheit eher wiedergibt.

Vorsicht: Unterschiedliche Bezeichnung für Maße der Effektstärke!


Es herrscht ein großes Maß an Konfusion unter Autoren wissenschaftlicher Literatur, wie sie genau welche Formel bezeichnen sollen (Ellis, 2010). Die verwendete Terminologie ist teilweise uneinheitlich und oft auch widersprüchlich. Was hier als g bezeichnet wird, wurde von Hedge und Olkin als d bezeichnet und umgekehrt. Das liegt daran, dass die meisten Maße der Effektstärke ihren Ursprung in den 1980er Jahren haben, wo g das Standardmaß der Effektstärke war, das von Cohen erfunden und von Glass verfeinert wurde (g steht für Glass). Allerdings wurde seitdem g synonym mit Hedges Gleichung verwendet – nicht mit Glass’s g. (Daher heißt es auch Hedge’s g und nicht Hedge’s h: es wurde nach Glass benannt, auch wenn es von Hedge entwickelt wurde.)

Cohen’s d vs. Hedge’s g vs. Hegde’s g*


Besonders für kleine Stichproben (n < 20) liefert Cohen’s d verzerrte Ergebnisse. Sowohl Cohen’s d als auch Hedge’s g verwenden gepoolte Varianzen; g poolt allerdings mit Besselkorrektur (n-1), welches eine bessere Schätzung, besonders bei kleinen Stichproben, ermöglicht. Sowohl d als auch g überschätzen die Effektstärke, wenn auch nur leicht. Auch hier gilt: je größer die Stichprobe, desto geringer der Fehler der Schätzung. Dieser Fehler wird durch g* verringert, welcher aus Hedges g (gepoolte Varianzen und Besselkorrektur) berechnet wird. Die Interpretation folgt jeweils auch nach den Faustregeln von Cohen.

Eta², Eta-Quadrat


Die Berechnung der Effektstärke bei einer ANOVA ist um einiges komplexer als die für einen t-Test. Während man bei einem t-Test nur zwei Gruppen mit zwei Mittelwerten hat, hat man bei einer ANOVA in der Regel wesentlich mehr Gruppen und damit auch mehr Mittelwerte dieser Gruppen. Daher kann der Ansatz von Cohen hier nicht angewendet werden – die Differenz der Mittelwerte zweier Gruppen in Verhältnis zu deren Standardabweichung zu setzen – da wir meistens mehr als zwei Gruppen haben und nicht wissen, welche beiden Gruppen von Interesse sind. Stattdessen müssen wir hierfür das η² (eta Quadrat) berechnen. η² verhält sich analog zum Korrelationskoeffizienten, beschreibt aber einen kurvilinearen (= nicht linearen) Zusammenhang und damit keinen linearen Zusammenhang. Dies ist besonders von Vorteil bei einer ANOVA, da wir nicht wissen, welche der unabhängigen Variablen die höchste Varianzaufklärung besitzt. Wie R², ist η² auch nicht korrigiert und besitzt eine Verzerrung nach oben.

Eta², partielles Eta² und Omega² dürfen nur berechnet werden, wenn die Größe jeder Zelle der ANOVA gleich ist. Außerdem sind die Formeln zur Berechnung unterschiedlich für Between-Subject-Design und Within-Subject-Design.

Partielles Eta-Quadrat

In den meisten Studien wird das partielle Eta² () angegeben. Das partielle Eta-Quadrat hat den Vorteil, dass Effektstärken aus verschiedenen Studien miteinander verglichen werden können (Keppel, 1991). Dies ist so, weil es die Summenquadrate (SS) des Effekts im Verhältnis zu den Summenquadraten des Effekts und des Fehlers ausdrückt, während das einfache Eta² den Effekt lediglich mit den gesamt Summenquadraten in Verhältnis setzt:

In einer einfaktoriellen ANOVA (One-Way-ANOVA) sind Eta-Quadrat und partielles Eta-Quadrat identisch.

Kritik

  1. Ein zentraler Nachteil des partiellen Eta-Quadrats ist, dass es die aufgeklärte Varianz immer überschätzt.  Die Verzerrung wird kleiner, je größer der Stichprobenumfang wird. Aber für kleine Stichproben sollte Omega-Quadrat als Maß für die Varianzaufklärung bevorzugt werden.
  2. Auch wenn das partielle Eta² uns ermöglicht, Effektstärken über verschiedene unterschiedliche Studien hinweg zu vergleichen, muss man vorsichtig sein, und das Design der Studien berücksichtigen. Bei einer rmANOVA können die Summerquadrate der Fehler um den Mittelwert jeder Messung aber auch den Mittelwert jedes Individuums berechnet werden, sofern die Messungung für jedes Individuum gemittelt wurden. Dies erlaubt es uns, die Varianz des Individuums von der Varianz des Effekts bei einer rmANOVA abzugrenzen, etwas was bei einem Between-Design nicht möglich ist (Lakens, 2013). Dies bedeutet auch, dass wenn es eine positive Korrelation zwischen zwei Gruppen gibt, wird  für ein Within-Design größer sein als für ein Between-Design. Deswegen hat eine Within-Subjects-ANOVA (rmANOVA) in der Regel auch eine größere statistische Power als eine Between-Subjects-ANOVA hat.

Omega-Quadrat, ω²


Omega-Quadrat hat weniger Verzerrung als das (partielle) Eta-Quadrat, da es die Anzahl der Gruppen bei der Berechnung der Varianzaufklärung miteinbezieht. Es kann daher auch für eine ANOVA berechnet werden, deren Zellengrößen unterschiedlich sind. Wie bei Hegde’s Korrektur für Cohen’s d ist die Angabe von ω² statt η² formal korrekt. Jedoch ist der Unterschied zwischen beiden Maßen in der Regel gering, und dieser nimmt mit zunehmender Stichprobengröße weiter ab.

Definition

ω² variiert zwischen 0 und 1.

Korrelationskoeffizienten


Für weitere Informationen zu den verschiedenen Korrelationskoeffizienten, siehe auch den Hauptartikel Korrelation.

Die zweite große Familie von Effektstärken ist die r-Familie. Die r-Familie betrachtet den Zusammenhang zwischen zwei oder mehr Variablen. Viele dieser Maße sind Variationen des Pearson Korrelationskoeffizients r.

Pearson Korrelationskoeffizient (r)

Der Pearson Korrelationskoeffizient r (auch Produkt-Moment-Korrelationskoeffizient genannt) ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen; r quantifiziert die Stärke und Richtung des Zusammenhangs zwischen zwei Variablen. Die Variablen können dichotom oder kontinuierlich sein, aber nicht normalverteilt. Im Gegensatz zu Cohen’s d, ist der Wertebereich von r beschränkt. r kann Werte zwischen -1 und 1 annehmen. Ein Wert von 1 bedeutet eine perfekte positive Beziehung zwischen zwei Variablen; ein Wert von -1 bedeutet eine perfekte negative Beziehung zwischen zwei Variablen. 0 hingegen bedeutet, dass gar keine Beziehung zwischen den Variablen besteht.

Pearson’s r wird für zwei Zufallsvariablen x und y und deren Mittelwerte x und y wie folgt berechnet:

Der Korrelationskoeffizient r und darauf basierende Maße sind standardisiert. Das bedeutet, das ein Effekt, der in r angegeben wurde, mit jedem anderen verglichen werden kann.

Spearman Rangkorrelationskoeffizient (ρ, rs)

X-WertX-Rang
1 1
2 2
3 3+4/2 = 3,5
3 3+4/2 = 3,5
4 5
Der Spearman Rangkorrelationskoeffizient (meist abgekürzt als ρ, rs) basiert auf der Berechnungsformel des Pearson Korrelationskoeffizienten, wird allerdings verwendet, wenn beide Variablen ordinalskaliert sind. Die Berechnungsformel ist dabei dieselbe, die für die Berechnung von r verwendet wird, allerdings werden die Daten vor der Verwendung in ihren Rang transformiert.

In dem Beispiel rechts kann man sehen, wie die Transformation in Ränge zu berechnen ist. Hat man zwei oder mehr identische Werte, nimmt man den Mittelwert der fortlaufenden Ränge für alle identischen Werte.

Kendall’s Tau (τ)

Kendell’s τ ähnelt Spearman’s Rangkorrelationskoeffizienten. Allerdings betrachtet τ nicht die Differenz der Ränge, sondern die Anzahl an nachfolgenden Rängen, die größer (daher konkordant oder übereinstimmend) bzw. kleiner (daher diskordant oder nicht übereinstimmend) sind. (Weitere Informationen und Beispiele dazu im Hauptartikel Rangkorrelationskoeffizienten.)

Punkt-Biseriale Korrelation (rpb)

Die Punkt-Biseriale-Korrelation (rpb) wird verwendet, wenn eine Variable dichotom (nur zwei Ausprägungen) ist, und die andere kontinuierlich (unendlich viele Ausprägungen). Dabei ist es egal, ob die dichotome Variable natürlich dichotom ist, oder künstlich dichotomisiert wurde. Ebenso muss nicht davon ausgegangen werden, dass die Daten normalverteilt sind. Die Punkt-Biseriale-Korrelation ist identisch mit Pearson’s r, wenn die Ausprägungen der dichotomen 0 und 1 kodiert werden. rpb kann Werte von -1 bis 1 annehmen, wie die Produkt-Moment-Korrelation. Die Punkt-Biseriale-Korrelation ist einfacher zu berechnen als der Pearson Korrelationskoeffizient, ihr Wert ist aber genauso zu interpretieren.

Definition

  • x ist der Mittelwert der ersten Gruppe (der ersten Ausprägung der dichotomen Variable)
  • y ist der Mittelwert der zweiten Gruppe (der zweiten Ausprägung der dichotomen Variable)
  • s ist die Standardabweichung der gesamten Stichprobe
  • n1 ist die Anzahl an Messwerten in der ersten Gruppe, n2 die Anzahl an Messwerten in der zweiten Gruppe
  • n ist gesamte Anzahl an Messwerten (daher n = n1 + n2)

Tetrachorische Korrelation (rtet)

Die tetrachorische Korrelation kann berechnet werden, wenn beide Variablen künstlich dichotomisiert wurden und normalverteilt sind, daher für 2×2 Kontingenztabellen.

Definition
A=0 A=1
B=0 a b a+b
B=1 c d c+d
a+c b+d a+b+c+d

Die Variablen in der Gleichung unterhalb beziehen sich auf die 2×2 Kontingenztabelle rechts.

phi-Koeffizient (φ)

A=0 A=1
B=0 a b a+b
B=1 c d c+d
a+c b+d a+b+c+d
Der phi-Koeffizient wird als Zusammenhangsmaß für zwei dichotome Variablen (nur zwei mögliche Ausprägungen) verwendet. Sind die Variablen in einer 2×2 Kontingenztabelle (wie rechts) angeordnet, berechnet sich φ wie folgt:

Der phi-Koeffizient ist ein symmetrisches Maß. Dies bedeutet, dass es keinen Unterschied macht, welche Variable die unabhängige ist (= welche Variable in welcher Spalte ist). Daher kann das Vorzeichen ignoriert werden.

Pearson Kontingenzkoeffizient (C)

Der Pearson Kontingenzkoeffizient ist die korrigierte Variante des phi-Koeffizienten, für Tests mit mehr als einem Freiheitsgrad (daher für Kontingenztabellen, die größer als 2×2 sind).

Definition

  • χ² ist die Chi²-Prüfgröße, berechnet aus der Kontingenztabelle (weitere Informationen zur Berechnung der Chi²-Prüfgröße im Originalartikel Chi²-Test)
  • n ist die Anzahl an Ereignissen

Cramér’s V

Cramér’s V kann ähnlich wie der Pearson Kontingenzkoeffizient C auf beliebig große Kontingenztabellen angewendet werden. Cramér’s V wird generell als überlegen gegenüber C betrachtet. Es basiert auf den Abweichungen der beobachteten Häufigkeiten von den erwarteten Häufigkeiten unter der Voraussetzung statistischer Unabhängigkeit, und damit auf einer Chi²-Statistik.

Definition

  • χ² ist die Chi²-Prüfgröße, berechnet aus der Kontingenztabelle (weitere Informationen zur Berechnung der Chi²-Prüfgröße im Originalartikel Chi²-Test)
  • n ist die Anzahl an Ereignissen
  • i ist die Anzahl an Zeilen der Kontingenztabelle
  • j ist die Anzahl an Spalten der Kontingenztabelle

V kann nur Werte zwischen 0 und 1 annehmen.

Goodman & Kruskal’s lambda (λ)

Im Gegensatz zu Pearson’s C und Cramér’s V basiert Goodman & Kruskal’s λ nicht auf einer Chi²-Statistik. λ wird verwendet, wenn beide Variablen nomial oder ordinal skaliert sind. Es misst die prozentuale Verbesserung in der Vorhersage des Wertes der abhängigen Variablen aus der unabhängigen Variablen.

Aufgeklärte Varianz


Oft wird der Zusammenhang zwischen zwei Variablen in Form von aufgeklärter Varianz (auch gemeinsame Varianz genannt) angegeben. Maße für aufgeklärte Varianz sind meistens durch die Hochzahl 2 (²) zu erkennen. Beispielsweise kann der Anteil der aufgeklärten Varianz bei einer Korrelation aus dem Korrelationskoeffizienten r berechnet werden, indem dieser einfach quadriert wird: r². r² wird auch als Determinationskoeffizient bezeichnet. Ist z.B. die Korrelation zwischen zwei Variablen -.40, dann wäre der Determinationskoeffizient (-.40)² = .16. Wenn zwei Variablen korreliert sind, haben sie automatisch Varianz gemeinsam.

Eine aufgeklärte Varianz von .16 bedeutet, dass wir 16% der Streuung zwischen beiden Variablen erklären können. Anders ausgedrückt: die Varianzaufklärung gibt an, wie viel der Streuung wir durch unsere gemessenen Variablen vorhersagen können. Die aufgeklärte Varianz wird manchmal auch gemeinsame Varianz genannt, da, je mehr Varianz die Variablen gemeinsam haben, je stärker sie kovariieren, desto stärker ist der Effekt und damit die aufgeklärte Varianz.

Maße der Varianzaufklärung nehmen Werte zwischen 0 und 1 ein.

Referenzwerte verschiedener Maße der Effektstärke


Wie bereits erwähnt: hierbei handelt es sich lediglich um Faustregeln. Von einer dogmatischen Interpretation ist abzuraten.

  Kategorie
TestartMaß der EffektstärkeKleinMittelGroß
Vergleich zweier unabhängiger Stichproben d, Δ, Hedge’s g |.20| |.50| |.80|
Vergleich von zwei Korrelationen q .10 .30 .50
Korrelationskoeffizient r |.10| |.30| |.50|
Determinationskoeffizient r² .01 .09 .25
Kreuztabelle Cohen’s w, φ, Cramer’s V, C |.10| |.30| |.50|
ANOVA f
.10 .25 .40
η²part .01 .06 .14
Multiple Regression R² .02 .13 .26
Cohen’s f² .02 .15 .35

Referenzwerte von Cohen, abgewandelt nach Ellis (2010).

Rechner für Effektstärken


Unterhalb findet sich ein Rechner für die Maße der Effektstärke, die wir in diesem Artikel vorgestellt haben. Je nach gewünschtem Maß der Effektstärke müssen nicht zwangsläufig alle Variablen angegeben werden, sondern nur dir, die auch in der Formel (rechts neben dem Maß) angegeben wurden.

Quellen


  1. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed). Hillsdale, N.J: L. Erlbaum Associates.
  2. Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. Cambridge, New York: Cambridge University Press.
  3. Grissom, R. J. & Kim, J. J. (2012). Effect sizes for research: Univariate and multivariate applications (2nd ed.). New York: Routledge
  4. Kirk, R. E. (1996). Practical Significance: A Concept Whose Time Has Come. Educational and Psychological Measurement, 56(5), 746–759. doi:10.1177/0013164496056005002
  5. Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in psychology, 4. doi:10.3389/fpsyg.2013.00863
  6. McGrath, R. E., & Meyer, G. J. (2006). When effect sizes disagree: The case of r and d. Psychological Methods, 11(4), 386–401. doi:10.1037/1082-989X.11.4.386
  7. Rasch, B. (2010). Quantitative Methoden: Einführung in die Statistik (3., erw. Aufl). Springer-Lehrbuch : Bachelor. Berlin: Springer.
  8. Sedlmeier, P. (2009). Beyond the Significance Test Ritual. Zeitschrift für Psychologie / Journal of Psychology, 217(1), 1–5. doi:10.1027/0044-3409.217.1.1
  9. Thompson, B. (2007), Effect sizes, confidence intervals, and confidence intervals for effect sizes. Psychology in the Schools, 44: 423–432. doi: 10.1002/pits.20234
Mathematik für Schule und Studium