\( \newcommand{\br}[1]{\left( #1\right)} \newcommand{\logpar}[1]{\log\left( #1\right)} \newcommand{\cospar}[1]{\cos\left( #1\right)} \newcommand{\sinpar}[1]{\sin\left( #1\right)} \newcommand{\tanpar}[1]{\tan\left( #1\right)} \newcommand{\arcsinpar}[1]{\sin^{-1}\!\left( #1\right)} \newcommand{\arccospar}[1]{\cos^{-1}\!\left( #1\right)} \newcommand{\arctanpar}[1]{\tan^{-1}\!\left( #1\right)} \newcommand{\asin}[1]{\sin^{-1}\! #1} \newcommand{\acos}[1]{\cos^{-1}\! #1} \newcommand{\atan}[1]{\tan^{-1}\! #1} \newcommand{\asinh}[1]{\sinh^{-1}\! #1} \newcommand{\acosh}[1]{\cosh^{-1}\! #1} \newcommand{\atanh}[1]{\tanh^{-1}\! #1} \newcommand{\logten}[1]{\log_{10}\! #1} \definecolor{explaination}{RGB}{0, 166, 226} \newcommand{\ubrace}[2][u]{ { \color{explaination}{\underbrace{ {\color{black}{#2}} }_{#1}} } } \newcommand{\obrace}[2][u]{ { \color{explaination}{\overbrace{ {\color{black}{#2}} }^{#1}} } } \definecolor{highlight}{RGB}{181, 41, 118} \newcommand{\xplain}[1]{{ \textcolor{explaination} { \footnotesize{ #1 \newline}}}} \newcommand{\hilite}[1]{{ \textcolor{highlight} { { #1 }}}} \definecolor{lightergray}{gray}{.675} \newcommand{\hide}[1]{{ \textcolor{lightergray} { \footnotesize{ #1 \newline}}}} \newcommand{\mth}[1]{ { \textcolor{black} { { \small #1 } } } } \)

Quantil, Perzentil

PerzentilErinnern wir uns, dass man den Median berechnet, indem die relative Position der Daten betrachtet wurde. Ordnet man die Messergebnisse, dann ist der Median genau der Wert in der Mitte. Wenn wir beispielsweise wissen, dass der Median eines Tests 83 war, dann wissen wir, dass 50% aller anderen Ergebnisse kleiner als 83 sind und 50% größer. Der Median ist ein Beispiel für ein Perzentil (auch Prozentrang genannt), genauer gesagt: der Median das 50. Perzentil.

Perzentile unterteilen einen geordneten Datensatz in hundert Teile, die eine gleiche Anzahl an Messwerten enthalten. Daher ist eine Unterteilung in Perzentile nur für größere Datensätze sinnvoll.

Allgemein bezeichnet man eine Unterteilung dieser Art als Quantil. Neben Perzentilen sind weitere wichtige Quantile: Quartile (Unterteilung in vier Abschnitte), Quintile (Unterteilung in fünf Abschnitte) und Dezile (Unterteilung in zehn Abschnitte).

Definition

Das Perzentil P (1 ≤ P ≤ 99) einer Verteilungsfunktion ist der Wert, für den P% aller anderen Werte gleich sind oder darunter fallen und (100-P)% aller Werte gleich sind oder darüber fallen.

Quantile sind ganz allgemein eine Grenze, die festlegt, wie viele Werte über oder unter einem gewissen Wert liegen.

Jede Verteilung besitzt eine Quantilsfunktion. Ihr Definitionsbereich liegt zwischen 0 und 1 (0% und 100%). Mathematisch gesehen, ist die Quantilsfunktion die Inverse (Umkehrfunktion) der kumulativen Verteilungsfunktion.

Liegt ein Wert beispielsweise im 35. Perzentil, dann ist dieser Wert niedriger als 65% aller anderen Werte.

Beispiel

  • Wenn ein Testergebnis in das 89. Perzentil fallen würde, wie viel Prozent aller Ergebnisse haben denselben Wert oder liegen darunter?
    -> 89% aller anderen Werte haben denselben Wert oder liegen darunter.
  • Wenn ein Test aus hundert Fragen bestehen würde und eine Person 95 Fragen richtig beantwortet hätte, würde dies auch bedeuten, dass dieses Testergebnis im 95. Perzentil liegt?
    -> Nein. Perzentile geben Aufschluss über die relative Position eine Messwerts (in diesem Fall eines Prüfungsergebnisses). Bei der Berechnung des Perzentils müssen alle anderen Ergebnisse mit berücksichtigt werden. Wenn die anderen Teilnehmer ebenfalls recht hohe Ergebnisse erreicht haben und nur 70% aller anderen Testergebnisse denselben oder einen geringeren Wert als 95 hatten, dann bedeutet dies, dass der Wert 95 im 70. Perzentil liegt, auch wenn der Test mit 95 aus 100 Punkten abgeschlossen wurde.

Quartile

Während Perzentile eine Verteilung in 100 Abschnitte unterteilt, ist dies häufig mehr als gebraucht werden. Quartile (lateinisch: Viertelwerte) unterteilen die Verteilungsfunktion daher in nur vier Abschnitte, mit jeweils der gleichen Anzahl an Messwerten. Sie eignen sich daher auch für kleinere Datenmengen. Quartile sind die wichtigsten Quantile. Die vier Quartile haben verschiedene Namen und Schreibweisen:

  • Q0,25 = Q1 = erstes Quartil = unteres Quartil
  • Q0,5 = Q2 = zweites Quartil = Median (mittleres Quartil)
  • Q0,75 = Q3 = drittes Quartil = oberes Quartil
  • Q1.0 bzw. Q0 decken die Gesamtheit ab und sind daher statistisch irrelevant

Der Differenz zwischen dem dritten und dem ersten Quartil wird als Interquartilsabstand bezeichnet.

Berechnung von Quantilen

\( \large{ \tilde x_p = \begin{cases}\displaystyle\frac{x_{n \cdot p} + x_{n \cdot p + 1}}{2},  & \text{wenn }n \cdot p\in\mathbb{Z}, \\ x_{\lceil n \cdot p \rceil}, & \text{wenn }n \cdot p\notin\mathbb{Z}.\end{cases} } \)
Es gibt viele unterschiedliche Arten, um Perzentile zu berechnen. Sie führen zum Teil zu unterschiedlichen Ergebnissen in unterschiedlichen Situationen, aber sie liegen in der Regel recht nahe bei einander. Bei allen verwendeten Methoden, müssen allerdings zuerst die Daten ihrem Rang nach geordnet werden (bei Zahlen also von klein nach groß). Die natürlichste Art, ein Perzentil zu bestimmen, ist, einen Wert zu finden für den P% aller Daten gleich sind oder darunter fallen. Dies ist allerdings nicht immer möglich, und so muss man sich mit dem Wert begnügen, der dieses Kriterium am ehesten erfüllt. An diesem Punkt unterscheiden sich die Methoden, die dann dann versuchen, diesen ungefähren Wert exakt zu bestimmen.

Die allgemeine Formel zur Berechnung der empirischen Quantile erfolgt mit mit der Formel rechts, wobei n die Anzahl der Messwerte und p das gesuchte Quantil ist.

Beispiel

Nehmen wir als Beispiel folgende zehn Messwerte (daher n = 10):

x1, …, x10 = (1, 2, 2, 3, 5, 8, 9, 12, 12, 13)

Wir wollen das dritte Quartil, das bei p = 0,75 liegt, berechnen. Nach der Formel zur Berechnung empirischer Quantile, ermitteln wir zuerst n · p = 10 · 0,75 = 7,5, welches keine ganze Zahl ist. Daher berechnen wir das empirische Quantil, indem wir \( x_{\lceil n \cdot p \rceil} = x_{\lceil 10 \cdot 0{,}75 \rceil} = x_{\lceil 7{,}5 \rceil} = x_{8} \) ermitteln. Die Klammern \( \left \lceil x \right \rceil \) runden den Wert x auf, während \( \left \lfloor x \right \rfloor \) abrundet. Das 3. empirische Quartil liegt also bei x8 = 12.

Microsoft Excel berechnet für den selben Datensatz allerdings ein anderes drittes Quartil, nämlich 11,25. Dies liegt daran, dass Excel versucht einen „genauen“ Wert zu berechnen, auch wenn dieser Wert nicht Teil des eigentlichen Ausgangsdatensatzes ist. Excel benutzt ein Verfahren namens linearer Interpolation, was davon ausgeht, dass das Verhältnis zwischen den einzelnen Messwerten linear ist. Excel benutzt folgende, etwas kompliziert anmutende Formel:

\( \large{ x_{\lfloor \left( n-1\right) \,p+1 \rfloor} + \big(\left( n-1\right) \,p+1 – \lfloor \left( n-1\right) \,p+1 \rfloor\big) (x_{\lfloor \left( n-1\right) \,p+1 \rfloor + 1} – x_{\lfloor \left( n-1\right) \,p+1 \rfloor}) } \)

Es ist in der Regel nicht notwendig, diese Formel auswendig zu lernen, da Excel und andere Statistikprogramme für solche Berechnungen verwendet werden.