\( \newcommand{\br}[1]{\left( #1\right)} \newcommand{\logpar}[1]{\log\left( #1\right)} \newcommand{\cospar}[1]{\cos\left( #1\right)} \newcommand{\sinpar}[1]{\sin\left( #1\right)} \newcommand{\tanpar}[1]{\tan\left( #1\right)} \newcommand{\arcsinpar}[1]{\sin^{-1}\!\left( #1\right)} \newcommand{\arccospar}[1]{\cos^{-1}\!\left( #1\right)} \newcommand{\arctanpar}[1]{\tan^{-1}\!\left( #1\right)} \newcommand{\asin}[1]{\sin^{-1}\! #1} \newcommand{\acos}[1]{\cos^{-1}\! #1} \newcommand{\atan}[1]{\tan^{-1}\! #1} \newcommand{\asinh}[1]{\sinh^{-1}\! #1} \newcommand{\acosh}[1]{\cosh^{-1}\! #1} \newcommand{\atanh}[1]{\tanh^{-1}\! #1} \newcommand{\logten}[1]{\log_{10}\! #1} \definecolor{explaination}{RGB}{0, 166, 226} \newcommand{\ubrace}[2][u]{ { \color{explaination}{\underbrace{ {\color{black}{#2}} }_{#1}} } } \newcommand{\obrace}[2][u]{ { \color{explaination}{\overbrace{ {\color{black}{#2}} }^{#1}} } } \definecolor{highlight}{RGB}{181, 41, 118} \newcommand{\xplain}[1]{{ \textcolor{explaination} { \footnotesize{ #1 \newline}}}} \newcommand{\hilite}[1]{{ \textcolor{highlight} { { #1 }}}} \definecolor{lightergray}{gray}{.675} \newcommand{\hide}[1]{{ \textcolor{lightergray} { \footnotesize{ #1 \newline}}}} \newcommand{\mth}[1]{ { \textcolor{black} { { \small #1 } } } } \)

Normalverteilung

Eine der wichtigsten stetigen Wahrscheinlichkeitsverteilungen, ist die Normalverteilung. Sie wurde von Abraham de Moivre und später Carl Friedrich Gauß analysiert. Der Beitrag von Gauß war so fundamental, dass die Normalverteilung auch oft Gauß-Verteilung genannt wird. Wegen ihrer charakteristischen Form wird sie auch manchmal einfach nur Glockenkurve genannt, auch wenn es viele Verteilungsfunktionen gibt, die einen glockenförmigen Graphen besitzen.

Die Einsatzmöglichkeiten der Normalverteilung sind so zahlreich, dass sie als das „Schweizer Taschenmesser“ der Statistik bezeichnet werden kann.

Definition

\( \Large{ \displaystyle f(x{,}\;\mu{,}\;\sigma^2) \;\,=\;\, \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} } \)

Das Aussehen und die Eigenschaften der Normalverteilung werden durch zwei Parameter bestimmt:

  • Der Erwartungswert µ. Er legt fest, an welcher Stelle die Normalverteilung ihr Maximum haben wird.
  • Die Varianz σ². Die Wurzel der Varianz σ ist die Standardabweichung.

Die gesamte Fläche, die von der Kurve der Normalverteilung eingeschlossen wird (daher das Integral von -∞ bis ∞), ist stets 1.

Anwendung

Intelligenz, Körpergröße (eines einzigen Geschlechts), sogar Sozialkompetenz: all diese Werte sind normalverteilt. Dies bedeutet beispielsweise, dass die meisten Menschen durchschnittlich groß sind und nur sehr wenige sehr groß oder sehr klein sind. Sogar Einkommen wird normalverteilt, wenn man die Daten vorher logarithmiert.

Die Normalverteilung ist die wichtigste Verteilung der Statistik, und wird sowohl in Naturwissenschaften als auch Geistes- und Wirtschaftswissenschaften verwendet, deren tatsächliche Verteilungsfunktion unbekannt ist. Sie wird meist verwendet, wenn die eigentliche, den Daten zugrunde liegende Verteilungsfunktion unbekannt ist. Ein Grund für den hohen Stellenwert der Normalverteilung ist der zentrale Grenzwertsatz.

Der Zentrale Grenzwertsatz

Zum Hauptartikel: Zentraler Grenzwertsatz.

Er besagt, dass der Durchschnitt einer großen Anzahl an beobachteten Zufallsvariablen, die aus derselben Verteilung gezogen wurden, annähernd normalverteilt sein werden, unabhängig von der Verteilungsfunktion aus der sie herausgenommen wurden. Es ist daher so, dass physische Quantitäten, welche die Summe aus vielen verschiedenen Unterprozessen sind (wie beispielsweise Messfehler) oft eine Verteilungsfunktion haben, die annähernd der Normalverteilung entspricht.

Nimmt man also eine ausreichend große Stichprobe aus einer Grundgesamtheit, so wird der Mittelwert der Stichprobe näherungsweise dem Mittelwert der Grundgesamtheit entsprechen. Zusätzlich werden alle Stichproben annähernd normalverteilt sein, mit einer Varianz, die der der Grundgesamtheit geteilt durch die Größe der Stichprobe entspricht.

Ein weiterer Grund für die Beliebtheit der Normalverteilung ist, dass andere Größen analytisch hergeleitet werden können, wenn man sie als Verteilungsfunktion annimmt. Eine dieser Größen ist beispielsweise die Fehlerfortpflanzung.

Standardnormalverteilung

Der einfachste Fall tritt ein, wenn µ = 0 und σ² = 1 ist. Für diese Werte wird die Normalverteilung auch Standardnormalverteilung genannt.

\( \Large{ \displaystyle\phi(x) \;=\; \frac{1}{\sqrt{2\pi}}\cdot e^{- \frac{\scriptscriptstyle 1}{\scriptscriptstyle 2} x^2} } \)

Der Vorfaktor \( \frac{1}{\sqrt{2\pi}} \) stellt sicher, dass die gesamte Fläche unter der Kurve (und damit auch das Integral von -∞ bis ∞) eine Fläche von genau 1 hat. Die ½ im Exponenten der e-Funktion gibt der Normalverteilung eine Einheitsvarianz (und damit auch eine Einheitsstandardabweichung). Die Symmetrieachse der Funktion liegt bei x=0, wo sie auch ihren Höchstwert \( \frac{1}{\sqrt{2\pi}} \) erreicht. Die beiden Wendestellen liegen jeweils bei x = 1 und x = -1.

Allgemeine Normalverteilung

Jede Normalverteilung ist eine Variante der Standardnormalverteilung. Um die Funktionswerte anzugleichen, muss die Standardnormalverteilung auf zwei verschiedene Weisen verändert werden:

  • Die Standardnormalverteilung muss um den Faktor \( \frac{1}{\sigma} \) gestreckt werden. Dies stellt auch sicher, dass die vom Graphen eingeschlossene Fläche weiterhin 1 bleibt.
  • Der Funktionsparameter der Standardnormalverteilung wird dabei z-transformiert (auch z-standardisiert). Diese Art der Transformation berechnet einen neuen Wert zu einer Normalverteilungsfunktion mit dem Erwartungswert Null und der Varianz Eins.

\( \large{ \displaystyle\ubrace[\text{Allgemeine Normalverteilung}]{\frac{1}{\sigma\sqrt{2\pi}}\cdot e^{ -\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}} \;\;=\;\; \frac{1}{\sigma}\cdot \ubrace[\text{Standardnormalverteilung}]{\phi\left(\frac{x-\mu}{\sigma}\right)} } \)

Schreibweise

Die Standardnormalverteilung wird in der Literatur oft mit dem kleinen griechischen Buchstaben ϕ (phi) angegeben. Die andere Schreibweise dieses Buchstaben φ wird auch verwendet.

Will man die Normalverteilung allerdings mit den Parametern für den Erwartungswert und der Varianz angeben, schreibt man \( \mathcal{N}(\mu,\,\sigma^2) \). Daher, wenn eine Zufallsvariable X mit einem Erwartungswert von µ und einer Varianz von σ² normalverteilt ist, schreibt man:

\( \Large{ \displaystyle X\ \sim\ \mathcal{N}(\mu,\,\sigma^2) } \)

Verteilungsfunktion der Normalverteilung

Die Verteilungsfunktion der Normalfunktion ist die eingeschlossene Fläche unter der Normalfunktion (daher das Integral) von -∞ bis zum Wert x an. Sie hat einen schwanenhalsförmigen (Sigmoid) Graphen.

\( \displaystyle\int \dfrac{1}{\sqrt{2\pi\sigma^2}}\operatorname{exp}\left\{-\frac{\left(x-\mu\right)^2}{2\sigma^2}\right\}\,\mathrm{d}x \;\;=\;\; \frac12\left[1 + \operatorname{erf}\left( \frac{x-\mu}{\sqrt{2\sigma^2}}\right)\right] \)

Φ(x) ist das Symbol für die Verteilungsfunktion der Standardnormalverteilung. Unterhalb sind die Graphen von vier Verteilungsfunktionen von vier Normalverteilungen für verschiedene Werte von µ und σ.

Verteilungsfunktion der Normalverteilung

erf(x) ist die Gauß’sche Fehlerfunktion. Sie gehört zu den speziellen Funktionen und lässt sich nur als unendliche Reihe oder Kettenbruch (welcher auch unendlich ist) darstellen (siehe Definition unten). Normalerweise wird sie mit dem Computer oder Taschenrechner mit bereits vordefinierten Funktionen berechnet, daher ist vertiefendes Wissen bezüglich ihrer Berechnung in der Regel nicht notwendig.

\( \displaystyle\operatorname{erf}(x) \;\;=\;\; \frac {2}{\sqrt{\pi}}\sum_{n=0}^\infty\frac{(-1)^n\cdot x^{2n+1}}{(2n+1)\cdot n!} \;\;=\;\; \frac {2}{\sqrt{\pi}}\left(x – \frac{x^3}{3} + \frac{x^5}{10} – \frac{x^7}{42} + \frac{x^9}{216} – \dotsb \right) \;\;=\;\; 1 – \frac{e^{-x^2}}{\sqrt\pi\left(x + \frac 1{2x + \frac 2{x + \frac 3{2x + \frac 4{x + \dotsb}}}}\right)} \)

Eigenschaften

Wert Eigenschaft
Notation
\( \mathcal{N}(\mu,\,\sigma^2) \)
Parameter
\( \begin{align} \mu &\in \mathbb{R} \;\;\text{(Erwartungswert)} \\ \sigma &> 0 \;\;\text{(Varianz)} \end{align} \)
Dichtefunktion
\( \frac{1}{\sqrt{2\pi\sigma^2}}\cdot e^{-\frac{\left(x-\mu\right)^2}{2\sigma^2}} \)
Verteilungsfunktion
\( \frac12\left[1 + \operatorname{erf}\left( \frac{x-\mu}{\sqrt{2\sigma^2}}\right)\right] \)
Mittelwert µ
Median µ
Modus µ
Varianz σ²
Standardabweichung σ

Die Normalverteilung ist symmetrisch, wobei x = µ die Symmetrieachse bildet. Auch wenn sich die Werte der Normalverteilung asymptotisch dem Wert Null (nach beiden Seiten hin) nähern, so ist die Normalverteilung für keinen Wert von x jemals 0.

Die Normalverteilung erreicht auch Werte nahe Null, für Werte von x, die einige Standardabweichungen vom Erwartungswert entfernt liegen. Daher ist sie nicht unbedingt die Verteilungsfunktion der Wahl, wen man eine größere Anzahl an Ausreißern (Werte, die einige Standardabweichungen vom Erwartungswert entfernt liegen) erwartet. Die Methode der kleinsten Quadrate und anderen Methoden der statistischen Interferenz, die sich optimal für normalverteilte Variablen anwenden lassen, geben in solchen Fällen nur sehr unzuverlässige Ergebnisse. Ist dies der Fall, sollten endlastige Verteilungen (Heavy-tailed-Verteilung) stattdessen verwendet werden.

Die Form der Dichtefunktion wird vollständig über die Standardabweichung σ bestimmt. Je kleiner σ ist, desto steiler ist der Gipfel der Funktion um den Erwartungswert herum; je größer σ, desto flacher ist der Graph.

Der Parameter µ hingegen verschiebt die Normalverteilung entlang der x-Achse. Dies ist auch selbsterklärend, da die Normalverteilung immer bei µ ihr Maximum hat.

Die Veränderungen von der Standardabweichung σ und dem Erwartungswert µ und ihre Auswirkungen auf den Graphen der Normalverteilung sind noch einmal in den Grafiken unterhalb zusammengefasst:

 

Normalverteilung: Veränderungen von Sigma

Kleinere Werte von σ lassen den Graphen der Normalverteilung um den Erwartungswert herum steiler verlaufen.

Normalverteilung: Veränderung von Mü

An der Stelle des Erwartungswerts µ ist das Maximum der Normalverteilungsfunktion. Ist der Wert kleiner, so bewegt sich der Graph weiter nach links; ist er größer, so verschiebt er sich nach rechts.

Weitere Eigenschaften

Normalverteilung mit Wendestellen / WendepunktenEine Normalverteilung mit einem Erwartungswert und einer beliebigen Standardabweichung σ hat die folgenden Eigenschaften:

  • Sie ist symmetrisch, wobei die vertikale Achse der Symmetrie bei x = µ liegt, welche auch der Modus, Median und Erwartungswert der Verteilung ist.
  • Sie ist unimodal (sie hat nur einen Gipfel).
  • Sie erreicht ihr Maximum an der Stelle x = µ.
  • Ihre erste Ableitung ist positiv für Werte von x < µ und negativ für Werte von x > µ; am Punkt x = µ hat die erste Ableitung einen Wert von Null.
  • Sie hat genau zwei Wendestellen: beide Wendestellen sind genau eine Standardabweichung vom Erwartungswert entfernt, nämlich bei x1 = µ – σ und x2 = µ + σ.
  • Sie ist an jeder Stelle von x differenzierbar.
  • Sie ist stetig, daher von -∞ bis ∞ definiert.

Spezielle Eigenschaften der Standardnormalverteilung

Die Standardnormalverteilung, als besondere Variante der Normalverteilung, hat zusätzlich noch folgende Eigenschaften:

  • Ihre erste Ableitung ϕ'(x) ist gleich -x · ϕ(x)
  • Die zweite Ableitung ϕ“(x) ist gleich (x²-1) · ϕ(x)

Die Normalverteilung als Näherung zur Binomialverteilung

Wenn n ausreichend groß ist (etwa n > 20), ist die Schiefe der Verteilung klein genug, dass die Normalverteilung zur Approximation der Binomialverteilung B(n, p) verwendet werden kann. In diesem Fall wird \( \mathcal{N}(n, p,\,\; n\, p\,\big(1-p)\big) \) für die Parameter der Normalverteilung verwendet.

Im allgemeinen nähert die Normalverteilung die Binomialverteilung umso besser, umso größer n ist. Gleichzeitig sollte p nicht in der nähe von 0 oder 1 sein – daher nahe 0,5. Es gibt eine Reihe von Faustregeln, die helfen eine Aussage darüber zu treffen, ob n und p adäquat gewählt wurden, um die Normalverteilung als Näherung zu verwenden:

  • eine Faustregel besagt, dass n · p und n(1-p) jeweils größer als 5 sein müssen. Jedoch gibt es auch Quellen, die 4 oder andere Zahlen als Mindestwert angeben. Generell kommt es auch darauf an, wie gut die Approximation sein soll. Daher gibt es auch Quellen, welche als Mindestwert 10 angeben – ein Wert welcher so hoch ist, dass gewisse Konvergierungseffekte eintreten. Dass heißt, dass für n → ∞ die Werte der Binomialverteilung, den Werten die Normalverteilung entsprechen werden.
  • Eine weitere Faustregel besagt, dass die Normalverteilung zur Näherung der Binomialverteilung verwendet werden darf, wenn n > 5 und
    \( \left | \frac{1}{\sqrt{n}} \cdot \left (\sqrt{\frac{1-p}{p}}-\sqrt{\frac{p}{1-p}} \right ) \right |<0{,}3 \)

68–95–99,7-Regel

P(µ − σ ≤ x ≤ µ+σ) ≈ 0,6827
P(µ − 2σ ≤ x ≤ µ+2σ) ≈ 0,9545
P(µ − 3σ ≤ x ≤ µ+3σ) ≈ 0,9973
Die 68-95-99,7-Regel gibt an, dass bei einer Normalverteilung fast alle Werte innerhalb drei Standardabweichungen vom Mittelwert aus fallen. Ungefähr 68,27% der Werte liegen innerhalb einer Standardabweichung vom Mittelwert. Ebenso liegen ungefähr 95,45% der Werte innerhalb von zwei Standabweichungen vom Mittelwert. Und ca. 99,73% der Werte befinden sich innerhalb von drei Standardabweichungen vom Mittelwert.

Diese Regel gilt für alle Normalverteilungen – unabhängig vom Erwartungswert und der Standardabweichung.

Beispiel

Normalverteilung: 68-95-99-RegelDie Körpergröße des Menschen ist für ein Geschlecht betrachtet normalverteilt. Laut einer Statistik des sozio-oekonomischen Panels (SOEP) aus dem Jahr 2006 liegt der Erwartungswert der Durchschnittsgröße µ bei Frauen in Deutschland bei 165,4cm, und die Standardabweichung σ bei 4,5cm.

Aus der 68-95-99,7-Regel folgt, dass

  • 68% aller deutschen Frauen eine Körpergröße zwischen 160,9cm (µ-σ) und 169,9cm (µ+σ) haben
  • 95% aller deutschen Frauen eine Körpergröße zwischen 156,4cm (µ-2σ) und 174,4cm (µ+2σ) haben
  • 99,7% aller deutschen Frauen eine Körpergröße zwischen 151,9cm (µ-3σ) und 178,9cm (µ+3σ) haben

Auf der Abbildung auf der rechten Seite ist die 68-95-99,7-Regel noch einmal grafisch veranschaulicht.

Tabelle der Populationen im Verhältnis zum Abstand der Standardabweichung zum Erwartungswert

Bereich Population im Bereich Erwartete Häufigkeit außerhalb des Bereichs Ungefähres Auftreten, bei einem täglichen Ereignis
μ ± 1σ 0,682689492137086 1 aus 3 zwei Mal wöchentlich
μ ± 1.5σ 0,866385597462284 1 aus 7 wöchentlich
μ ± 2σ 0,954499736103642 1 aus 22 alle drei Wochen
μ ± 2.5σ 0,987580669348448 1 aus 81 vierteljährlich
μ ± 3σ 0,997300203936740 1 aus 370 jährlich
μ ± 3.5σ 0,999534741841929 1 aus 2.149 alle sechs Jahre
μ ± 4σ 0,999936657516334 1 aus 15.787 alle 43 Jahre (zweimal im Leben)
μ ± 4.5σ 0,999993204653751 1 aus 147.160 alle 403 Jahre
μ ± 5σ 0,999999426696856 1 aus 1.744.278 alle 4.776 Jahre (einmal in der bekannten Geschichtsschreibung)
μ ± 5.5σ 0,999999962020875 1 aus 26.330.254 alle 72.090 Jahre
μ ± 6σ 0,999999998026825 1 aus 506.797.346 alle 1,38 Millionen Jahre (Alter der Menschheit)
μ ± 6.5σ 0,999999999919680 1 aus 12.450.197.393 alle 34 Millionen Jahre
μ ± 7σ 0,999999999997440 1 aus 390.682.215.445 alle Milliarden Jahre
μ ± xσ \( \textstyle\operatorname{erf}\left(\frac{x}{\sqrt{2}}\right) \) 1 aus  \( \textstyle \frac{1}{1-\operatorname{erf}\left(\frac{x}{\sqrt{2}}\right)} \) alle  \( \textstyle \frac{1}{1-\operatorname{erf}\left(\frac{x}{\sqrt{2}}\right)} \)  Tage

Interaktive Normalverteilung

Durch Verändern des Erwartungswerts und der Standardabweichung verändert sich auch die Position bzw. die Form des Graphen der Normalverteilung. Dazu einfach die Werte durch beiden Regler unterhalb verändern.

Mittelwert
0
Standardabweichung
0,25

Normalverteilung-Rechner

Der Rechner für die Normalverteilung berechnet den Wert der Verteilungsfunktion, der kumulierten Verteilungsfunktion sowie Quartile und kritische Werte.

Erwartungswert
\( {\color{gray}{ \mu \in \mathbb{R} }} \)
Standardabweichung
\( {\color{gray}{ \sigma \in \mathbb{R} }} \)
Alle Berechnungen werden mit R durchgeführt

$$ \large P(X=k) \,=\, f(k;\, n,\, p) \,=\, {n\choose k}\cdot p^k\cdot (1-p)^{n-k} $$


Berechnungsergebnis

f(k; n, p) =

$$ \large F(k;\, n,\, p) \,=\, P(X \le k) \,=\, \sum_{i=0}^{\lfloor k \rfloor} {n\choose i}\cdot p^i\cdot (1-p)^{n-i} $$


Berechnungsergebnis

F(k; n, p) =

$$ \large P(X \ge k) \,=\, \sum_{i=\lfloor k \rfloor}^{n} {n\choose i}\cdot p^i\cdot (1-p)^{n-i} $$


Berechnungsergebnis

F(k; n, p) =