library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.3.6      ✔ purrr   0.3.5 
## ✔ tibble  3.1.8      ✔ dplyr   1.0.10
## ✔ tidyr   1.2.1      ✔ stringr 1.4.0 
## ✔ readr   2.1.2      ✔ forcats 0.5.1 
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
url <- "http://www.phonetik.uni-muenchen.de/~jmh/lehre/Rdf"
df <- read.table(file.path(url, "vdata.txt")) %>% as_tibble() %>% 
  rename(vokal = V, spannung = Tense, konsonant = Cons, tempo = Rate, subject = Subj) %>% 
  mutate(dauer = log(dur)) %>% 
  select(-c(X, Y))

1 Einführung in die Inferenzstatistik

1.1 Populations und Samples

Eine Population oder Grundgesamtheit ist im statistischen Sinne die Menge aller Einheiten (d.h. Personen, Wörter, etc.), die in bestimmten Identifikationskriterien (z.B. Geschlecht, Herkunft, grammatikalische Funktion, etc.) übereinstimmen. Stellen Sie sich z.B. vor, Sie möchten die durchschnittliche Grundfrequenz (F0) aller Frauen in Deutschland erfassen. Dann ist Ihre Population die Menge aller Frauen in Deutschland, also ca. 40 Mio. Menschen. Den Populationsmittelwert \(\mu\) (sprich: /myː/) können Sie in diesem Beispiel nur ermitteln, indem Sie zu jeder einzelnen Frau in Deutschland fahren und deren Grundfrequenz messen, was natürlich schon rein wirtschaftlich unmöglich ist.

Stattdessen erhebt man in der Wissenschaft meist Stichproben (samples), also z.B. nur einen Teil der weiblichen Bevölkerung, und geht davon aus, dass der so erhaltene Stichprobenmittelwert \(m\) (Sie werden disen Wert auch mit dem Symbol \(\bar{X}\) bezeichnet sehen) nicht allzu weit weg ist vom tatsächlichen Populationsmittelwert \(\mu\). Je größer die Stichprobe ist, desto mehr wird sich deren Mittelwert \(m\) und Standardabweichung \(s\) dem tatsächlichen Populationsmittelwert \(\mu\) und der Populationsstandardabweichung \(\sigma\) (sigma) annähern.

Hinweis zur Notation

Für die Merkmale einer Population werden im Normalfall griechische Symbole (\(\mu\), \(\sigma\)…) verwendet, für die Merkmale einer empirisch erhobenen Verteilung (d.h. einer Stichprobe) werden römische Buchstaben (\(m\), \(s\)…) benutzt.

Die Methoden der Inferenzstatistik ermöglichen uns Rückschlüsse von der Stichprobe auf die Population. Genauer gesagt: die Inferenzstatistik hilft uns dabei, die Parameter der Population zu schätzen, anhand unserer Stichprobe.

1.2 Null hypothesis testing

Bei der statistischen Prüfung von Hypothesen geht es darum, auf der Grundlage von Daten über die Plausibilität von zwei (oder mehr) hypothetischen Modellen zu entscheiden. Dies erfordert drei Schritte:

  1. Auswahl eines geeigneten Tests.
  2. Definierung einer Nullhypothese.
  3. Berechnung einer Teststatistik und eines \(p\)-Wertes.

Darüber hinaus möchten wir vielleicht auch:

  1. Die statistische Signifikanz dieses \(p\)-Wertes bestimmen.
  2. Die statistischen Signifikanz der Ergebnisse interpretieren.

Es gibt einige zusätzliche Details, die wir hier überspringen, aber dies sind die wesentlichen Aspekte des Verfahrens. Am wichtigsten sind die ersten drei, aber auch die vierte und fünfte Komponente sind häufig anzutreffen, so dass wir einige Zeit darauf verwenden werden, zu erklären, was sie sind und was sie bedeuten.

1.2.1 Statistische Tests

Unsere erste Aufgabe besteht darin, einen geeigneten Test auszuwählen. Welchen Test wir wählen, hängt von unseren Forschungszielen ab.

Vielleicht interessieren wir uns zum Beispiel dafür, ob die Geburtsstadt eines Sprechers vorhersagt, ob er dies:

als “Semmel” oder als “Brötchen” bezeichnet. Wenn man in München geboren ist (im Gegensatz zu, sagen wir, Berlin), benutzt man dann eher “Semmel”? Stellen Sie sich vor, wir haben einen Fragebogen an einige Berliner und einige Münchner verschickt, und so haben wir eine Vorstellung davon, wie viele welches Wort verwenden. In diesem Fall wäre ein geeigneter Test der Chi-square-test, der uns besagt, ob Geburtsstadt und Wortwahl unabhängig sind oder nicht.

Oder vielleicht haben wir ein Experiment durchgeführt, um herauszufinden, ob die Spannung (also das phonologische Merkmal [±gespannt]) einen Einfluss auf die Vokaldauer hat. In diesem fall könnten wir eine \(t\)-test verwenden um zu prüfen, ob sich die Verteilung der Dauer zwischen gespannten und ungespannten Vokale unterscheidet.

In den kommenden Wochen werden wir mehr über diese Tests erfahren. Bis dahin ist es wichtig zu wissen, dass es verschiedene Arten von Tests gibt, die für verschiedene Arten von Daten und Forschungsfragen geeignet sind.

1.2.2 Die Nullhypothese

Nachdem wir den geeigneten Test bestimmt haben, stellen wir eine statistische Nullhypothese auf. Sie wird als Nullhypothese bezeichnet, weil sie auf der Grundlage der Daten “annulliert” (widerlegt) werden muss.

Die Nullhypothese (Abkürzung: H0 oder H\(_0\)) wird oft nur grobbeschrieben, zum Beispiel: “Die Vokallänge wird von der Betonung nicht beeinflusst”, oder “Der Geburtsort hat keinen Effekt auf die Wortwahl”. Aber was genau meinen wir mit “nicht beeinflusst” oder “hat keinen Effekt”?

Die Antwort hängt davon ab, wie wir H0 definieren. Es gibt keine feste Regel, und die Logik des Tests hängt nicht von der gewählten Formulierung ab. Eine Nullhypothese könnte lauten:

  • Der Unterschied zwischen gespannten und ungespannten Vokalen ist nicht größer als 10 msec.
  • Der Unterschied zwischen gespannten und ungespannten Vokalen ist nicht größer als 20 msec.
  • Der Unterschied zwischen gespannten und ungespannten Vokalen ist nicht größer als 500 msec.

…oder irgendeine andere Zahl. Wenn sie jedoch nicht spezifiziert ist, wird oft implizit angenommen, dass die Nullhypothese eine Nil-hypothese ist: nämlich, dass der Unterschied gleich Null (0) ist. Beispiele für H0 als Nil-hypothese wären:

  • “Der Unterschied in der Dauer eines betonten Vokals im Vergleich zu einem unbetonten Vokal beträgt 0 Millisekunden”

oder

  • “Der Unterschied in der durchschnittlichen F0 zwischen in Berlin und in München geborenen Frauen beträgt 0 Hz”.

Wenn Sie denken, dass die Prüfung einer Nil-hypothese von fragwürdigem Informationswert ist, haben Sie Recht. In der Praxis kommt dies jedoch sehr häufig vor. Das bedeutet nicht, dass es eine gute Idee ist, aber es ist wichtig zu verstehen, was es bedeutet, um das Ergebnis eines Tests zu interpretieren, wenn H0 eine Nil-hypothese ist.

1.2.3 P-Werte

Da wir nun einen Test und eine Nullhypothese haben, besteht unser nächster Schritt in der Berechnung des \(p\)-Wertes unserer Teststatistik. Der \(p\)-Wert ist eine Wahrscheinlichkeit, und zwar: die Wahrscheinlichkeit, dass ein Effekt einer bestimmten Größe oder größer zu beobachtet, wenn die Nullhypothese wahr wäre.

Kehren wir zu unserem Experiment zurück, bei dem wir untersuchen, ob es einen Unterschied in der Dauer zwischen gespannten und ungespannten Vokalen gibt. Wir messen eine große Anzahl von sowohl gespannten als auch ungespannten Vokalen und stellen fest, dass die durchschnittliche Dauer bei gespannten Vokalen 568 msec beträgt, während sie bei ungespannten Vokalen 548 msec beträgt. Wir unterziehen diese Daten einem \(t\)-Test, der uns einen \(p\)-Wert von 0,02 liefert.

Was bedeutet dieser \(p\)-Wert? Er bedeutet, dass unter der Annahme, dass die Nullhypothese wahr ist – und zwar, dass beide Datensätze aus derselben Grundgesamtheit stammen – die Wahrscheinlichkeit, rein “zufällig” einen Unterschied von 20 ms oder mehr festzustellen, 2% beträgt. Mit anderen Worten: wenn wir 100 Experimente durchführen würden, in denen wir Vokale zufällig auswählen und ihre Dauer messen, würden wir nur in 2 dieser Experimente einen Unterschied von 20 msec oder mehr erwarten - wenn es stimmt, dass Spannung keinen Einfluss auf die Dauer hat.

Dies sind die kritischen Komponenten dieses Testverfahrens. Angesichts unseres Tests, unserer Nullhypothese und unseres \(p\)-Werts können wir nun den \(p\)-Wert wie folgt interpretieren: Je kleiner der \(p\)-Wert, desto stärker ist der Beweis gegen die Nullhypothese. Ein Forschungsergebnis mit einem ausreichend niedrigen \(p\)-Wert kann daher als Beweis gegen die Null gewertet werden – das heißt, als Beweis dafür, dass die Nullhypothese unsere Ergebnisse möglicherweise nicht zufriedenstellend erklärt.

1.2.4 Das Signifikanzniveau

Darüber hinaus werden Forschungsergebnisse öfters auf der Grundlage eines bestimmten Signifikanzniveaus bewertet, indem man vergleicht, ob der erhaltene \(p\)-Wert das Signifikanzniveau unterschreitet oder nicht. Das Festlegen eines Signifikanzniveaus ist eine Möglichkeit, zu formalisieren, was wir unter einem „ausreichend niedrigen“ \(p\)-Wert verstehen.

In diesem Zusammenhang sollen wir darauf hinweisen, dass “Signifikanz” eine spezifische technische Bedeutung hat. Das Signifikanzniveau ist ein theoretischer \(p\)-Wert, der als Bezugspunkt für die Ermittlung statistisch signifikanter Ergebnisse dient. Wenn der \(p\)-Wert ungefähr gleich oder kleiner als das Signifikanzniveau ist, gilt das Ergebnis als statistisch signifikant. Ist der \(p\)-Wert größer als das Signifikanzniveau, gilt das Ergebnis als statistisch nicht signifikant.

Beachten Sie, dass “signifikant” in diesem Sinne nicht dasselbe ist wie “wichtig”! Bei einer ausreichend großen Datenstichprobe und einem beliebig hohen Signifikanzniveau kann ein Unterschied von 1 msec statistisch signifikant, aber dennoch bedeutungslos sein.

Die Forscher geben nicht immer an, von welchem Signifikanzniveau sie ausgehen, wenn sie ihre \(p\)-Werte bewerten. Herkömmliche Signifikanzniveaus wie 5 % (sig \(\approx\) 0.05) oder 1 % (sig \(\approx\) 0.01) werden oft angenommen, ohne dass dies ausdrücklich erwähnt wird. Die Wahl dieser Werte ist nicht völlig willkürlich, wie wir später sehen werden, wenn wir uns mit Konfidenzintervallen beschäftigen. Am besten ist es jedoch, das verwendete Niveau immer anzugeben.

1.2.5 Interpretation von statistischen Signifikanz

Nachdem wir festgestellt haben, ob ein Ergebnis “statistisch signifikant” ist oder nicht, wie gehen wir nun vor? Ein signifikantes Ergebnis wird wörtlich als eine doppelte Aussage interpretiert: Entweder ist etwas Seltenes passiert, oder die Nullhypothese erklärt die Forschungsergebnisse nicht zufriedenstellend. Solche wörtlichen Interpretationen sind jedoch selten anzutreffen. Häufiger sind Interpretationen nach dem Motto “Da die Nullhypothese die Forschungsergebnisse nicht gut zu erklären scheint, gehen wir davon aus, dass andere Prozesse für die Ergebnisse verantwortlich sind”.

In unserem Beispiel der Vokallänge wäre eine gängige Schlussfolgerung, dass die Größe des beobachteten Unterschieds zwischen den Gruppen unter der Nullhypothese sehr unwahrscheinlich ist und wir daraus schließen, dass die Spannung die Vokallänge beeinflusst. Diese Schlussfolgerung ist jedoch nur dann zulässig, wenn wir bei der Versuchsplanung (oder der Auswahl des Materials) sorgfältig vorgegangen sind, so dass unsere beiden Gruppen nur in einer Eigenschaft ähnlich sind. Wenn z. B. die [+gespannt] Vokale in unserer Stichprobe auch alle vordere Vokale sind (z.B. /e i y/) während die [-gespannt] Vokale alle hintere Vokale sind (z.B. /a ɔ ʊ/), könnte unser Test zwar dazu führen, dass wir die Nullhypothese ablehnen. Es ist allerdings in dem Fall nicht klar, ob den Unterschied auf das Merkmal [±tense] oder auf die Vokalhöhe zurückzuführen ist.

1.2.6 Nichtsignifikanz

Was bedeutet es, wenn wir ein nicht-signifikantes Ergebnis erhalten? Vielleicht finden wir einen durchschnittlichen Unterschied zwischen F0 von Frauen aus Berlin und Frauen aus München von 5 Hz mit einem \(p\)-Wert von 0.65. Das heißt: wenn Heimatstadt wirklich keinen Einfluss auf die F0 hat, würden wir trotzdem erwarten, in 65 von 100 ähnlichen Stichproben einen Unterschied zwischen Berlinern und Münchnern von mindestens 5 Hz zu beobachten. Das bedeutet allerdings nicht, dass es gar keinen Unterschied zwischen den Gruppen gibt: es bedeutet, dass wir erwarten würden, in 2/3 aller ähnlichen Stichproben einen Unterschied von mindestens 5 Hz.

Anhand der relative hohen \(p\)-Wert würden wird also in diesem Fall H\(_0\) nicht widerlegen. Stattdessen würden wir beschließen–da einen Unterschied von mindestens 5 Hz sowieso relativ wahrscheinlich ist–es gibt keinen Grund nicht davon auszugehen, dass unsere Berliner Stichprobe und unsere Münchner Stichprobe nicht aus der gleichen Grundgesamtheit stammen.

Achtung!

Bei dem hier beschriebenen Verfahren gibt der \(p\)-Wert nur die Wahrscheinlichkeit der Datenstichprobe unter der Nullhypothese an. Als solcher ist er “abhängig” von der Definition der Nullhypothese. Die Ablehnung der Nullhypothese auf der Grundlage eines niedrigen \(p\)-Wertes “unterstützt” oder “beweist” nicht notwendigerweise das Gegenteil (d. h., dass ein gewisser Unterschied zwischen den beiden Gruppen besteht). Er “unterstützt” oder “beweist” auch nicht, dass das, was in unserer Untersuchung sonst noch gemacht wurde (z. B. die Behandlung, wie sie in medizinischen Studien üblich ist), das Ergebnis erklärt. Schließlich sollte der \(p\)-Wert nie als die Wahrscheinlichkeit das H0 wahr ist interpretiert.

1.3 Das Neyman-Pearson-Verfahren

Der oben skizzierete Ansatz ist in erster Linie von R. A. Fisher in den 1920er Jahren entwicklt und in seinem Buch Statistical Methods and Scientific Inference von 1956 ausführlich darlegte. Es ist jedoch nicht der einzig mögliche Ansatz. Fast zeitgleich mit der Verbreitung seiner Ideen haben andere Forscher angefangen, die Methoden von Fisher zu verbessern. Zwei von ihnen, Jerzy Neyman und Egon Pearson, entwickelten schließlich ein alternatives Verfahren, das sich in einer Reihe wichtiger Punkte von Fishers unterscheidet. Während bei Fishers Ansatz nur eine einzige Hypothese (H0) festgelegt wird, gibt es beim Neyman-Pearson-Verfahren immer zwei Hypothesen, H1 (oder H\(_M\)) und H2 (oder H\(_A\); manchmal wird H1 als Nullhypothese und H2 als Alternativhypothese bezeichnet). Anstatt einen \(p\)-Wert zu berechnen, wird vor der Datenerhebung ein binäres Entscheidungskriterium (annehmen oder ablehnen) festgelegt. Wenn die Daten in den “Ablehnungsbereich” von H1 fallen, akzeptieren wir H2; andernfalls akzeptieren wir H1.

Die Einzelheiten des Neyman-Pearson-Verfahrens sind kompliziert, und wir werden sie in dieser Einführung nicht weiter ausführen. Es ist jedoch nützlich, ein Beispiel anzuschauen, bei dem dieser Ansatz sinnvoll ist.

Eine typische Anwendung des Neyman-Pearson-Verfahrens ist in der Qualitätssicherung. Stellen Sie sich vor, Sie haben eine Fabrik, die Stahlträger herstellt. Wir möchten, dass jeder von uns hergestellte Träger eine niedrige Streckgrenze von 300 MPa aufweist, und betrachten alle Träger mit einer Streckgrenze von weniger als 250 MPa als ungeeignet für die Verwendung im Bau und daher als gefährlich. Wir können dies als unsere beiden Hypothesen aufstellen: H1 ist “die niedrige Streckgrenze eines Trägers beträgt mindestens 300 MPa” und H2 ist “die niedrige Streckgreze eines Trägers beträgt 250 MPa oder weniger”.

Wir möchtent nun die Fälle erkennen, in denen H2 zutrifft, d. h. in denen ein Herstellungsfehler zu einem gefährlich schwachen Träger geführt hat. Eine Möglichkeit wäre die Streckgrenze jedes von uns hergestellten Trägers zu messen. Das ist allerdings teuer und zeitaufwändig, und wenn unsere Herstellungsverfahren gut sind, werden die meisten der von uns geprüften Träger völlig in Ordnung sein. Wir wollen also nicht Zeit und Geld für die Prüfung jedes einzelnen Trägers aufwenden müssen. Das Neyman-Pearson-Verfahren kann uns dabei helfen, die Anzahl der zu prüfenden Träger genau zu bestimmen, und zwar auf der Grundlage unterschiedlicher Werte für die Bereitschaft, mit unseren beiden Hypothesen falsch zu liegen.

Dazu müssen wir zwei Parameter angeben, die Neyman und Pearson \(\alpha\) und \(\beta\) nannten. \(\beta\) ist unsere Toleranz für falsche Alarme, d.h. die Annahme von H2, wenn H1 wahr ist. Ein falscher Alarm bedeutet, dass wir fälschlicherweise einen vollkommen guten Träger wegwerfen. Das ist insofern teuer, als es Verschwendung bedeutet, aber es ist viel besser als die zweite Fehlerart, bei der wir H1 akzeptieren, wenn H2 wahr ist - das heißt, wir verpassen einen Träger, der wegen seiner Schwäche hätte weggeworfen werden müssen. Wenn wir am Ende einen fehlerhaften Träger verkaufen, könnte eine Brücke einstürzen, und das wäre natürlich schlecht für unser Unternehmen.

Da wir beschlossen haben, dass Verpasser viel schlimmer sind als falsche Alarme, setzen wir die erste Parameter, \(\alpha\), auf einen sehr kleinen Wert (z.B. 0,1%) und die zweite, \(\beta\), auf einen größeren (z.B. 10%). In der Praxis bedeutet dies, dass wir zwar bereit sind, bis zu 100 von 1000 produzierten Trägern wegzuwerfen, aber nur 1 schwachen Träger von 1000 produzierten Trägern nicht zu erkennen. Wir sind nun in der Lage, die erforderliche Stichprobengröße zu berechnen, d. h. die Anzahl \(n\) der Träger, die täglich geprüft werden müssen, um diese Anforderungen zu erfüllen. Da die Anzahl der Vepasser und falsche Alarme, die wir zu tolerieren bereit sind, abnimmt, erhöht sich der erforderliche Stichprobenumfang \(n\).

Wenn dieser Verfahren H1 ablehnt - was im Gegensatz zu Fishers Ansatz die Akzeptanz von H2 nach sich zieht - stoppen wir die Produktion, um nach der Fehlerquelle zu suchen. Das bedeutet jedoch nicht, dass wir glauben, dass H2 wahr ist, weder für den bestimmten Träger noch im Allgemeinen. Das liegt daran, dass wir die Dinge so eingerichtet haben, dass wir in 1 von 10 Trägern, bei denen es kein Problem gibt, einen falschen Alarm erwarten müssen - also in 10 % der Fälle, wie durch unser \(\beta\) festgelegt.

1.4 “Null-hypothesis significance testing”

In Szenarien wie diesem kann das Neyman-Pearson-Verfahren zur Hypothesenprüfung äußerst nützlich sein. Er ist wohl auch in vielen wissenschaftlichen Bereichen nützlich, obwohl dies nach wie vor heftig diskutiert wird. Leider ist der Ansatz der statistischen Prüfung in vielen Bereichen, wie z. B. der Psychologie und den Sozialwissenschaften, eine Art inkonsistente, inkohärente Mischung aus diesen beiden Verfahren, was zum Teil auf ihre vielen Ähnlichkeiten und zum Teil auf grundlegende statistische Missverständnisse zurückzuführen ist. Man sieht häufig, dass Forscher eine statistische Nullhypothese aufstellen, die eine Nullhypothese ist (vom Typ “der mittlere Unterschied zwischen den Gruppen ist 0”), und dann die Forschungshypothese (oft als Alternativhypothese bezeichnet) akzeptieren, wenn der \(p\)-Wert das konventionelle Niveau von 0.05% unterschreitet. Die Ergebnisse werden dann häufig als \(p < 0.05\), \(p < 0.01\) oder \(p < 0.001\) angegeben, je nachdem, welcher Wert dem erhaltenen p-Wert am nächsten kommt. Dieses hybride Verfahren wird manchmal als Null hypothesis significance testing oder NHST bezeichnet (siehe z.B. Gigerenzer, 2004).

Trotz seiner Allgegenwärtigkeit sollte dieser NHST-Ansatz vermieden werden, nicht nur, weil er die (in einigen Fällen unvereinbaren) Aspekte zweier verschiedener Verfahren miteinander vermengt, sondern auch, weil er eine auswendig gelernte, methodische Herangehensweise an statistisches Denken fördert, die zu falschen Schlussfolgerungen, verschwendeten Ressourcen und Forschungssackgassen führen kann.

1.5 In diesem Kurs

Was werden wir hier also in der Praxis tun? Zumindest für diesen Kurs können Sie den Neyman-Pearson-Ansatz zur Seite legen (obwohl Sie wissen sollten, dass es ihn gibt). Noch wichtiger ist jedoch, dass Sie die beiden Ansätze nicht in einer Art “NHST”-Hybrid mischen sollten, auch wenn Sie das anderswo vielleicht begegnen. Wir werden uns darauf konzentrieren zu lernen, wie man geeignete statistische Tests auswählt und damit \(p\)-Werte erzeugt.

  • Wenn Sie das Ergebnis eines statistischen Tests angeben, sollten Sie immer das exakte Signifikanzniveau angeben, z. B. p = 0.02, p = 0.84, p = 0.049 usw. Sie sollten \(p\)-Werte nicht als p < 0.05 oder ähnliches angeben, was eine Ja-Nein-Entscheidung impliziert, oder den \(p\)-Wert mit Sternchen ausschmücken, z. B. p < 0.001***.
  • In Fällen, in denen es sinnvoll ist, von einem “Signifikanzniveau” zu sprechen, sollte dieses angegeben werden, z. B. “Da der \(p\)-Wert von 0.14 nicht unter das konventionelle Signifikanzniveau von 0.05 fällt, weisen wir die Nullhypothese nicht zurück”. Sie sollten dieses Signifikanzniveau nicht als \(\alpha\) bezeichnen, auch wenn Sie es an anderer Stelle lesen.
  • Denken Sie schließlich daran, dass wir einen Test verwenden, um zu entscheiden, ob wir die Nullhypothese (H0) verwerfen oder nicht, und nicht, ob wir eine Alternativhypothese annehmen sollen.

Die folgenden zwei Zitate fassen zusammen, was wir stattdessen als unsere Leitprinzipien betrachten:

You communicate information; you do not make yes–no decisions. – Gerd Gigerenzer

Failure to describe what is actually going on in the data is a failure to do an adequate analysis. Use lots of plots, and think. - Russ Lenth

2 Normalverteilung

Oben in 2.1 haben wir auf den Unterschied zwischen einer Population und einer Stichprobe hingewiesen. Parallel dazu unterscheidet man auch zwischen theoretischen und empirischen Verteilungen. Theoretische Verteilungen haben häufig feststehende Namen (Normalverteilung, Poisson-Verteilung, Student-t-Verteilung, etc.) und es wird davon ausgegangen, dass Messwerte, die für eine gesamte Population erhoben wurden, einer bestimmten theoretischen Verteilung folgen. Wie wir aber festgestellt haben, können wir so gut wie nie eine Population vermessen und nutzen stattdessen eine Stichprobe. Die Messwerte einer Stichprobe stellen eine empirische Verteilung dar, weil sie empirisch erhoben wurden. Wir werden häufig testen müssen, welcher theoretischen Verteilung die erhobene empirische Verteilung am ehesten entspricht.

In vielen empirischen Experimenten entsprechen die Daten einer Normalverteilung (auch Gauss-Verteilung genannt). Diese Verteilung lässt sich durch die zwei Parameter Mittelwert und Standardabweichung vollständig beschreiben. Hier sehen Sie drei verschiedene Normalverteilungen:

Wie Sie sehen, verschiebt der Mittelwert die Normalverteilung entlang der x-Achse, während die Standardabweichung zu Veränderungen in der Breite der Verteilung führt: je größer die Standardabweichung, desto breiter die Normalverteilung. Außerdem zeigt die Abbildung, dass die Verteilung kontinuierlich ist, d.h. sie deckt den Wertebereich von minus bis plus unendlich ab.

2.1 Auf Normalverteilung testen

Im Data Frame df wurde die Dauer von Vokalen festgehalten. Hier wollen wir testen, ob die empirische Verteilung der Dauer der Normalverteilung entspricht. Dies ist oft wichtig zu wissen, da die Gültigkeit vieler statistischer Tests von einer normalverteilten Stichprobe abhängt. Wenn diese Bedingung nicht erfüllt ist, kann der Test sogar nicht verwendet werden (ist nicht gültig).

Hier ist zunächst die empirisch gemessene Dauer in einer Wahrscheinlichkeitsdichteverteilung:

ggplot(df) + 
  aes(x = dauer) + 
  #geom_histogram(aes(y=..density..)) +  # scale histogram y
  geom_density() + 
  xlim(3.0, 7.0)

Weiterführende Infos: Logarithmierung von Daten

In der Abbildung sehen Sie die Vokaldauer nicht in Millisekunden, sondern in logarithmierter Form, d.h. wir haben den natürlichen Logarithmus auf die Daten angewendet (s. Code Snippet, in dem df geladen wurde). Bei bestimmten Messwerten kann es sinnvoll sein, die Daten zu logarithmieren, nämlich dann, wenn die empirische Verteilung ge-skewed ist. Bei Reaktionszeiten ist es z.B. nicht möglich, dass es Werte unter Null gibt; auch niedrige Werte (unter 100ms) sind sehr unwahrscheinlich, aber sehr lange Reaktionszeiten kommen durchaus vor. Bei Dauerwerten ist es ähnlich. Die tatsächlichen Dauerwerte in Millisekunden sehen so aus:

ggplot(df) + 
  aes(x = dur) + 
  geom_density() + 
  xlab("Dauer (ms)")

Diese Verteilung hat einen starken rechtsseitigen Skew, eben weil lange Dauerwerte vorkommen, während sehr kurze Dauerwerte selten sind.

2.2 Überlagerung der Normalverteilung mit ggplot2

Um zu checken, ob Daten normalverteilt sind, sind visuelle Methoden unter angewandten Statistikern und Statistikerinnen beliebter als statistische Tests. Die erste Möglichkeit ist die Überlagerung der Normalverteilung über die empirische Verteilung. Dafür nutzen wir die Funktion dnorm(), die als Argumente den Mittelwert mean und die Standardabweichung sd bekommt. In ggplot2 können wir nicht einfach “fremde” Funktionen wie dnorm() an unseren ggplot()-Code anhängen. Wir benutzen stattdessen die ggplot2-eigene Funktion stat_function(). Diese Funktion hat folgende Argumente:

  • fun: Die Funktion, mittels derer eine neue Kurve (in unserem Fall: die Kurve der Normalverteilung) erzeugt werden soll.

  • args: Eine Liste von Argumenten der unter fun angegebenen Funktion. In unserem Fall braucht die Funktion dnorm() die Argumente mean und sd.

ggplot(df) + 
  aes(x = dauer) + 
  geom_density() + 
  xlim(3.0, 7.0) + 
  stat_function(fun = dnorm, 
                args = list(mean = mean(df$dauer), sd = sd(df$dauer)),
                color = "blue")

Es gibt leichte Unterschiede zwischen der blauen Normalverteilung und der schwarzen empirischen Verteilung. Wahrscheinlich sind unsere Daten also nicht perfekt normalverteilt, aber zumindest annähernd. Daher ist es wahrscheinlich in Ordnung, wenn wir mit dieser Stichprobe statistische Tests anwenden, die normalverteilte Daten erfordern.

2.3 Q-Q-Plot

Neben der Überlagerung der Normalverteilung auf die empirische Verteilung werden häufig sogenannte Q-Q-Plots benutzt, wobei Q für Quantil steht. Schauen Sie folgendes YouTube-Video, um zu verstehen, wie ein Q-Q-Plot berechnet wird. Und lassen Sie sich nicht verwirren: Obwohl im Video auf der y-Achse “sample quantiles” steht, sind das einfach nur die aufsteigend geordneten Datenpunkte!

ggplot(df) +
  aes(sample = dauer) +
  stat_qq() +
  stat_qq_line() +
  ylab("samples") +
  xlab("theoretical quantiles")

In ggplot2 kann diese Abbildung mittels stat_qq() erstellt werden. Zusätzlich plotten wir mit stat_qq_line() eine gerade Linie, die wir zur Orientierung nutzen können. Wenn die Punkte von der Linie abweichen, sind die Daten nicht normalverteilt (wobei leichte Abweichungen am oberen und unteren Ende der Linie recht häufig sind). In diesem Fall ist ebenfalls eine leichte Abweichung von der Normalverteilung zu erkennen.

2.4 Interpretation trainieren

Anfänglich kann es schwierig sein, anhand einer oder zwei Abbildungen festzulegen, ob die geplotteten Daten normalverteilt sind. Hier zeigen wir deshalb vier Beispiele für eindeutig nicht normalverteilte Daten, damit Sie Ihren Blick dafür schärfen können, wie Q-Q-Plots und überlagerte Wahrscheinlichkeitsverteilungen nicht aussehen sollten, wenn Ihre Daten normalverteilt sind.

Im folgenden sehen Sie vier Wahrscheinlichkeitsverteilungen: für bimodale Daten (es gibt zwei Peaks), für links und rechts ge-skew-te Daten, sowie für uniform verteilte Daten (wo jeder Wert theoretisch gleich häufig vorkommt).

Hier sind dieselben Wahrscheinlichkeitsverteilungen mit der jeweils parametrisch angepassten Normalverteilung (d.h. für jede Normalverteilung wurden der der abgebildeten Verteilung entsprechende Mittelwert und die entsprechende Standardabweichung verwendet):

Zuletzt erstellen wir noch für alle vier Verteilungen die Q-Q-Plots, die deutlich von der geraden Linie abweichen:

3 Statistik in R: Literatur

Wenn Sie mehr Informationen zu benötigen, seien Ihnen folgende Werke ans Herz gelegt: