Daten & Packages laden

Laden Sie die folgenden Packages und Data-Frames:

library(tidyverse)
library(gridExtra)
urla = "https://www.phonetik.uni-muenchen.de/studium_lehre/"
urlb = "lehrmaterialien/R_speech_processing/Rdf"
url = paste0(urla, urlb)
preasp = read.table(file.path(url, "preasp.txt"), stringsAsFactors = T)
vdata = read.table(file.path(url, "vdata.txt"), stringsAsFactors = T)

Normalverteilung

Q1.1: Fünf achtseitige Würfel (nummeriert mit 1, 2 …8) wurden mehrmals zusammen geworfen. Bei jedem Wurf wurde der Mittelwert der fünf Zahlen berechnet. Berechnen Sie den Populationsmittelwert und -standarderror und speichern Sie sie als Variablen mu und SE.
Q1.2: Führen Sie Q1.1 durch für 200 Würfe (also um 200 Mittelwerte zu bekommen). Erzeugen Sie ein Histogramm Ihrer Mittelwerte, und überlagern Sie die entsprechende Normalverteilung darauf.
Q1.3: Berechnen Sie die Wahrscheinlichkeit, dass ein Mittelwert aus der Verteilung in Q1.2 (a) unter 2.5 oder (b) zwischen 5 und 7 liegt.
Q1.4: Auf der Basis früherer Studien wurde mu = 100 Hz und SE = 15 Hz für die Grundfrequenz in männlichen Stimmen eingeschätzt. Erstellen Sie (a) ein 95%- und (b) ein 99%-Konfidenzintervall auf dieser Basis für die f0 von Männern.
Q1.5: Was ist die Wahrscheinlichkeit, dass die Grundfrequenz von einem Mann (a) unter 80 Hz oder (b) zwischen 110 Hz und 125 Hz liegt?
Q1.6: In einer Gruppe von 50 Männern: wieviele davon müssten daher eine f0 unter 80 Hz haben?

Differenz-Abbildungen

Zur Orientierung siehe bitte auch die Lösung zu Q10 hier sowie die zweite Boxplot-Abbildung hier.

2.1: Im Data-Frame preasp berechnen Sie den Mittelwert der vc Dauer für +preasp und für -preasp (Spalte Pre) getrennt pro Stadt (city). Der Data-Frame sollte 30 Reihen und 3 Spalten haben: dessen Spaltennamen sind city, Pre, und z.B. m (für Mittelwert).
Q2.2: Subtrahieren Sie die beiden Mittelwerte pro Stadt voneinander. Der Data-Frame soll dann 15 Reihen (einen Differenzwert pro Stadt) und zwei Spalten mit Namen city und z.B. d (für den Unterschied zwischen den Mittelwerten) beeinhalten.
Q2.3: Erstellen Sie einen einzigen Boxplot dieser 15 Differenzwerte. Überlagern Sie eine horizontale Linie mit Wert von 0 (Null) auf dem Boxplot.
Q2.4: Es geht darum zu berechnen, ob die Dauer (dur) von A größer ist als die Dauer von I im Dataframe vdata. Berechnen Sie die durchschnittliche Dauer von gespanntem A (+ in der Variable Tense) und von gespanntem I gemittelt über Artikulationsstelle (Cons), Sprechgeschwindigkeit (Rate) und Versuchsperson (Subj). (Eine Reihe im Ergebnis besteht z.B. aus dem Dauermittelwert von A produziert von bk zu einer langsamen Sprechgeschwindigkeit, und im Kontext der Artikulationsstelle K). Ihr Dataframe sollte 5 Spalten beeinhalten (V, Cons, Rate, Subj und z.B. m für Mittelwert) und 84 Reihen.
Q2.5: Erstellen Sie daraus einen Data-Frame der Dauermittelwertunterschiede zwischen A und I für dieselben Kontexte (Cons, Rate, Subj). (Ihr Dataframe besteht somit aus 4 Spalten mit Namen Cons, Rate, Subj und z.B. d der Dauermittelwerteunterschiede sowie 42 Reihen).
Q2.6: Erzeugen Sie Boxplots der Dauermittelwertunterschiede zwischen A und I getrennt für die Artikulationsstellen (Cons) und Sprechgeschwindigkeiten (Rate). Überlagern Sie eine horizontale Line zu dem Wert von 0 (Null) auf die Boxplots. Ihre Abbildung enthält somit 6 verschiedene Boxplots, einen pro Sprechgeschwindkeit und pro Artikulationsstelle, und jeder Box enthält einen Wert pro Sprecher. Bestätigt die Abbildung eine höhere Dauer für A im Vgl. zu I?

Übung 5

Jonathan Harrington / Johanna Cronenberg

Daten & Packages laden

Normalverteilung

Differenz-Abbildungen