Laden Sie die folgenden Packages und Data-Frames:
library(tidyverse)
library(gridExtra)
urla = "https://www.phonetik.uni-muenchen.de/studium_lehre/"
urlb = "lehrmaterialien/R_speech_processing/Rdf"
url = paste0(urla, urlb)
preasp = read.table(file.path(url, "preasp.txt"), stringsAsFactors = T)
vdata = read.table(file.path(url, "vdata.txt"), stringsAsFactors = T)
Q1.1: Fünf achtseitige Würfel (nummeriert
mit 1, 2 …8) wurden mehrmals zusammen geworfen. Bei jedem Wurf wurde der
Mittelwert der fünf Zahlen berechnet. Berechnen Sie den
Populationsmittelwert und -standarderror und speichern Sie sie als
Variablen mu
und SE
.
Q1.2: Führen Sie Q1.1 durch für 200 Würfe (also um 200 Mittelwerte zu bekommen). Erzeugen Sie ein Histogramm Ihrer Mittelwerte, und überlagern Sie die entsprechende Normalverteilung darauf.
Q1.3: Berechnen Sie die Wahrscheinlichkeit, dass ein Mittelwert aus der Verteilung in Q1.2 (a) unter 2.5 oder (b) zwischen 5 und 7 liegt.
Q1.4: Auf der Basis früherer Studien wurde mu = 100 Hz und SE = 15 Hz für die Grundfrequenz in männlichen Stimmen eingeschätzt. Erstellen Sie (a) ein 95%- und (b) ein 99%-Konfidenzintervall auf dieser Basis für die f0 von Männern.
Q1.5: Was ist die Wahrscheinlichkeit, dass die Grundfrequenz von einem Mann (a) unter 80 Hz oder (b) zwischen 110 Hz und 125 Hz liegt?
Q1.6: In einer Gruppe von 50 Männern: wieviele davon müssten daher eine f0 unter 80 Hz haben?
Zur Orientierung siehe bitte auch die Lösung zu Q10 hier sowie die zweite Boxplot-Abbildung hier.
2.1: Im Data-Frame preasp
berechnen Sie den Mittelwert der vc
Dauer für
+preasp
und für -preasp
(Spalte
Pre
) getrennt pro Stadt (city
). Der Data-Frame
sollte 30 Reihen und 3 Spalten haben: dessen Spaltennamen sind
city
, Pre
, und z.B. m
(für
Mittelwert).
Q2.2: Subtrahieren Sie die beiden
Mittelwerte pro Stadt voneinander. Der Data-Frame soll dann 15 Reihen
(einen Differenzwert pro Stadt) und zwei Spalten mit Namen
city
und z.B. d
(für den Unterschied zwischen
den Mittelwerten) beeinhalten.
Q2.3: Erstellen Sie einen einzigen Boxplot dieser 15 Differenzwerte. Überlagern Sie eine horizontale Linie mit Wert von 0 (Null) auf dem Boxplot.
Q2.4: Es geht darum zu berechnen, ob die
Dauer (dur
) von A
größer ist als die Dauer von
I
im Dataframe vdata
. Berechnen Sie die
durchschnittliche Dauer von gespanntem A
(+
in
der Variable Tense
) und von gespanntem I
gemittelt über Artikulationsstelle (Cons
),
Sprechgeschwindigkeit (Rate
) und Versuchsperson
(Subj
). (Eine Reihe im Ergebnis besteht z.B. aus dem
Dauermittelwert von A
produziert von bk
zu
einer langsamen Sprechgeschwindigkeit, und im Kontext der
Artikulationsstelle K
). Ihr Dataframe sollte 5 Spalten
beeinhalten (V
, Cons
, Rate
,
Subj
und z.B. m
für Mittelwert) und 84
Reihen.
Q2.5: Erstellen Sie daraus einen Data-Frame
der Dauermittelwertunterschiede zwischen A
und
I
für dieselben Kontexte (Cons
,
Rate
, Subj
). (Ihr Dataframe besteht somit aus
4 Spalten mit Namen Cons
, Rate
,
Subj
und z.B. d
der
Dauermittelwerteunterschiede sowie 42 Reihen).
Q2.6: Erzeugen Sie Boxplots der
Dauermittelwertunterschiede zwischen A
und I
getrennt für die Artikulationsstellen (Cons
) und
Sprechgeschwindigkeiten (Rate
). Überlagern Sie eine
horizontale Line zu dem Wert von 0 (Null) auf die Boxplots. Ihre
Abbildung enthält somit 6 verschiedene Boxplots, einen pro
Sprechgeschwindkeit und pro Artikulationsstelle, und jeder Box enthält
einen Wert pro Sprecher. Bestätigt die Abbildung eine höhere Dauer für
A
im Vgl. zu I
?