Laden Sie die folgenden Packages und Data Frames:
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4
## ✓ tibble 3.1.4 ✓ dplyr 1.0.7
## ✓ tidyr 1.1.3 ✓ stringr 1.4.0
## ✓ readr 2.0.1 ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(magrittr)
##
## Attaching package: 'magrittr'
## The following object is masked from 'package:purrr':
##
## set_names
## The following object is masked from 'package:tidyr':
##
## extract
<- "http://www.phonetik.uni-muenchen.de/~jmh/lehre/Rdf"
url <- read.table(file.path(url, "rating.txt"))
rating <- read.table(file.path(url, "preasp.txt"))
preasp <- read.table(file.path(url, "asp.txt"))
asp <- read.table(file.path(url, "vdata.txt")) vdata
dplyr
Q1.1: Benennen Sie die Spalten vdur
, clodur
, vtype
im Data Frame preasp
dauerhaft um in vowelDuration
, closureDuration
und vowelType
, und lassen Sie sich die Spaltennamen des Data Frames anzeigen.
Q1.2: Finden Sie heraus, welche Vokale (vowelType
) im Data Frame preasp
mit den fünf höchsten Vokaldauern (vowelDuration
) assoziiert sind. (Ergebnis ist ein Vektor mit 5 Elementen)
Q1.3: Berechnen Sie für die drei verschiedenen Konsonanten (cplace
) im Data Frame preasp
die maximale, minimale und durchschnittliche Verschlussdauer (closureDuration
) und sortieren Sie das Ergebnis nach absteigender durchschnittlicher Verschlussdauer. (Ergebnis hat 3 Zeilen und 4 Spalten)
Q1.4: Berechnen Sie für alle Beobachtungen, wo der Vokal “a” und die Region ungleich “C” ist, die Standardabweichung der Vokaldauer pro Region und Stadt. (Ergebnis hat 12 Zeilen und 3 Spalten)
Q1.5: Berechnen Sie pro Versuchsperson (Vpn
) das erste und dritte Quartil des Ratings im Data Frame rating
. (Ergebnis hat 26 Zeilen und 3 Spalten)
Q1.6: Berechnen Sie für die ersten 100 Beobachtungen im Data Frame rating
den Median und den Mittelwert der Ratings pro Sprache (Lang
). (Ergebnis hat 2 Zeilen und 3 Spalten)
Q1.7: Finden Sie heraus, wie viele Beobachtungen es pro Versuchsperson (Vpn
) im Data Frame rating
gibt. (Ergebnis hat 26 Zeilen und 2 Spalten)
Q1.8: Finden Sie heraus, wie viele einzigartige Sprecher spk
es pro Stadt, Region und Konsonant (cplace
) im Data Frame preasp
gibt (Ergebnis hat 45 Zeilen und 4 Spalten). Lassen Sie sich anschließend ausgeben, für welche Kombination(en) aus Stadt, Region und Konsonant es die wenigsten einzigartigen Sprecher gibt. Tipp: Hierfür müssen Sie sicherstellen, dass das Ergebnis des ersten Teils ein ungruppierter Data Frame ist.
ggplot2
Q2.1: Zeigen Sie mittels eines Barplots mit dem Data Frame asp
, inwiefern der Konsonantentyp (Kons
) von der Betonung (Bet
) beeinflusst wird. Auf der x-Achse soll die Betonung angezeigt werden, die Füllfarbe der Balken soll sich nach dem Konsonantentyp richten. Die Balken sollen Proportionen anzeigen. Schreiben Sie unter Ihrem Code Ihre Einschätzung zu der Fragestellung als Kommentar auf.
Q2.2: Erstellen Sie ein Histogramm über die Ratings im Data Frame rating
, wobei die Balken eine Breite von 0.5 haben und weiß umrandet sein sollen.
Q2.3: Erstellen Sie die Abbildung aus Q2.2 erneut, aber diesmal mit der Wahrscheinlichkeitsdichte auf der y-Achse.
Q2.4: Erstellen Sie einen Scatterplot über alle Beobachtungen des Data Frames vdata
, bei denen der Vokal (V
) entweder “A” oder “I” oder “U” ist. F1 soll auf der y- und F2 auf der x-Achse sein.
Q2.5: Erstellen Sie einen Boxplot für F2 pro Versuchsperson (Subj
) im Data Frame vdata
. Fügen Sie dem Boxplot außerdem noch eine horizontale Linie bei 1500 Hz hinzu.
Q2.6: Erstellen Sie einen Barplot mit dem Data Frame preasp
, bei dem die Region auf der x-Achse liegt und die Füllfarbe den Vokaltyp (vowelType
) angibt. Es sollen hier nur Beobachtungen verwendet werden, für die die Vokaldauer vowelDuration
zwischen 0.09 und 0.18 liegt. Die Balken sollen außerdem nebeneinander liegen.