Daten & Packages laden

Laden Sie die folgenden Packages und Data Frames:

library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5     ✓ purrr   0.3.4
## ✓ tibble  3.1.4     ✓ dplyr   1.0.7
## ✓ tidyr   1.1.3     ✓ stringr 1.4.0
## ✓ readr   2.0.1     ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(magrittr)
## 
## Attaching package: 'magrittr'
## The following object is masked from 'package:purrr':
## 
##     set_names
## The following object is masked from 'package:tidyr':
## 
##     extract
url <- "http://www.phonetik.uni-muenchen.de/~jmh/lehre/Rdf"
rating <- read.table(file.path(url, "rating.txt"))
preasp <- read.table(file.path(url, "preasp.txt"))
asp <- read.table(file.path(url, "asp.txt"))
vdata <- read.table(file.path(url, "vdata.txt"))

Q & A’s

1. Datenmanipulation mit dplyr

  • Q1.1: Benennen Sie die Spalten vdur, clodur, vtype im Data Frame preasp dauerhaft um in vowelDuration, closureDuration und vowelType, und lassen Sie sich die Spaltennamen des Data Frames anzeigen.

  • Q1.2: Finden Sie heraus, welche Vokale (vowelType) im Data Frame preasp mit den fünf höchsten Vokaldauern (vowelDuration) assoziiert sind. (Ergebnis ist ein Vektor mit 5 Elementen)

  • Q1.3: Berechnen Sie für die drei verschiedenen Konsonanten (cplace) im Data Frame preasp die maximale, minimale und durchschnittliche Verschlussdauer (closureDuration) und sortieren Sie das Ergebnis nach absteigender durchschnittlicher Verschlussdauer. (Ergebnis hat 3 Zeilen und 4 Spalten)

  • Q1.4: Berechnen Sie für alle Beobachtungen, wo der Vokal “a” und die Region ungleich “C” ist, die Standardabweichung der Vokaldauer pro Region und Stadt. (Ergebnis hat 12 Zeilen und 3 Spalten)

  • Q1.5: Berechnen Sie pro Versuchsperson (Vpn) das erste und dritte Quartil des Ratings im Data Frame rating. (Ergebnis hat 26 Zeilen und 3 Spalten)

  • Q1.6: Berechnen Sie für die ersten 100 Beobachtungen im Data Frame rating den Median und den Mittelwert der Ratings pro Sprache (Lang). (Ergebnis hat 2 Zeilen und 3 Spalten)

  • Q1.7: Finden Sie heraus, wie viele Beobachtungen es pro Versuchsperson (Vpn) im Data Frame rating gibt. (Ergebnis hat 26 Zeilen und 2 Spalten)

  • Q1.8: Finden Sie heraus, wie viele einzigartige Sprecher spk es pro Stadt, Region und Konsonant (cplace) im Data Frame preasp gibt (Ergebnis hat 45 Zeilen und 4 Spalten). Lassen Sie sich anschließend ausgeben, für welche Kombination(en) aus Stadt, Region und Konsonant es die wenigsten einzigartigen Sprecher gibt. Tipp: Hierfür müssen Sie sicherstellen, dass das Ergebnis des ersten Teils ein ungruppierter Data Frame ist.

2. Abbildungen mit ggplot2

  • Q2.1: Zeigen Sie mittels eines Barplots mit dem Data Frame asp, inwiefern der Konsonantentyp (Kons) von der Betonung (Bet) beeinflusst wird. Auf der x-Achse soll die Betonung angezeigt werden, die Füllfarbe der Balken soll sich nach dem Konsonantentyp richten. Die Balken sollen Proportionen anzeigen. Schreiben Sie unter Ihrem Code Ihre Einschätzung zu der Fragestellung als Kommentar auf.

  • Q2.2: Erstellen Sie ein Histogramm über die Ratings im Data Frame rating, wobei die Balken eine Breite von 0.5 haben und weiß umrandet sein sollen.

  • Q2.3: Erstellen Sie die Abbildung aus Q2.2 erneut, aber diesmal mit der Wahrscheinlichkeitsdichte auf der y-Achse.

  • Q2.4: Erstellen Sie einen Scatterplot über alle Beobachtungen des Data Frames vdata, bei denen der Vokal (V) entweder “A” oder “I” oder “U” ist. F1 soll auf der y- und F2 auf der x-Achse sein.

  • Q2.5: Erstellen Sie einen Boxplot für F2 pro Versuchsperson (Subj) im Data Frame vdata. Fügen Sie dem Boxplot außerdem noch eine horizontale Linie bei 1500 Hz hinzu.

  • Q2.6: Erstellen Sie einen Barplot mit dem Data Frame preasp, bei dem die Region auf der x-Achse liegt und die Füllfarbe den Vokaltyp (vowelType) angibt. Es sollen hier nur Beobachtungen verwendet werden, für die die Vokaldauer vowelDuration zwischen 0.09 und 0.18 liegt. Die Balken sollen außerdem nebeneinander liegen.