Daten & Packages laden

Laden Sie die folgenden Packages und Data Frames:

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.3     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.3     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
url <- "https://www.phonetik.uni-muenchen.de/studium_lehre/lehrmaterialien/R_speech_processing/Rdf/"
dip <- read.table(file.path(url, "dip.txt"), stringsAsFactors = T)
preasp <- read.table(file.path(url, "preasp.txt"), stringsAsFactors = T)

Q & A’s

1. Basics

  • Q1.1: Bestätigen Sie, dass die Variable V im Data Frame dip ein Faktor ist.

  • Q1.2: Was sind die Stufen von diesem Faktor?

  • Q1.3: Wieviele einzigartige Elemente gibt es in der Variable Vpn im Data Frame dip?

  • Q1.4: Lassen Sie sich mittels einer Funktion die Vorkommenshäufigkeit der verschiedenen Vokale V im Data Frame dip anzeigen.

  • Q1.5: Finden Sie mittels table() heraus, wie viele Tokens pro Vokalkategorie V pro Versuchsperson Vpn es im Data Frame dip gibt.

2. Filtering & Selecting

  • Q2.1: Lassen Sie sich vom Data Frame dip die Beobachtungen 1-10 ausgeben.

  • Q2.2: Lassen Sie sich vom Data Frame dip die Beobachtungen 15, 18, 20 der Variable V ausgeben.

  • Q2.3: Lassen Sie sich vom Data Frame dip die Variablen d und V für die zehn Beobachtungen mit den höchsten d-Werten ausgeben.

  • Q2.4: Lassen Sie sich vom Data Frame dip die letzten vier Beobachtungen ausgeben.

  • Q2.5: Lassen Sie sich vom Data Frame dip alle ungeraden Zeilen ausgeben. Tipp: Mit der Funktion seq() können Sie einen Vektor von ungeraden Ganzzahlen erzeugen.

  • Q2.6: Lassen Sie sich alle Beobachtungen aus dip ausgeben, wo die Versuchsperson Vpn S67 ist und d höher als 190. (Ergebnis hat 5 Zeilen und 3 Spalten)

  • Q2.7: Lassen Sie sich die fünf Beobachtungen mit den niedrigsten d-Werten aus dip ausgeben, wo der Vokal V nicht “aU” und nicht “OY” ist.

3. Mutating & Renaming & Arranging

  • Q3.1: Benennen Sie die Variablen im Data Frame dip um in Dauer, Vokal, Versuchsperson. Speichern Sie das Ergebnis als dipneu.

  • Q3.2: Hängen Sie an den Data Frame dip eine Spalte namens Index an, die die Zahlen von 1 bis 186 enthält. Speichern Sie das Ergebnis als dip2.

  • Q3.3: Hängen Sie an den Data Frame dip eine Spalte namens Länge an, die den Wert “lang” enthält, wenn die Dauer höher ist als 200, “kurz” für Dauerwerte unter 100, und “mittel” für alle anderen Dauerwerte. Speichern Sie das Ergebnis als dip3.

  • Q3.4: Hängen Sie an den Data Frame dip eine Spalte namens Region an, die den Wert “Bayern” enthält für die Versuchsperson S67 und “Berlin” für die Versuchsperson 68. Speichern Sie das Ergebnis als dip4.

  • Q3.5: Ordnen Sie die Beobachtungen im Data Frame preasp nach aufsteigendem vdur und speichern Sie die Ausgabe in einem neuen Data Frame p2.df.

  • Q3.6: Ordnen Sie die Beobachtungen im Data Frame preasp alphabetisch geordnet nach city und innerhalb von city nach absteigendem vdur. Speichern Sie das Ergebnis in einem neuen Data Frame p3.df.