Mögliche Themen für Praktika/Jobs/Abschlussarbeiten

Gratuliere!
Du hast die erste Hürde bereits überwunden, indem du diese Seite (die nicht in den offiziellen, genormten Web-Auftritt der LMU passt!) überhaupt gefunden hast. Viel Spass beim Lesen und ich hoffe, Du findest etwas, was dich interessieren könnte.

(Bei Interesse an Abschlussarbeiten kontaktiere mich bitte rechtzeitig (d.h. vor den Weihnachtsferien).)

Programmieraufgabe: Import-Funktion für EAF Collections in eine emuDB

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760, Raphael Winkelmann, Tel. 2180-2812

Im neuen emuR R-Paket (neues Emu System), gibt es verschiedene Ladefunktionen, um eine Sprachdatenbasis in emuR zu laden, z.B. für das alte legacy Emu oder für praat TextGrid Sammlungen. In dieser Arbeit soll nach diesem Vorbild eine weitere Laderoutine geschrieben und getestet werden, welche einen Sprachkorpus kodiert in ELAN (*.eaf) in eine emuDB lädt.

Voraussetzungen: R Programmierung. Bei Interesse vereinbaren Sie bitte einen Termin.

Programmieraufgabe: Praat Formant-Tracker in R verwenden

Betreuer: Florian Schiel, Tel. 2180-2760

Im neuen emuR System (R packages emuR/wrassp) können Signalverarbeitungen wie Formant-Tracker auf geladene emuDB Signale angewendet werden (Funktionen des R Pakets wrassp). In dieser Praktikumsaufgabe soll eine R Funktion geschrieben und getestet werden, die den in praat implementierten Formant-Tracker in der gleichen Weise wie die anderen wrassp Funktionen aufruft. Dazu soll die oeffentliche C library von praat genutzt werden, oder - im Notfall - das R package PraatR verwendet werden, welches praat Skript-Aufrufe aus R ermöglicht (problematisch, weil sich praat Verhalten dauernd aendert und selten backwards compatible).

Voraussetzungen: R Programmierung. Bei Interesse vereinbaren Sie bitte einen Termin.

Programmieraufgabe: Laden von BAS Partitur Format (BPF) Dateien in R

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760, Raphael Winkelmann, Tel. 2180-2812

Im neuen emuR R-Paket (neues Emu System), gibt es verschiedene Ladefunktionen, um eine Sprachdatenbasis in emuR zu laden, z.B. für das alte legacy Emu oder für praat TextGrid Sammlungen. In dieser Arbeit soll nach diesem Vorbild eine weitere Laderoutine geschrieben und getestet werden, welche einen Sprachkorpus kodiert in BPF (*.par) nach emuR lädt.

Voraussetzungen: R Programmierung. Bei Interesse vereinbaren Sie bitte einen Termin.

Programmieraufgabe: Exportieren von BAS Partitur Format (BPF) Dateien aus einer emuDB (R package emuR)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760, Raphael Winkelmann, Tel. 2180-2812

Im neuen emuR R-Paket (neues Emu System), gibt es verschiedene Exportfunktionen, um eine Sprachdatenbasis emuDB in Dateien eines anderen Formats zu speichern (z.B. in TextGrid mit export_TextGridCollection()). In dieser Arbeit soll nach diesem Vorbild eine weitere Export-Funktion in R geschrieben und getestet werden, welche einen Sprachkorpus in BPF (*.par) Files schreibt.

Voraussetzungen: R Programmierung. Bei Interesse vereinbaren Sie bitte einen Termin.

Entwicklung einer 'echten' Unit Selection Synthese basierend auf den BITS Daten und MARY TTS 5.X (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Der BITS Korpus enthält Stimmaufnahmen von vier professionellen deutschen Sprechern. Basierend auf den annotierten Unit Selection Daten wurden mit Hilfe von MARY 3.0 4 Synthese-Stimmen erzeugt. Diese nutzen jedoch nicht wirklich die annotierte prosodische Information des BITS Korpus.

Inzwischen ist MARY zu MARY TTS 5.0 weiter entwickelt worden. In dieser MA soll mit Hilfe der MARY 5.X Software eine neue Modellierung der 4 BITS US Stimmen unternommen werden, bei der die prosodische Information der BITS Annotation bei der Optimierung der Unit Selection genutzt wird. Außerdem soll geprüft werden, ob sich die US Strategie erweitern lässt durch eine Diphone-basierte Strategie, wenn Namen synthetisiert werden sollen, die sich nicht (oder schlecht) mit dem bestehenden US Inventar modellieren lassen.

Voraussetzungen: Programmierkenntnisse, Grundsätzliches Verständnis von Synthese-Technik.

Bei Interesse vereinbaren Sie bitte einen Termin.

Untersuchung der phonetischen Adaption an ein Dialogsystem (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Es ist bekannt, dass sich Sprecher an ihre Dialogpartner adaptieren, indem sie die wahrgenommene Sprache in vielfältiger Weise, u.a. phonetisch, imitieren. Eine Hypothese ist, dass die Stärke dieser Imitation u.a. von der Stimmung des Sprechers abhängig ist, d.h. ein Sprecher, der die Kommunikationssituation als positiv empfindet (interessant, sympathisch, kurzweilig), adaptiert sich stärker als wenn er sie negativ empfindet (langweilig, unsympathisch etc.)

In dieser Masterarbeit soll ein Sprachkorpus, SmartKom, untersucht werden, der Sprachaufnahmen (Dialoge) enthält von Sprechern, die mit einem Dialogsystem interagieren. Die Stimme des Systems ist immer die gleichen zwei (verfälschten) Stimmen der Wizard-of-Oz, die Sprecher müssen dieselben Aufgaben lösen und haben mehr oder weniger Erfolg dabei. Außer der üblichen Transkription wurden die Aufnahmen auch nach wahrnehmbaren Emotionen der Sprecher annotiert.

Es soll anhand dieser Daten erstens die Hypothese getestet werden, dass sich die Sprecher der künstlichen Synthesestimme anpassen, und zweitens, dass dies umso deutlicher geschieht bei Sprechern, die die Situation als positiv empfinden.

Bei Interesse vereinbaren Sie bitte einen Termin.

Kontext-getriebene phonetische Segmentierung in MAUS (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Das MAUS System segmentiert und ettikettiert Sprachdaten in Wörter und Phone. Die zeitliche Genauigkeit der Segmentgrenzen ist dabei durch die Zeitauflösung des HMM-Erkenners auf ca. +/- 10msec beschränkt.

In dieser Masterarbeit sollen sprachunabhängige Methoden entwickelt werden, die Genauigkeit von Phongrenzen in Abhängigkeit vom Kontext der beteiligten Phon-Klassen zu verbessern: aus einer ersten groben Segmentierung und Ettikettierung werden je nach Ettikettierungskontext verschiedene Algorithmen zur Verbesserung der Segmentierung angewandt. Mögliche Methoden sind: Detektoren im Sprachsignal oder in abgeleiteten Signalen (Energie, Nulldurchgangsrate etc.), oder Verfahren der Mustererkennung angewandt auf spektrale Merkmale.

Bei Interesse vereinbaren Sie bitte einen Termin.

Quantitative Bewertung von automatischen Formant-Trackern (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Es existieren mehrere frei verfügbare Programme zur automatischen Berechnung der Formantfrequenzen (teilweise auch -höhen und -bandbreiten), z.B. in praat, SNACK, Webtranscribe, Emu (ASSP). Diese liefern z.T. sehr unterschiedliche Qualitäten, so dass immer wieder die Frage nach dem 'besten' Formant-Tracker auftaucht. Außer automatischen Verfahren werden Formantverläufe auch manuell, nach Sichtung des Sonagrams bearbeitet (z.B. mit Emu, Stichwort 'Formantkorrektur'), was nicht unumstritten ist.

In dieser Arbeit soll ein quantitatives Bewertungsverfahren ('benchmark') für Format-Tracker entworfen und implementiert werden. Als Ausgangsbasis dient ein Sprachkorpus VTR_TIMIT mit gelesenen amerikanischen English (ein Subkorpus des TIMIT Korpus), 516 Äußerungen von 186 Sprechern. Dieser Korpus wurde sehr sorgfätig manuell gelabelt: alle 10 msec wurden Formantlagen 1-3 bestimmt ([1]). Die geplante Benchmark soll Daten eines unbekannten Formanttrackers so bearbeiten (Zeitalignierung!), dass die ermittelten Formantwerte mit den Formantwerten des VTR_TIMIT verglichen werden können, und ein Gesamtabstandsmaß als Gütekriterium ermittelt wird. Die Auswertung des Gütekriteriums soll Meta-Informatione (wie z.B. Geschlecht, Alter) der Sprecher berücksichtigen (z.B. Gütemaß für weiblich/männlich etc.). Außerdem sollen systematische Abweichungen ermittelt werden (z.B. 'F1 im Mittel 80Hz zu niedrig' etc.).

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Signalverarbeitung und automatische Spracherkennung.

Bei Interesse vereinbaren Sie bitte einen Termin.

[1] Li, D., Cui X., Pruvenok, R., Huang, J. Momen, S., Chen, Y., Alwan, A. (2006): A Database of Vocal Tract Resonance Trajectories for Reasearch in Speech Processing. ICASSP 2006, I.369.

Ausbau des Tools WebMAUS (Bachelor-Thema)

... für Österreichisches Deutsch (TU Graz?), Südtiroler Deutsch (Bolzano?), Arabisch (vorhanden, aber nur ein Sprecher!), Mandarin (?), Thai (LOTUS-1?), Australische Aborigines-Sprachen (Daten von Hywel Stoakes, Andy Butcher), Schwedisch (Felix Schaeffler?), Scottish English (ICE?), Portugiesisch (Brasilianisch?), Niederländisch (CGN?)

British English vergeben

Russisch vergeben

Französisch vergeben

Schweizer Deutsch vergeben

Spanisch (Kastilisch) vergeben

Katalan vergeben

Polnisch vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

Das BAS betreibt einen Web-Service WebMAUS, mit welchem Sprache automatisch in Wörter und Phoneme segmentiert und ettikettiert werden kann. Diesen Service muss man für jede Sprache neu anpassen.

In dieser Arbeit soll WebMAUS für die oben gelisteten Sprach-Varianten neu trainiert und angepasst werden. Dazu müssen geeignete Sprachkorpora gefunden, aufbereitet und der Trainingsprozess für MAUS durchlaufen werden. Anschließend soll die Performanz der neuen Sprachen anhand von Beispiel Daten evaluiert werden. Bei besonderem Interesse sind auch andere Sprachen denkbar. In manchen Fällen sollen konkrete Hypothesen getestet werden, z.B. ob sich mittels MLLR Speaker Adaptation MAUS Training auf nur einen Trainingssprecher durchführen läßt (Arabisch).

Dieses Thema eignet sich auch als längeres Praktikum für Studenten der Informatik, Computerlinguistik und Phonetik.

Bei Interesse vereinbaren Sie bitte einen Termin.

Empirische Phonem-Inventare (Masterthema)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

Das Phonem-Inventar einer Sprache beschreibt die Menge kleinster Lauteinheiten, die zur Unterscheidung aller Wörter dieser Sprache notwendig sind. Meistens sind Phonem-Inventare phonologischer Natur, d.h. sie werden basierend auf einem Regelsystem aufgestellt. In dieser Praktikumsarbeit soll untersucht werden, in wieweit sich Phonem-Inventare auch empirisch aus einen sehr grossen Aussprache-Lexikon bestimmen lassen. Dabei sind mehrere Randbedingungen denkbar:

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Programmierkenntnisse sind erforderlich zur Berechnung des Phonem-Auswahlverfahrens und der Tests. Dieses Praktikum eignet sich vor allem für Studenten der Computerlinguistik und Phonetik.

Automatische Geschlechtserkennung (Bachelorthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Am Institut für Phonetik gibt es ein experimentelles Sprecherverifikationssystem (SV), welches den Zugang zur Bibliothek steuert. Diese SV könnte verbessert oder beschleunigt werden, indem vor dem eigentlichen Test zunächst geprüft wird, ob der Benutzer dasselbe Geschlecht hat wie die Person, die er zu sein vorgibt. Entscheidet der Geschlechtserkenner anhand der Stimmprobe, dass es sich um das falsche Geschlecht handelt, wird der Benutzer abgewiesen, bevor der aufwendige SV-Test überhaupt durchgeführt werden muss.

In dieser Arbeit soll ein Geschlechts-Detektor auf der Basis von einfach zu berechnenden phonetischen Merkmalen zur Geschlechtsunterscheidung entwickelt und getestet werden (Sprecherdatenbasis des SV-Systems). Dann soll der Detektor in das bestehende Demo-System eingebunden werden (Python-Kenntnisse).

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Python, evtl. Signalverarbeitung

Prediktor für Alkoholisierung (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Der ALC Korpus enthält Sprache von nüchternen und alkoholisierten Sprechern. Dieser wurde im Hinblick einer Vielzahl von phonetischen Merkmalen untersucht.
In dieser Studie soll untersucht werden, wie gut sich der Zustand der Alkoholosierung (binär) bzw. die Blutalkoholkonzentration eines Sprechers aus diesen Messwerten mit Hilfe eines statistischen Modells vorhersagen lässt. Die Messwertdaten sind bereits teilweise vorhanden.

Der resultierende Akohol-Prediktor soll in das bestehende SV-Demo-System eingebunden werden (Python-Kenntnisse).

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen:

Skript-Programmierung in R, Kenntnisse Test-Statistik/statistische Modellierung, ev. Signalverarbeitung, Python.

Automatische Sprecher-Identifikation (Bachelorthema)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

Am Institut für Phonetik gibt es bereits ein experimentelles Sprecherverifikationssystem, welches den Zugang zur Bibliothek steuert. Auf derselben Hardware soll parallel ein Demo-System zur Sprecher-Identifikation implementiert werden. Dieses erfodert keinen voherigen Tastendruck zur Identifikation, sondern versucht, den Benutzer nur anhand des Sprachsignals zu erkennen. Eine Verifikation findet dabei nicht statt; es soll lediglich demonstriert werden, wie gut ein Sprecher aus einer endlichen Menge bekannter Sprecher identifiziert werden kann. Diese Aufgabe ist relativ einfach, da die Sprechermodelle bereits vorhanden sind.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen:

Skript-Programmierung, Grundkenntnisse Signalverarbeitung und automatische Spracherkennung.

Analyse des Sprecherverhaltens bei Alkoholisierung (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Der ALC Korpus enthält Sprache von nüchternen und alkoholisierten Sprechern. Dieser wurde im Hinblick einer Vielzahl von phonetischen Merkmalen untersucht.
Dabei wurde beobachtet, dass die Ergebnisse stark vom Sprecher abhängig sind: zwar erhöht sich z.B. im Mittel über alle Sprecher gerechnet die Grundfrequenz bei Alkoholisierung, aber nicht alle Sprecher folgen diesem Trend, und einige verhalten sich sogar konträr. Bis jetzt wurde nur der Einfluss des Geschlechts untersucht (kein Effekt)

In dieser Masterarbeit soll untersucht werden, ob es Korrelationen dieser Beobachtungen mit anderen Sprechermerkmalen als dem Geschlecht gibt. Es bietet sich an, sich zunächst auf ein Merkmal (z.B. F0) zu beschränken, und die Ergebnisse der bisherigen Untersuchungen im Hinblick auf folgende Sprechermerkmale zu untersuchen: Alter, Herkunft, Beruf, Stimmung, normales Trinkverhalten, aber auch ev. Versuchsleiter und Umgebung.

Die Aufgabe besteht darin, mit Hilfe von geeigneten statistischen Methoden signifikante Zusammenhänge zwischen Sprechermerkmalen und F0-Messwerten aufzudecken. Daraus gewonnene Erkenntnisse könnten potentiell sehr wertvoll für die forensische Phonetik sein, weil sich dadurch einerseits das Sprecherhalten vorhersagen ließe, andererseits sich ev. Sprechermerkmale aus dem Verhalten bei Alkoholisierung ableiten ließen.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Statistik.

Automatische Keyword Erkennung (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Am Institut für Phonetik gibt es ein experimentelles Sprecherverifikationssystem (SV), welches den Zugang zur Bibliothek steuert. Diese SV erfordert im Moment, dass der registrierte Benutzer eine Knopf auf dem Display drückt, um seine Identität bekanntzumachen.

In dieser Masterarbeit soll dieser Mechanismus durch einen rein sprachgesteuerten ersetzt werden (so dass im Prinzip ein Benutzer, der die Hände nicht frei hat, die Türe öffnen kann). Dazu spricht der Benutzer ein sog. 'key word' zum Aktivieren des Systems, z.B. 'magic door', welches das System durch ein earcon (eine bestimmte Tonfolge) quittiert. Dann spricht der Benutzer einen festgelegten Trägersatz mit seinem Namen, z.B. 'Open door for Florian Schiel'. Das System erkennt anhand dieses Satzes, um welchen Benutzer es sich handelt, verifiziert diesen anhand des Trägersatzes und öffnet die Türe (oder nicht).

Die Aufgabe besteht darin, eine Keyword-Detection mit Hilfe von HTK zu implementieren, und anschließend eine Spracherkennung auf dem gesprochenen Trägersatz zur Ermittlung der Benutzer-Identität durchzuführen. Dann kann das normale SV-System diese Information zur Verifikation des Sprechers benutzen.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Signalverarbeitung und automatische Spracherkennung.

Erweiterung der BAStat Statistik auf phonologische Statistiken (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Das BAS veröffentlicht auf seinen Web-Seiten Statistiken für Worte und Phone basierend auf Korpora gesprochener Sprache (http://www.bas.uni-muenchen.de/forschung/Bas/BasPHONSTATeng.html). Phone-Statistiken beziehen sich hier nur auf die Auftretens- oder Bigram-Wahrscheinlichkeit von realisierten (gelabelten) Phonen, aber nicht auf die Phoneme (d.h. die phonologisch erwartete Aussprache). In dieser Arbeit soll die BASTat Statistik um die phonologische Statistik erweitert und verglichen werden.

Beispiel:
4 beobachtete Tokens des Wortes 'ist' (phonologisch /?Ist/) würden zu Zählungen für die Phoneme
N(/?/) = 4
N(/I/) = 4
N(/s/) = 4
N(/t/) = 4
führen, wogegen die Phone-Statistik abhängig ist von der tatsächlichen Realisierung, z.B.:
[?Ist], [Is] [?Is] [s] ergibt die Phone-Zähler:
N(/?/) = 2
N(/I/) = 3
N(/s/) = 4
N(/t/) = 1

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Phonologie/Phonetik Beziehung, SAMPA Inventar, BPF