Modul Bachelor P6.2 Synthese

(Folien und weiteres Material stammt von Uwe Reichel)

Inhalt

Das Seminar behandelt die Umwandlung eines Texts in ein Sprachsignal (sog. Text-to-Speech-Synthese). Die hierzu nötigen Verarbeitungsschritte umfassen:

Textvorverarbeitung: Zuweisung von Wortarten (Part-of-Speech-Tagging), Erstellung einer phonetischen Transkription (Graphem-Phonem-Konvertierung).
Prosodiemodellierung: Lokalisierung von Akzenten und Phrasengrenzen, Generierung der Grundfrequenzkontur, Bestimmung der Lautsegmentdauern.
Generierung des Sprachsignals durch Verkettung geeigneter Signalstücke aus einer Datenbank (konkatenative Synthese), durch direkte akustische Generierung (Formantsynthese), oder durch Modellierung lautsprachlicher Produktionsprozesse sowie deren Umwandlung in ein akustisches Signal (artikulatorische Synthese).

Folien

Semesterüberblick [ .pdf ]
Überblick [ .pdf ]
Textnormalisierung [ .pdf ]
Part-of-Speech-Tagging [ .pdf ]
Graphem-Phonem-Konvertierung [ .pdf ]
Prosodische Modellierung [ .pdf ]
Konkatenative Synthese [ .pdf ]
HMM-Synthese [ .pdf ]

Aktualisierungen

02.11.2010 Part-of-Speech-Tagging: Gleichung (8), S. 16 korrigiert
16.11.2010 Graphem-Phonem-Konvertierung: Folien 35-40 eingefügt
23.11.2010 Graphem-Phonem-Konvertierung: Folien 28, 38 aktualisiert. Folien 29-30, 45-46 eingefügt
25.11.2010 Graphem-Phonem-Konvertierung: Folien 33-35 eingefügt
02.11.2014 Graphem-Phonem-Konvertierung: Folien 61-63 eingefügt
02.11.2016 Überarbeitung durch F. Schiel
05.12.2018 Überarbeitung durch F. Schiel
11.11.2022 Überarbeitung durch F. Schiel

Anleitungen für Kommandozeilen-Tools

Klausurvorbereitung

50 Fragen [ .pdf ]

Übungsmaterialien

HLSyn [ .pdf ]
Balloon: Textvorverarbeitungsmodule [ .pdf ]
Stuttgart-Tübingen-Tagset, Balloon-Morphemklassen [ .pdf ]
CART-Modell zur Vorhersage der Segmentdauern [ .pdf ]

Literatur

[V Pfi2,1] Pfister B, Kaufmann T (2008): Sprachverarbeitung - Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Kapitel 7-9. Springer-Verlag Berlin Heidelberg.
[V Jur1,1] Jurafsky, D.; Martin, J.H., 2009. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition, Kapitel 8. Prentice-Hall.
[V Tay3,1] Taylor, P., 2009. Text-to-Speech Synthesis. Cambridge University Press.