Modul Bachelor P6.2 Synthese
Dozent: Florian Schiel
(Folien und weiteres Material stammt von Uwe Reichel)
Inhalt
Das Seminar behandelt die Umwandlung eines Texts in ein Sprachsignal (sog. Text-to-Speech-Synthese). Die hierzu nötigen Verarbeitungsschritte umfassen:
- Textvorverarbeitung: Zuweisung von Wortarten (Part-of-Speech-Tagging), Erstellung einer phonetischen Transkription (Graphem-Phonem-Konvertierung).
- Prosodiemodellierung: Lokalisierung von Akzenten und Phrasengrenzen, Generierung der Grundfrequenzkontur, Bestimmung der Lautsegmentdauern.
- Generierung des Sprachsignals durch Verkettung geeigneter Signalstücke aus einer Datenbank (konkatenative Synthese), durch direkte akustische Generierung (Formantsynthese), oder durch Modellierung lautsprachlicher Produktionsprozesse sowie deren Umwandlung in ein akustisches Signal (artikulatorische Synthese).
Folien
- Semesterüberblick [ .pdf ]
- Überblick [ .pdf ]
- Textnormalisierung [ .pdf ]
- Part-of-Speech-Tagging [ .pdf ]
- Graphem-Phonem-Konvertierung [ .pdf ]
- Prosodische Modellierung [ .pdf ]
- Konkatenative Synthese [ .pdf ]
- HMM-Synthese [ .pdf ]
Aktualisierungen
- 02.11.2010 Part-of-Speech-Tagging: Gleichung (8), S. 16 korrigiert
- 16.11.2010 Graphem-Phonem-Konvertierung: Folien 35-40 eingefügt
- 23.11.2010 Graphem-Phonem-Konvertierung: Folien 28, 38 aktualisiert. Folien 29-30, 45-46 eingefügt
- 25.11.2010 Graphem-Phonem-Konvertierung: Folien 33-35 eingefügt
- 02.11.2014 Graphem-Phonem-Konvertierung: Folien 61-63 eingefügt
- 02.11.2016 Überarbeitung durch F. Schiel
- 05.12.2018 Überarbeitung durch F. Schiel
- 11.11.2022 Überarbeitung durch F. Schiel
Anleitungen für Kommandozeilen-Tools
Klausurvorbereitung
50 Fragen [ .pdf ]
Übungsmaterialien
- HLSyn [ .pdf ]
- Balloon: Textvorverarbeitungsmodule [ .pdf ]
- Stuttgart-Tübingen-Tagset, Balloon-Morphemklassen [ .pdf ]
- CART-Modell zur Vorhersage der Segmentdauern [ .pdf ]
Links
- Synthesebeispiele (Felix Burkhardt)
- Festival, IMS
- Mary, DFKI
- Mary Online-Demo, DFKI
- HMM-Synthese
Literatur
- [V Pfi2,1] Pfister B, Kaufmann T (2008): Sprachverarbeitung - Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Kapitel 7-9. Springer-Verlag Berlin Heidelberg.
- [V Jur1,1] Jurafsky, D.; Martin, J.H., 2009. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition, Kapitel 8. Prentice-Hall.
- [V Tay3,1] Taylor, P., 2009. Text-to-Speech Synthesis. Cambridge University Press.