Sprachaufnahmen Ÿber das WWW Ð Diskussion der aktuellen Technologie und eine Prototyp-Implementation Christoph Draxler Bayerisches Archiv fŸr Sprachsignale Institut fŸr Phonetik und Sprachliche Kommunikation UniversitŠt MŸnchen draxler@bas.uni-muenchen.de ZUSAMMENFASSUNG Die SignalqualitŠt von Sprachaufnahmen ist abhŠngig von der geografischen Verteilung dieser Aufnahmen. Aufnahmen vor Ort erfolgen in hoher technischer QualitŠt, aber sowohl Sprecher als auch die AufnahmeausrŸstung mŸssen sich am selben Ort befinden. Telefonaufnahmen erlauben die geografische Verteilung von Sprachaufnahmen, aber ihre QualitŠt ist auf die Bandbreite des Telefonkanals beschrŠnkt. Sprachaufnahmen Ÿber das WWW entkoppeln die erzielbare SignalqualitŠt von der geografischen Verteilung der Aufnahmen: Sprachsignale werden mit einem Standard WWW-Browser vor Ort aufgenommen und als Datenpakete Ÿber das WWW an einen Sprachserver Ÿbertragen. Das BAS [12] hat mit WebRecorder eine Prototyp-Implementation fŸr Sprachaufnahmen Ÿber das WWW entwickelt. Der erste Einsatz dieser Software sind die Sprachaufnahmen im Projekt RVG-J. EinfŸhrung Der Aufbau gro§er Sprachdatenbanken ist zeitaufwŠndig und teuer. Die Sprachaufnahmen erfolgen entweder vor Ort, d.h. in einem Aufnahmestudio oder beim Sprecher. In einem Studio ist die technische QualitŠt der Aufnahmen in der Regel sehr hoch, da alle Aufnahmeparameter unmittelbar Ÿberwacht werden kšnnen. Allerdings fŸhlen sich viele Sprecher in einem Studio nicht wohl, so dass die NatŸrlichkeit der Sprache darunter leidet. Sprachaufnahmen im Feld sind weitaus schwieriger zu kontrollieren und ihre technische QualitŠt ist hŠufig schlecht dafŸr werden die Sprecher in ihrer gewohnten Umgebung aufgenommen und ihre Sprache ist natŸrlich. Beide Klassen von Aufnahmen erfordern hohen Aufwand: entweder kommen die Sprecher in ein Aufnahmestudio, oder die AusrŸstung muss zum Sprecher gebracht werden. Sprachaufnahmen Ÿber das Telefon sind billig, denn normalerweise fallen nur die TelefongebŸhren an. Allerdings ist ihre QualitŠt durch die Bandbreite des †bertragungskanals beschrŠnkt, z.B. auf ISDN- oder gar GSM-QualitŠt. Au§erdem erfordern gro§ angelegte Telefonsprachdatnsammlungen erheblichen Verwaltungsaufwand: Sprecher mŸssen rekrutiert werden, sie mŸssen das Promptmaterial bekommen, anrufen und dann fŸr ihre Teilnahme belohnt werden. Dieser Aufwand fŸhrt nicht nur zu Verzšgerungen, er erschwert auch die Feststellung des aktuellen Stands der Aufnahmen. Sprachaufnahmen Ÿber das WWW entkoppelt die SignalqualitŠt von Sprachaufnahmen von der verfŸgbaren †bertragungskapazitŠt und vereint somit die Vorteile beider Verfahren: natŸrliche Sprachaufnahmen bei gleichzeitig hober SignalqualitŠt. Sprecher melden sich bei einem Aufnahmeserver an und starten die Aufnahmesitzung. WŠhrend der Sitzung werden die Prompts vom Server heruntergeladen und das Sprachsignal wird aufgenommen, in Datenpakete konvertiert und an den Server Ÿbertragen (nicht notwendigerweise in Echtzeit). Das nŠchste Kapitel diskutiert die aktuell verfŸgbare Technologie fŸr Sprachaufnahmen im Internet. Kapitel XX prŠsentiert die WebRecorder Software, und Kapitel XX gibt eine †bersicht Ÿber das Projekt RVG-J, in dem im gesamten deutschsprachigen Raum Sprachaufnahmen von Jugendlichen durchgefŸhrt werden. Technologie WWW Das World Wide Web hat sich zum vorherrschenden Medium fŸr den Austausch von Information entwickelt. Die Technologie ist ausgereift: Text und Multimedia-Inhalte kšnnen an jeden Rechner mit mindestens einem Modemansclluss an das Internet Ÿbertragen und dort verarbeitet werden. Das WWW ist ein sog. Client-Server System: der Client, normalerweise ein Webbrowser, fordert mittels einer URL (uniform resource locator) Seiten von einem Webserver an. Diese URL enthŠlt Angaben zum Protokoll, die Adresse des Servers, den Port, Pfadangaben und den Namen der zu ladenden Datei. Der Server lŠdt die Seite aus dem lokalen Dateisystem und schickt eine Dateibeschreibung (header) und den eigentlichen Dateiinhalt (body) an den Client zur Ausgabe. Der Client analysiert den Header und entscheidet dann, ob die Datei vom Browser selbst, von einem Plug-in, das den Browser um neue FuntionaliŠt erweitert, oder einer externen Applikation ausgegeben oder bearbeitet wird. Die Dokumentbeschreibung ist im MIME-Format (multi purpose Internet mail extension) gespeichert, das die Dokumentklasse und ihr Format angibt, z.B. text/html oder audio/basic [7], [8]. HTML und XML WWW-Dokumente sind in HTML geschrieben, der Hypertext Markup Language. HTML ist eine Anwendung von SGML, und die aktuelle HTML Version ist 4.01 [11]. In der aktuellen Version ist HTML gut geeignet, um das Layout eines WWW Dokuments zu beschrieben, aber zu beschrŠnkt fŸr eine Vielzahl darŸber hinausgehender Anwendungen, z. B. automatische Suche. Die Extensible Markup Language XML ist eine Untermenge von SGML. XML trennt streng zwischen Struktur- und Layoutbeschreibung. Die Sprache erlaubt die freie Definition von Tags fŸr unterschiedliche Dokumentklassen und Anwendungen. Die erlaubten Tags und ihre Beziehungen untereinander sind in einer DTD (document type description) bzw. einem XML-Schema spezifiziert [3]. Style Sheets legen fest, wie eine XML Dokument im Browser oder einem anderen Ausgabemedium dargestellt wird. Formulare Formulare ermšglichen den Eingaben von Daten auf dem Client und ihre †bermittlung an einen Server. Ein Formular enthŠlt Eingabefelder und SchaltflŠchen. Im šffnenden
Tag wird angegeben, von welcher Anwendung auf dem Server das Formular verarbeitet werden soll. Der folgende HTML-Code enthŠlt ein minimales Formular mit einem Eingabefelt und der SchaltflŠche zum Absenden des Formulars: Your name:
Zum sicheren Transport Ÿber das Internet wird der eingegebene Feldinhalt codiert und an den Server zur weiteren Verarbeitung Ÿbermittelt [11]. Applets und Java Web Start Applets sind Anwendungsprogramme, die ein eine Web Seite integriert sind. Sie erweitern Web Seiten um Dienste oder FunktionalitŠt, die in HTML nicht verfŸgbar ist, z.B. dynamische Grafiken o.Š. Applets werden wegen der Plattform-UnabhŠngigkeit dieser Sprache Ÿblicherweise in Java implementiert. Der Programmcode wird vom Server heruntergeladen und in einen eigenen Umgebung, der ÒSandboxÓ, ausgefŸhrt. Der Zugriff auf Systemressourcen wird vom Client erlaubt und von der Sandbox Ÿberwacht. Applets sind eine elegante Mšglichkeit, Software zu verteilen: der Client lŠdt immer die aktuellste Version, und au§er der Spezifikation der Sicherheitseinstellungen ist auf dem Client kein Installationsaufwand notwendig. In HTML stehen Applets in oder Tags. Dieser Tag spezifiziert, wie gro§ die FlŠche im Browserfenster ist, die das Applet verwenden darf, die URL des Programmcodes und die Parameter, die an das Applet weitergereicht werden. In Java Web Start wird der ausfŸhrbare Code zwar von einem Browser heruntergeladen, aber lokal auf dem Client zwischengespeichert. Er wird au§erhalb des Browsers, aber ebenfalls innerhalb einer Sandbox-Umgebung ausgefŸhrt. Bei jedem Programmstart prŸft die Software, ob es eine neuere Version auf dem Server gibt und lŠdt diese gegebenenfalls, wobei die alte Version dann ersetzt wird [10]. VoiceXML VoiceXML ist eine Auszeichnungssprache fŸr sprachgesteuerte Dienste und Anwendungen. Die Sprache wurde fŸr Telefonieanwendungen wie Verzeichnisdienste, Informationssysteme, Anrufbeantworter usw. entwickelt. VoiceXML erlaubt die Sprachausgabe entweder Ÿber das Abspielen von aufgenommenen Signaldateien, oder Ÿber Sprachsynthese, und Spracheingabe entweder Ÿber eine Aufnahme oder Spracherkennung [9]. Ein VoiceXML Dokument enthŠlt die Struktur eines Dialogs in einem Formular. Wie in HTML verweist der Formular Tag auf die sprachverarbeitende Anwendung auf dem VoiceXML Server. Der Tag gibt synthetisierte Sprache aus, der