BAS
Bayerisches Archiv für Sprachsignale
Korpora

Same page in english

Letzter Update dieser Seite: 2016-09-22

Beachten Sie, dass ausgewählte Korpora für Akademiker kostenfrei von CLARIN Repository heruntergeladen werden können (teilweise markiert mit (*)).


Sprachkorpora

(falls nicht anders bezeichnet, ist die Sprache der Korpora Deutsch!)

Gesamter Katalog

Folgende Korpora sind derzeit am BAS auf CD-R/DVD-R/Harddisc verfügbar. Ein Teil dieser Korpora wird für Akademiker und BAS-Lizenz-Halter auch online im BAS CLARIN Repository zum direkten Download angeboten (markiert mit (*)).

Audio Files aus den verfügbaren Korpora.

Der TED Korpus wird derzeit von der ELDA herausgegeben. Daher wird BAS diesen Korpus nur anbieten, wenn diese erste Edition vergriffen sein sollte.

Fragen und Orders bitte an


Kommerziell nutzbare Korpora

Alle Korpora des BAS sind auch für die kommerzielle Nutzung zugelassen. Unter kommerzieller Nutzung verstehen wir die Entwicklung und Vermarktung von Sprachtechnologie auf der Basis der Daten, jedoch nicht die direkte Vermarktung der Daten bzw. deren Weitergabe an Dritte. Einige BAS Korpora erfordern den Erwerb einer speziellen Lizenz für die kommerzielle Nutzung; siehe Infos dazu auf den individuellen Korpus-Pages.


Korpora mit gelesener Sprache

Die folgenden Korpora enthalten gelesene Sprache, z.T. als Diktieraufgabe:

Korpora mit spontaner Sprache

Die folgenden Korpora enthalten spontan geäußerte Sprache:

Korpora mit akzentuierter/dialektaler/alkoholisierter Sprache

Folgende Korpora enthalten Sprache mit klassifizierter Akzent- oder Dialektklasse:

Korpora mit Telefon-Sprache

Folgende Korpora enthalten Sprache aufgenommen über tatsächliche Festnetz- oder GSM-Verbindungen:

Korpora mit hoher technischer Qualtät (Studio)

Folgende Korpora enthalten Sprache, die nicht im Feld und nicht über Telefonverbindungen aufgezeichnet wurden, die 16kHz oder höherer Abtastrate aufgezeichnet wurden und bei denen mit einer relativ hochwertigen Wiedergabequalität gerechnet werden kann:

Geplante Korpora

Die folgenden Korpora sind derzeit in Bearbeitung und werden demnächst über das BAS erhältlich sein:

Verarbeitung und Evaluation

Die BAS Korpora werden vor der Verbreitung einem formalen Test (BAS Short Test) unterworfen. Dieser Test umfaßt die folgenden Prüfpunkte: Danach werden die Korpora als sogenannte 'Master Volumes' in unserem Archiv abgelegt und mit symbolischen Links zur zentral verwalteten Dokumentation und Software versehen. Bei Bedarf werden dann von diesen Master Volumes ISO 9660 CDROMs gebrannt und an die Anwender verschickt ('press on demand').

In einem zweiten Verarbeitungsschritt werden die BAS Korpora einer automatischen Annotation unterzogen. Diese beinhaltet eine automatische Segmentierung in Phoneme (MAUS), Detektion von Abweichungen in der Aussprache, Wortgrenzen, etc. Alle Ergebnisse weiterer Analysen werden im einheitlichen Partitur-Format dargestellt.

Im Rahmen des BITS-Projektes (TP8) werden alle im BAS derzeit verwalteten Korpora einer gründlichen Revalidierung nach veröffentlichten Richtlinien unterzogen. Die Ergebnisse dieses strengeren BAS Long Test werden im BITS-Projekt veröffentlicht.
Dieser BAS Long Test wird im Rahmen der CLARIN Initiative wieder aufgenommen: alle im CLARIN Repository des BAS ver√∂ffwetlichten Corpora müssen anhand dieses Protokolls validiert werden.


File Formate und Software

Die vom BAS vertriebenen Korpora enthalten in der Mehrzahl Signaldateien im NIST Format. Einige Korpora enthalten SAM oder PhonDat Formate.
Eine Beschreibung aller in den BAS Korpora verwendeten Formate finden Sie
hier.
Die Formate aller Dateien sind natürlich auch in den Dokumentationen des jeweiligen Korpus beschrieben. (Die meisten dieser Dokumentationen können Sie on-line in den betreffenden WWW Seiten abrufen.)

Außerdem befinden sich auf jeder BAS CDROM Software und C-Funktionen für den Zugriff auf die Signaldateien, sowie die automatische Transformation in und aus NIST/SPHERE Format, SAM Format und einfache raw Dateien.


Häufigste Anwendungen

Automatische Spracherkennung

Für die Initialisierung von statistischen Verfahren der automatischen Spracherkennung (ASR) werden segmentierte Sprachsignale benötigt.
Für diesen Zwecke eigenen sich besonders die folgenden Korpora:
Für das weitere Training (ohne Segmentierung):

Mensch-Maschine-Kommunikation

Sprachsynthese

Für Verfahren der PSOLA-Synthese können im Prinzip alle handsegmentierten, teilweise auch die automatisch segmentierten Korpora (in Klammern) verwendet werden; besonders eignen sich natürlich die Korpora SI1000P und BITS-LG, BITS-US, die speziell für diesen Zweck entwickelt wurden:

Sprechererkennung, -verifikation, -adaption

Eine besondere Vielfalt an Sprechern bieten außerdem VM, PD1 und SI100. Besonders viel Material von wenigen Sprechern SI1000.

Empirische phonetische Untersuchungen

Segmentale Untersuchungen
Für diesen Zweck eignen sich natürlich besonders Korpora mit Handsegmentierungen. Da es davon nur sehr wenige gibt, empfiehlt es sich gerade bei statistischen Auswertungen auch auf automatisch segmentierte Daten zurückzugreifen (in Klammern):
Prosodische Untersuchungen
Fremdsprachige Akzente / Sprechermerkmale
Dialektale Varianten

Copyright © 1995-2016 Bayerisches Archiv für Sprachsignale, Universität Müchen
This page and all other pages with the initial 'BAS' or 'Bas' in the filename may be copied, printed and distributed to other parties, under the condition that the pages are distributed as shown here. Parts of pages or extended pages may not be distributed further withoutpermission of the BAS.


Florian Schiel