BAS
Bayerisches Archiv für Sprachsignale
Korpora

Same page in english

Letzter Update dieser Seite: 2021-05-01

Beachten Sie, dass ausgewählte Korpora in diesem Katalog und weitere Korpora, die hier nicht aufgeführt sind, für Akademiker kostenfrei von CLARIN Repository heruntergeladen werden können (teilweise markiert mit (*)).


Sprachkorpora

(falls nicht anders bezeichnet, ist die Sprache der Korpora Deutsch!)

Gesamter Katalog

Folgende Korpora sind derzeit am BAS auf CD-R/DVD-R/Harddisc/online verfügbar. Ein Teil dieser Korpora wird für Akademiker und BAS-Lizenz-Halter auch online im BAS CLARIN Repository zum direkten Download angeboten (markiert mit (*)).

Die folgenden Sprachkorpora werden ausschließlich im BAS CLARIN Repository vertrieben; eine kommerzielle Nutzung ist in manchen Fällen möglich (Infos unter bas@bas.uni-muenchen.de):
CH-Jugendsprache,MOCHA,NM-MoCap-Corpus,NSC,Sprecherinnen,VERIF1DE,VMEmo,WaSeP

Audio Files aus den verfügbaren Korpora.

Der TED Korpus wird derzeit von der ELDA herausgegeben. Daher wird BAS diesen Korpus nur anbieten, wenn diese erste Edition vergriffen sein sollte.

Fragen und Orders bitte an


Kommerziell nutzbare Korpora

Alle Korpora des BAS sind auch für die kommerzielle Nutzung zugelassen. Unter kommerzieller Nutzung verstehen wir die Entwicklung und Vermarktung von Sprachtechnologie auf der Basis der Daten, jedoch nicht die direkte Vermarktung der Daten bzw. deren Weitergabe an Dritte. Einige BAS Korpora erfordern den Erwerb einer speziellen Lizenz für die kommerzielle Nutzung; siehe Infos dazu auf den individuellen Korpus-Pages.


Korpora mit gelesener Sprache

Die folgenden Korpora enthalten gelesene Sprache, z.T. als Diktieraufgabe:

Korpora mit spontaner Sprache

Die folgenden Korpora enthalten spontan geäußerte Sprache:

Korpora mit akzentuierter/dialektaler/alkoholisierter Sprache

Folgende Korpora enthalten Sprache mit klassifizierter Akzent- oder Dialektklasse:

Korpora mit Telefon-Sprache

Folgende Korpora enthalten Sprache aufgenommen über tatsächliche Festnetz- oder GSM-Verbindungen:

Korpora mit hoher technischer Qualtät (Studio)

Folgende Korpora enthalten Sprache, die nicht im Feld und nicht über Telefonverbindungen aufgezeichnet wurden, die 16kHz oder höherer Abtastrate aufgezeichnet wurden und bei denen mit einer relativ hochwertigen Wiedergabequalität gerechnet werden kann:

Verarbeitung und Evaluation

Die BAS Korpora werden vor der Verbreitung einem formalen Test (BAS Validation) unterworfen. Dieser Test umfaßt unter anderem die folgenden Prüfpunkte: Danach werden die Korpora als sogenannte 'Master Volumes' in unserem Archiv abgelegt und mit symbolischen Links zur zentral verwalteten Dokumentation und Software versehen. Bei Bedarf werden dann von diesen Master Volumes ISO 9660 DVD/CDROMs gebrannt und an die Anwender verschickt ('press on demand'), oder dem Anwender wird online access im
BAS CLARIN Repository ermöglicht.

In einem zweiten Verarbeitungsschritt werden die BAS Korpora einer automatischen Annotation unterzogen. Diese beinhaltet eine automatische Segmentierung in Phoneme (MAUS), Detektion von Abweichungen in der Aussprache, Wortgrenzen, etc. Alle Ergebnisse weiterer Analysen werden im einheitlichen Partitur-Format dargestellt.

Im Rahmen des BITS-Projektes (TP8) werden alle im BAS derzeit verwalteten Korpora einer gründlichen Revalidierung nach veröffentlichten Richtlinien unterzogen. Die Ergebnisse dieses strengeren BAS Long Test werden im BITS-Projekt veröffentlicht.
Dieser BAS Long Test wird im Rahmen der CLARIN Initiative wieder aufgenommen: alle im CLARIN Repository des BAS veröffentlichten Corpora müssen anhand dieses Protokolls validiert werden.


File Formate und Software

Die vom BAS vertriebenen Korpora enthalten in der Mehrzahl Signaldateien im RIFF WAVE oder NIST Format. Einige Korpora enthalten SAM Annotations-Formate.
Eine Beschreibung aller in den BAS Korpora verwendeten Formate finden Sie
hier.
Die Formate aller Dateien sind natürlich auch in den Dokumentationen des jeweiligen Korpus beschrieben. (Die meisten dieser Dokumentationen können Sie on-line in den betreffenden WWW Seiten abrufen.)

Außerdem befinden sich auf jeder BAS CDROM Software und C-Funktionen für den Zugriff auf die Signaldateien, sowie die automatische Transformation in und aus NIST/SPHERE Format, SAM Format und einfache raw Dateien.


Häufigste Anwendungen

Automatische Spracherkennung

Für die Initialisierung von statistischen Verfahren der automatischen Spracherkennung (ASR) werden segmentierte Sprachsignale benötigt.
Für diesen Zwecke eigenen sich besonders die folgenden Korpora:
Für das weitere Training (ohne Segmentierung):

Mensch-Maschine-Kommunikation

Sprachsynthese

Für Verfahren der PSOLA-Synthese können im Prinzip alle handsegmentierten, teilweise auch die automatisch segmentierten Korpora (in Klammern) verwendet werden; besonders eignen sich natürlich die Korpora SI1000P und BITS-LG, BITS-US, die speziell für diesen Zweck entwickelt wurden:

Sprechererkennung, -verifikation, -adaption

Eine besondere Vielfalt an Sprechern bieten außerdem VM, PD1 und SI100.

Empirische phonetische Untersuchungen

Segmentale Untersuchungen
Für diesen Zweck eignen sich natürlich besonders Korpora mit Handsegmentierungen. Da es davon nur sehr wenige gibt, empfiehlt es sich gerade bei statistischen Auswertungen auch auf automatisch segmentierte Daten zurückzugreifen (in Klammern):
Prosodische Untersuchungen
Fremdsprachige Akzente / Sprechermerkmale
Dialektale Varianten

Copyright © 1995-2020 Bayerisches Archiv für Sprachsignale, Universität Müchen
This page and all other pages with the initial 'BAS' or 'Bas' in the filename may be copied, printed and distributed to other parties, under the condition that the pages are distributed as shown here. Parts of pages or extended pages may not be distributed further withoutpermission of the BAS.


Florian Schiel