BAS
Bayerisches Archiv für Sprachsignale
Korpora

Same page in english

Letzter Update dieser Seite: 2021-05-01

Beachten Sie, dass ausgewählte Korpora in diesem Katalog und weitere Korpora, die hier nicht aufgeführt sind, für Akademiker kostenfrei von CLARIN Repository heruntergeladen werden können (teilweise markiert mit (*)).

Sprachkorpora

Gesamter Katalog
Kommerziell nutzbare Korpora
Korpora mit gelesener Sprache
Korpora mit spontaner Sprache
Korpora mit akzentuierter/dialektaler/alkoholisierter Sprache
Korpora mit Telefon-Sprache
Korpora mit hoher technischer Qualität (Studio)

Multi-modale Korpora

SmartKom
SmartWeb Video Corpus (SVC)
Deutscher Gebärdensprachkorpus (SIGNUM)
Bielefeld Speech and Gesture Alignment Corpus (SaGA)

Verarbeitung und Evaluation
File Formate und Software
Nutzungsbedingungen (EULA)
Hinweis für rein wissenschaftl. Anwendungen
Audio Files (Beispiele)
Häufigste Anwendungen

Sprachkorpora

(falls nicht anders bezeichnet, ist die Sprache der Korpora Deutsch!)

Gesamter Katalog

Folgende Korpora sind derzeit am BAS auf CD-R/DVD-R/Harddisc/online verfügbar. Ein Teil dieser Korpora wird für Akademiker und BAS-Lizenz-Halter auch online im BAS CLARIN Repository zum direkten Download angeboten (markiert mit (*)).

Die folgenden Sprachkorpora werden ausschließlich im BAS CLARIN Repository vertrieben; eine kommerzielle Nutzung ist in manchen Fällen möglich (Infos unter bas@bas.uni-muenchen.de):
CH-Jugendsprache,MOCHA,NM-MoCap-Corpus,NSC,Sprecherinnen,VERIF1DE,VMEmo,WaSeP

Siemens 1000 - SI1000 (SC7)
10 Sprecher - 10000 Äusserungen - diktiert - Orthographie
Siemens 100 - SI100
100 Sprecher - 10000 Äusserungen - diktiert - Orthographie
PhonDat 1 - PD1 (*) (2. Edition)
201 Sprecher - 21681 Äusserungen - gelesen - Orthographie, kan. Form, automatische Segmentierung
PhonDat 2 - PD2 (*) (2. Edition)
16 Sprecher - 3200 Äusserungen - gelesen - Orthographie, kan. Form, Handsegmentierung, automatische Segmentierung, prosodische Labelung
Verbmobil I (*) (Aufnahmen 1993 - 1996)
Verbmobil II (*) (Aufnahmen 1997 - 2000)
Strange Corpus 1 - SC 1 ('Accents') (*)
88 Sprecher - 1 Geschichte - gelesen - Orthographie, kan. Form
Strange Corpus 2 - SC 2 ('Noises') (*)
8 Sprecher - 8 Wiederholungen von 100 Äußerungen - Feldaufnahmen mit Geräuschen - Annotation der Geräusche - 2 Mikrophone - Orthographie, kan. Form
Strange Corpus 10 - SC 10 ('Accents II')
70 Sprecher (67 nicht deutsch-sprachige Sprecher, 3 deutsche Sprecher) - 100 phonetisch balancierte Sätze, Nummern von 1 bis 100, 1 Geschichte, 1 Dialog, 1 Nacherzählung - Transliteration, Orthographie, kan. Form
Erlanger Bahnansage - ERBA
106 Sprecher - 11100 Äußerungen - gelesen - Orthographie
SPINA ('Robot-Befehle') (*) (neue Edition)
22 Sprecher - Robot-Befehle - 10810 Äußerungen - gelesen - Phonem- und Wortsegmentierungen
Regional Variants of German - RVG1 (*)
Regional abgedecktes Deutsch - 498 Sprecher - 32 CD-ROMs
Siemens Synthese-Korpus - SI1000P
2 professionelle Sprecher - Laryngosignal - Prosodische Ettikettierung - 4 CD-ROMs
Taxi Corpus - TAXI (*)
94 Dialoge zwischen deutsch-sprachigem Taxi-Dispatcher und englisch-sprachigem Kunden - aufgenommen über reale Telefonverbindungen - Orthographie, kanonische Form, Übersetzung
Hempels Sofa - HEMPEL (*)
3909 Aufnahmen mit spontaner Telefonsprache (Monologe) - SpeechDat Verschriftung
FORMTASK (*)
17293 Aufnahmen von 4366 Sprechern mit spontaner Telefonsprache (Beantwortung von Fragen) - SpeechDat Verschriftung
Regional Variants of German J - RVG-J (*)
Aufnahmen gelesener und spontaner Sprache von Jugendlichen 13-20 - SpeechDat Verschriftung
Siemens Webcommand - WEBCOMMAND
15600 Aufnahmen von Kommandos an ein WebPad in British English und Französisch - 49 Sprecher - Büroumgebung - SpeechDat Verschriftung
Ziptel (SpeechDat(M)) - ZIPTEL (*)
7746 Aufnahmen, Strassennamen, PLZ, Städtenamen, Telefonnummern - 1957 Sprecher - Alle Umgebungen - SpeechDat Verschriftung
BITS Logatome Synthese Corpus - BITS-LG
11036 Logatome mit kompletter deutscher Diphoneliste - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle Segmentierung, BAS Partitur Format
BITS Unit Selection Synthese Corpus - BITS-US
6732 diphon-asugewogene Sätze - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle phonetische Segmentierung und prosodische Annotation, BAS Partitur Format
SmartKom Audio - SKAUDIO 1.0 (*)
Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil
SmartWeb Handheld Corpus - SHC (*)
10966 Mensch-Maschine Anfragen per SmartPhone - 156 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck, Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
SmartWeb Motorbike Corpus - SMC
2315 Mensch-Maschine Anfragen auf dem fahrenden Motorrad - 36 Sprecher - natürliche Umgebung, 2 Mikrophone (Bluetooth-Helm, Kehlkopf), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
SmartWeb Video Corpus - SVC (*)
2218 Mensch-Maschine Anfragen in Mensch-Mensch-Maschine Situation per SmartPhone, Gesichtsvideo der anfragenden Person - 99 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck,Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, manuelle Turnsegmentierung, BAS Partitur Format
Ph@ttSessionz - PHATTSESSIONZ (*)
1019 Aufnahmen mit je max. 138 Items (gelesen, spontan) von Jugendlichen im Alter 12-20 - 1019 Sprecher - natürliche Umgebung (Schule), 2 Mikrophone (Headset, Desktop), demoskopisch verteilt über Deutschland - Transliteration nach SpeechDat, manuelle Segmentierung Beginn/Ende Äußerung, BAS Partitur Format, MAUS Segmentierung
Alcohol Language Corpus - ALC (*)
Aufnahmen alkoholisierter und nüchterner Sprecher im Alter von 22-75 - 162 Sprecher - Aufnahme im Auto, 2 Mikrophone (headset, mouse micro) - Transliteration nach erweitertem SpeechDat standard, manuelle Segmentation Start/Ende Äßerung, BAS Partitur Format, MAUS Segmentation, Emu Datenbank
VeriDat Speaker Verification Corpus - VERIF1DE (*)
Aufnahmen zur Sprecher-Verifikation über Telefon - 150 Sprecher - 20 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Age and Gender Speech Corpus - aGender (*)
Aufnahmen zur Sprecher-Klassifikation über Telefon - 945 Sprecher - 1-7 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Corpora e Lessici dell'Italiano Parlato e Scritto, map task recordings - CLIPS_MT_MANUAL (*)
Italienische Maptask Aufnahmen aus CLIPS - 30 Sprecher - 2 Aufnahme-Sessions pro Sprecher - Transliteration, Segmentierung nach CLIPS Standard - BPF, TextGrid, Emu
BAS Siemens Hoergeraete Corpus - HOESI (*)
Lombard Dialog-Sprache - 24 Sprecher - 12 Recording Sessions pro Sprecherpaar - Segmentatierung speech - non-speech - BPF
Atlante sintattico della Calabria - AsiCa
Aufnahmen von Calabrese - 68 Sprecher - 331 Recording Sessions - Orth.-Phon. Transcription - TextGrid
Audioatlas Siebenbuergisch-Saechsischer Dialekte - ASD
Historische Aufnahmen von Siebenbürger-sächsisch Deutsch - 1805 Sprecher - 2264 Recording Sessions - Orth. und phon. Transkription - TextGrid
Sprache von Brüder-Paaren (Dissertation Feiser) - BROTHERS (*)
Sprachdaten der Dissertation Feiser (2016) Deutsch - 20 Sprecher - 7240 Recording Sessions - Orth. und autom. phon. Transkription - TextGrid, emuDB

Audio Files aus den verfügbaren Korpora.

Der TED Korpus wird derzeit von der ELDA herausgegeben. Daher wird BAS diesen Korpus nur anbieten, wenn diese erste Edition vergriffen sein sollte.

Fragen und Orders bitte an

Kommerziell nutzbare Korpora

Alle Korpora des BAS sind auch für die kommerzielle Nutzung zugelassen. Unter kommerzieller Nutzung verstehen wir die Entwicklung und Vermarktung von Sprachtechnologie auf der Basis der Daten, jedoch nicht die direkte Vermarktung der Daten bzw. deren Weitergabe an Dritte. Einige BAS Korpora erfordern den Erwerb einer speziellen Lizenz für die kommerzielle Nutzung; siehe Infos dazu auf den individuellen Korpus-Pages.

Korpora mit gelesener Sprache

Die folgenden Korpora enthalten gelesene Sprache, z.T. als Diktieraufgabe:

Siemens 100 - SI100
100 Sprecher - 10000 Äusserungen - diktiert - Orthographie
PhonDat 1 - PD1 (2. Edition)
201 Sprecher - 21681 Äusserungen - gelesen - Orthographie, kan. Form, automatische Segmentierung
PhonDat 2 - PD2 (2. Edition)
16 Sprecher - 3200 Äusserungen - gelesen - Orthographie, kan. Form, Handsegmentierung, automatische Segmentierung, prosodische Labelung
Strange Corpus 1 - SC 1 ('Accents')
88 Sprecher (72 nicht deutsch-sprachige Sprecher, 16 deutsche Sprecher) - 1 Geschichte - gelesen - Orthographie, kan. Form
Strange Corpus 2 - SC 2 ('Noises')
8 Sprecher - 8 Wiederholungen von 100 Äußerungen - Feldaufnahmen mit Geräuschen - Annotation der Geräusche - 2 Mikrophone - Orthographie, kan. Form
Strange Corpus 10 - SC 10 ('Accents II')
70 Sprecher (67 nicht deutsch-sprachige Sprecher, 3 deutsche Sprecher) - 100 phonetisch balancierte Sätze, Nummern von 1 bis 100, 1 Geschichte - gelesen - Orthographie, kan. Form
Erlanger Bahnansage - ERBA
106 Sprecher - 11100 Äußerungen - gelesen - Orthographie
SPINA ('Robot-Befehle') (neue Edition)
22 Sprecher - Robot-Befehle - 10810 Äußerungen - gelesen - Phonem- und Wortsegmentierungen
Regional Variants of German - RVG1
Regional abgedecktes Deutsch - 498 Sprecher - 32 CD-ROMs
Von Bildschirm ge-prompted gelesen
Siemens Synthese-Korpus - SI1000P
2 professionelle Sprecher - Laryngosignal - Prosodische Ettikettierung - 4 CD-ROMs
Regional Variants of German J - RVG-J
Aufnahmen gelesener und spontaner Sprache von Jugendlichen 13-20 - SpeechDat Verschriftung
Siemens Webcommand - WEBCOMMAND
15600 Aufnahmen von Kommandos an ein WebPad in British English und Französisch - 49 Sprecher - Büroumgebung - SpeechDat Verschriftung
Ziptel (SpeechDat(M)) - ZIPTEL
7746 Aufnahmen, Strassennamen, PLZ, Städtenamen, Telefonnummern - 1957 Sprecher - Alle Umgebungen - SpeechDat Verschriftung
BITS Logatome Synthese Corpus - BITS-LG
11036 Logatome mit kompletter deutscher Diphoneliste - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle Segmentierung, BAS Partitur Format
BITS Unit Selection Synthese Corpus - BITS-US
6732 diphon-asugewogene Sätze - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle phonetische Segmentierung und prosodische Annotation, BAS Partitur Format
Ph@ttSessionz - PHATTSESSIONZ
1019 Aufnahmen mit je max. 138 Items (gelesen, spontan) von Jugendlichen im Alter 12-20 - 1019 Sprecher - natürliche Umgebung (Schule), 2 Mikrophone (Headset, Desktop), demoskopisch verteilt über Deutschland - Transliteration nach SpeechDat, manuelle Segmentierung Beginn/Ende Äußerung, BAS Partitur Format, MAUS Segmentierung
Alcohol Language Corpus - ALC
Aufnahmen alkoholisierter und nüchterner Sprecher im Alter von 22-75 - 150 Sprecher (Schätzung) - Aufnahme im Auto, 2 Mikrophone (headset, mouse micro) - Transliteration nach erweitertem SpeechDat standard, manuelle Segmentation Start/Ende Äßerung, BAS Partitur Format, MAUS Segmentation
VeriDat Speaker Verification Corpus - VERIF1DE
Aufnahmen zur Sprecher-Verifikation über Telefon - 150 Sprecher - 20 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Sprache von Brüder-Paaren (Dissertation Feiser) - BROTHERS
Sprachdaten der Dissertation Feiser (2016) Deutsch - 20 Sprecher - 7240 Recording Sessions - Orth. und autom. phon. Transkription - TextGrid, emuDB

Korpora mit spontaner Sprache

Die folgenden Korpora enthalten spontan geäußerte Sprache:

Verbmobil - VM I
Verbmobil - VM II
Regional Variants of German - RVG1
Regional abgedecktes Deutsch - 498 Sprecher - 32 CD-ROMs
Jeder Sprecher hat 1 Minute spontane Monologe gesprochen
Strange Corpus 10 - SC 10 ('Accents II')
70 Sprecher (67 nicht deutsch-sprachige Sprecher, 3 deutsche Sprecher) - 1 Dialog, 1 Nacherzählung - Transliteration, Orthographie, kan. Form
Hempels Sofa - HEMPEL
3909 Aufnahmen mit spontaner Telefonsprache (Monologe) - SpeechDat Verschriftung
FORMTASK (*)
17293 Aufnahmen von 4366 Sprechern mit spontaner Telefonsprache (Beantwortung von Fragen) - SpeechDat Verschriftung
Regional Variants of German J - RVG-J
Aufnahmen gelesener und spontaner Sprache von Jugendlichen 13-20 - SpeechDat Verschriftung
SmartKom Audio - SKAUDIO 1.0
Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil
SmartWeb Handheld Corpus - SHC
10966 Mensch-Maschine Anfragen per SmartPhone - 156 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck, Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
SmartWeb Motorbike Corpus - SMC
2315 Mensch-Maschine Anfragen auf dem fahrenden Motorrad - 36 Sprecher - natürliche Umgebung, 2 Mikrophone (Bluetooth-Helm, Kehlkopf), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
SmartWeb Video Corpus - SVC
2218 Mensch-Maschine Anfragen in Mensch-Mensch-Maschine Situation per SmartPhone, Gesichtsvideo der anfragenden Person - 99 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck,Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, manuelle Turnsegmentierung, BAS Partitur Format
Ph@ttSessionz - PHATTSESSIONZ
1019 Aufnahmen mit je max. 138 Items (gelesen, spontan) von Jugendlichen im Alter 12-20 - 1019 Sprecher - natürliche Umgebung (Schule), 2 Mikrophone (Headset, Desktop), demoskopisch verteilt über Deutschland - Transliteration nach SpeechDat, manuelle Segmentierung Beginn/Ende Äußerung, BAS Partitur Format, MAUS Segmentierung
Alcohol Language Corpus - ALC
Aufnahmen alkoholisierter und nüchterner Sprecher im Alter von 22-75 - 150 Sprecher (Schätzung) - Aufnahme im Auto, 2 Mikrophone (headset, mouse micro) - Transliteration nach erweitertem SpeechDat standard, manuelle Segmentation Start/Ende Äßerung, BAS Partitur Format, MAUS Segmentation
Corpora e Lessici dell'Italiano Parlato e Scritto, map task recordings - CLIPS_MT_MANUAL
Italienische Maptask Aufnahmen aus CLIPS - 30 Sprecher - 2 Aufnahme-Sessions pro Sprecher - Transliteration, Segmentierung nach CLIPS Standard - BPF, TextGrid, Emu
BAS Siemens Hoergeraete Corpus - HOESI
Lombard Dialog-Sprache - 24 Sprecher - 12 Recording Sessions pro Sprecherpaar - Segmentatierung speech - non-speech - BPF
Atlante sintattico della Calabria - AsiCa
Aufnahmen von Calabrese - 68 Sprecher - 331 Recording Sessions - Orth.-Phon. Transcription - TextGrid
Audioatlas Siebenbuergisch-Saechsischer Dialekte - ASD
Historische Aufnahmen von Siebenbürger-sächsisch Deutsch - 1805 Sprecher - 2264 Recording Sessions - Orth. und phon. Transkription - TextGrid
Sprache von Brüder-Paaren (Dissertation Feiser) - BROTHERS
Sprachdaten der Dissertation Feiser (2016) Deutsch - 20 Sprecher - 7240 Recording Sessions - Orth. und autom. phon. Transkription - TextGrid, emuDB

Korpora mit akzentuierter/dialektaler/alkoholisierter Sprache

Folgende Korpora enthalten Sprache mit klassifizierter Akzent- oder Dialektklasse:

Strange Corpus 1 - SC 1 ('Accents')
88 Sprecher - 1 Geschichte - gelesen - Orthographie, kan. Form
Strange Corpus 10 - SC 10 ('Accents II')
70 Sprecher (67 nicht deutsch-sprachige Sprecher, 3 deutsche Sprecher) - 100 phonetisch balancierte Sätze, Nummern von 1 bis 100, 1 Geschichte, 1 Dialog, 1 Nacherzählung - Transliteration, Orthographie, kan. Form
Regional Variants of German - RVG1
Regional abgedecktes Deutsch - 498 Sprecher - 32 CD-ROMs
Demographisch verteilte Aufnahmen im gesamten deutsch-sprachigen Raum
Regional Variants of German J - RVG-J
Aufnahmen gelesener und spontaner Sprache von Jugendlichen 13-20 - SpeechDat Verschriftung
Demographisch verteilte Aufnahmen in Deutschland
Ph@ttSessionz - PHATTSESSIONZ
1019 Aufnahmen mit je max. 138 Items (gelesen, spontan) von Jugendlichen im Alter 12-20 - 1019 Sprecher - natürliche Umgebung (Schule), 2 Mikrophone (Headset, Desktop), demoskopisch verteilt über Deutschland - Transliteration nach SpeechDat, manuelle Segmentierung Beginn/Ende Äußerung, BAS Partitur Format, MAUS Segmentierung
Alcohol Language Corpus - ALC
Aufnahmen alkoholisierter und nüchterner Sprecher im Alter von 22-75 - 150 Sprecher (Schätzung) - Aufnahme im Auto, 2 Mikrophone (headset, mouse micro) - Transliteration nach erweitertem SpeechDat standard, manuelle Segmentation Start/Ende Äßerung, BAS Partitur Format, MAUS Segmentation
Corpora e Lessici dell'Italiano Parlato e Scritto, map task recordings - CLIPS_MT_MANUAL
Italienische Maptask Aufnahmen aus CLIPS - 30 Sprecher - 2 Aufnahme-Sessions pro Sprecher - Transliteration, Segmentierung nach CLIPS Standard - BPF, TextGrid, Emu
Audioatlas Siebenbuergisch-Saechsischer Dialekte - ASD
Historische Aufnahmen von Siebenbürger-sächsisch Deutsch - 1805 Sprecher - 2264 Recording Sessions - Orth. und phon. Transkription - TextGrid

Korpora mit Telefon-Sprache

Folgende Korpora enthalten Sprache aufgenommen über tatsächliche Festnetz- oder GSM-Verbindungen:

Verbmobil - VM II
Hempel's Sofa - HEMPEL
FORMTASK
Ziptel (SpeechDat(M)) - ZIPTEL
Taxi Corpus - TAXI
SmartWeb Handheld Corpus - SHC
10966 Mensch-Maschine Anfragen per SmartPhone - 156 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck, Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
SmartWeb Motorbike Corpus - SMC
2315 Mensch-Maschine Anfragen auf dem fahrenden Motorrad - 36 Sprecher - natürliche Umgebung, 2 Mikrophone (Bluetooth-Helm, Kehlkopf), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
SmartWeb Video Corpus - SVC
2218 Mensch-Maschine Anfragen in Mensch-Mensch-Maschine Situation per SmartPhone, Gesichtsvideo der anfragenden Person - 99 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck,Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, manuelle Turnsegmentierung, BAS Partitur Format
VeriDat Speaker Verification Corpus - VERIF1DE
Aufnahmen zur Sprecher-Verifikation über Telefon - 150 Sprecher - 20 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Age and Gender Speech Corpus - aGender
Aufnahmen zur Sprecher-Klassifikation über Telefon - 945 Sprecher - 1-7 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Sprache von Brüder-Paaren (Dissertation Feiser) - BROTHERS
Sprachdaten der Dissertation Feiser (2016) Deutsch - 20 Sprecher - 7240 Recording Sessions - Orth. und autom. phon. Transkription - TextGrid, emuDB

Korpora mit hoher technischer Qualtät (Studio)

Folgende Korpora enthalten Sprache, die nicht im Feld und nicht über Telefonverbindungen aufgezeichnet wurden, die 16kHz oder höherer Abtastrate aufgezeichnet wurden und bei denen mit einer relativ hochwertigen Wiedergabequalität gerechnet werden kann:

Verarbeitung und Evaluation

Die BAS Korpora werden vor der Verbreitung einem formalen Test (BAS Validation) unterworfen. Dieser Test umfaßt unter anderem die folgenden Prüfpunkte:

Signaldaten-Format korrekt lesbar.
Header Syntax korrekt, bzw. Abweichungen regulär und dokumentiert.
Dokumentation korrekt.
Software korrekt.
Notationen (Orthographie, kanonische Formen, Segmentationen, etc.) in Stichproben korrekt.

Danach werden die Korpora als sogenannte 'Master Volumes' in unserem Archiv abgelegt und mit symbolischen Links zur zentral verwalteten Dokumentation und Software versehen. Bei Bedarf werden dann von diesen Master Volumes ISO 9660 DVD/CDROMs gebrannt und an die Anwender verschickt ('press on demand'), oder dem Anwender wird online access im BAS CLARIN Repository ermöglicht.

In einem zweiten Verarbeitungsschritt werden die BAS Korpora einer automatischen Annotation unterzogen. Diese beinhaltet eine automatische Segmentierung in Phoneme (MAUS), Detektion von Abweichungen in der Aussprache, Wortgrenzen, etc. Alle Ergebnisse weiterer Analysen werden im einheitlichen Partitur-Format dargestellt.

Im Rahmen des BITS-Projektes (TP8) werden alle im BAS derzeit verwalteten Korpora einer gründlichen Revalidierung nach veröffentlichten Richtlinien unterzogen. Die Ergebnisse dieses strengeren BAS Long Test werden im BITS-Projekt veröffentlicht.
Dieser BAS Long Test wird im Rahmen der CLARIN Initiative wieder aufgenommen: alle im CLARIN Repository des BAS veröffentlichten Corpora müssen anhand dieses Protokolls validiert werden.

File Formate und Software

Die vom BAS vertriebenen Korpora enthalten in der Mehrzahl Signaldateien im RIFF WAVE oder NIST Format. Einige Korpora enthalten SAM Annotations-Formate.
Eine Beschreibung aller in den BAS Korpora verwendeten Formate finden Sie hier.
Die Formate aller Dateien sind natürlich auch in den Dokumentationen des jeweiligen Korpus beschrieben. (Die meisten dieser Dokumentationen können Sie on-line in den betreffenden WWW Seiten abrufen.)

Außerdem befinden sich auf jeder BAS CDROM Software und C-Funktionen für den Zugriff auf die Signaldateien, sowie die automatische Transformation in und aus NIST/SPHERE Format, SAM Format und einfache raw Dateien.

Häufigste Anwendungen

Automatische Spracherkennung

Für die Initialisierung von statistischen Verfahren der automatischen Spracherkennung (ASR) werden segmentierte Sprachsignale benötigt.
Für diesen Zwecke eigenen sich besonders die folgenden Korpora:

gelesene Einzelworte:
gelesene kontinuierliche Sprache:
- PD1
- PD2
- SC10
geräuschbehaftete Sprache / Feldaufnahmen
- SC2
- SHC
- SMC
- SVC
- VERIF1DE
spontane Sprache:
- VM
  Volume VM2 enthält auch Handsegmentierungen
- SC10

Für das weitere Training (ohne Segmentierung):

Mensch-Maschine-Kommunikation

Sprachsynthese

Für Verfahren der PSOLA-Synthese können im Prinzip alle handsegmentierten, teilweise auch die automatisch segmentierten Korpora (in Klammern) verwendet werden; besonders eignen sich natürlich die Korpora SI1000P und BITS-LG, BITS-US, die speziell für diesen Zweck entwickelt wurden:

SI1000P
BITS-LG
BITS-US
PD1 (teilweise)
PD2 (teilweise)
VM 2 (teilweise)
(VM)
(PD1 Rest)
(PD2 Rest)

Sprechererkennung, -verifikation, -adaption

Eine besondere Vielfalt an Sprechern bieten außerdem VM, PD1 und SI100.

Empirische phonetische Untersuchungen

Segmentale Untersuchungen

Für diesen Zweck eignen sich natürlich besonders Korpora mit Handsegmentierungen. Da es davon nur sehr wenige gibt, empfiehlt es sich gerade bei statistischen Auswertungen auch auf automatisch segmentierte Daten zurückzugreifen (in Klammern):

PD1 (teilweise)
PD2 (teilweise)
VM 2 (teilweise)
SC10
CLIPS_MT_MANUAL
(VM Rest)
(PD1 Rest)
(PD2 Rest)
(SI100)
(PHATTSESSIONZ)
(ALC)

Prosodische Untersuchungen

VM 1,2, 3,4, 5, 15, 20, 21, 22, 24, 28, 30, 31, 32
PD 2
SI1000P
SKAUDIO
PHATTSESSIONZ
ALC
CLIPS_MT_MANUAL
BAS Siemens Hoergeraete Corpus - HOESI
AsiCa
ASD

Fremdsprachige Akzente / Sprechermerkmale

Dialektale Varianten

Copyright © 1995-2020 Bayerisches Archiv für Sprachsignale, Universität Müchen
This page and all other pages with the initial 'BAS' or 'Bas' in the filename may be copied, printed and distributed to other parties, under the condition that the pages are distributed as shown here. Parts of pages or extended pages may not be distributed further withoutpermission of the BAS.

Florian Schiel

BASBayerisches Archiv für SprachsignaleKorpora