Same page in english
Letzter Update dieser Seite: 2021-05-01
Beachten Sie, dass ausgewählte Korpora in diesem Katalog und weitere Korpora, die hier nicht aufgeführt sind, für Akademiker kostenfrei von CLARIN Repository heruntergeladen werden können (teilweise markiert mit (*)).
Folgende Korpora sind derzeit am BAS auf CD-R/DVD-R/Harddisc/online verfügbar.
Ein Teil dieser Korpora wird für Akademiker und BAS-Lizenz-Halter auch online im
BAS CLARIN Repository
zum direkten Download angeboten (markiert mit (*)). Die folgenden Sprachkorpora werden ausschließlich im
BAS CLARIN Repository
vertrieben; eine kommerzielle Nutzung ist in manchen Fällen möglich (Infos unter
bas@bas.uni-muenchen.de):Sprachkorpora
(falls nicht anders bezeichnet, ist die Sprache der Korpora Deutsch!)
Gesamter Katalog
CH-Jugendsprache,MOCHA,NM-MoCap-Corpus,NSC,Sprecherinnen,VERIF1DE,VMEmo,WaSeP
Audio Files aus den verfügbaren
Korpora.
10 Sprecher - 10000 Äusserungen - diktiert - Orthographie
100 Sprecher - 10000 Äusserungen - diktiert - Orthographie
201 Sprecher - 21681 Äusserungen - gelesen - Orthographie, kan. Form,
automatische Segmentierung
16 Sprecher - 3200 Äusserungen - gelesen - Orthographie, kan. Form,
Handsegmentierung, automatische Segmentierung, prosodische Labelung
88 Sprecher - 1 Geschichte - gelesen - Orthographie, kan. Form
8 Sprecher - 8 Wiederholungen von 100 Äußerungen - Feldaufnahmen mit
Geräuschen - Annotation der Geräusche - 2 Mikrophone - Orthographie, kan. Form
70 Sprecher (67 nicht deutsch-sprachige Sprecher, 3 deutsche Sprecher) -
100 phonetisch balancierte Sätze, Nummern von 1 bis 100, 1 Geschichte, 1
Dialog, 1 Nacherzählung - Transliteration, Orthographie, kan. Form
106 Sprecher - 11100 Äußerungen - gelesen - Orthographie
22 Sprecher - Robot-Befehle - 10810 Äußerungen - gelesen -
Phonem- und Wortsegmentierungen
Regional abgedecktes Deutsch - 498 Sprecher - 32 CD-ROMs
2 professionelle Sprecher - Laryngosignal - Prosodische Ettikettierung - 4 CD-ROMs
94 Dialoge zwischen deutsch-sprachigem Taxi-Dispatcher und englisch-sprachigem
Kunden - aufgenommen über reale Telefonverbindungen - Orthographie,
kanonische Form, Übersetzung
3909 Aufnahmen mit spontaner Telefonsprache (Monologe) - SpeechDat Verschriftung
17293 Aufnahmen von 4366 Sprechern mit spontaner Telefonsprache (Beantwortung von Fragen) - SpeechDat Verschriftung
Aufnahmen gelesener und spontaner Sprache von Jugendlichen 13-20 - SpeechDat Verschriftung
15600 Aufnahmen von Kommandos an ein WebPad in British English und Französisch - 49 Sprecher - Büroumgebung - SpeechDat Verschriftung
7746 Aufnahmen, Strassennamen, PLZ, Städtenamen, Telefonnummern - 1957 Sprecher - Alle Umgebungen - SpeechDat Verschriftung
11036 Logatome mit kompletter deutscher Diphoneliste - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle Segmentierung, BAS Partitur Format
6732 diphon-asugewogene Sätze - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle phonetische Segmentierung und prosodische Annotation, BAS Partitur Format
Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448
Aufnahme-Sessions - Szenario: Public, Home, Mobil
10966 Mensch-Maschine Anfragen per SmartPhone - 156 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck, Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
2315 Mensch-Maschine Anfragen auf dem fahrenden Motorrad - 36 Sprecher - natürliche Umgebung, 2 Mikrophone (Bluetooth-Helm, Kehlkopf), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
2218 Mensch-Maschine Anfragen in Mensch-Mensch-Maschine Situation per SmartPhone, Gesichtsvideo der anfragenden Person - 99 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck,Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, manuelle Turnsegmentierung, BAS Partitur Format
1019 Aufnahmen mit je max. 138 Items (gelesen, spontan) von Jugendlichen im Alter 12-20 - 1019 Sprecher - natürliche Umgebung (Schule), 2 Mikrophone (Headset, Desktop), demoskopisch verteilt über Deutschland - Transliteration nach SpeechDat, manuelle Segmentierung Beginn/Ende Äußerung, BAS Partitur Format, MAUS Segmentierung
Aufnahmen alkoholisierter und nüchterner Sprecher im Alter von 22-75 - 162 Sprecher - Aufnahme im Auto, 2 Mikrophone (headset, mouse micro) - Transliteration nach erweitertem SpeechDat standard, manuelle Segmentation Start/Ende Äßerung, BAS Partitur Format, MAUS Segmentation, Emu Datenbank
Aufnahmen zur Sprecher-Verifikation über Telefon - 150 Sprecher - 20 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Aufnahmen zur Sprecher-Klassifikation über Telefon - 945 Sprecher - 1-7 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Italienische Maptask Aufnahmen aus CLIPS - 30 Sprecher - 2 Aufnahme-Sessions pro Sprecher - Transliteration, Segmentierung nach CLIPS Standard - BPF, TextGrid, Emu
Lombard Dialog-Sprache - 24 Sprecher - 12 Recording Sessions pro Sprecherpaar - Segmentatierung speech - non-speech - BPF
Aufnahmen von Calabrese - 68 Sprecher - 331 Recording Sessions - Orth.-Phon. Transcription - TextGrid
Historische Aufnahmen von Siebenbürger-sächsisch Deutsch - 1805 Sprecher - 2264 Recording Sessions - Orth. und phon. Transkription - TextGrid
Sprachdaten der Dissertation Feiser (2016) Deutsch - 20 Sprecher - 7240 Recording Sessions - Orth. und autom. phon. Transkription - TextGrid, emuDB
Der TED Korpus wird derzeit von der ELDA herausgegeben. Daher wird BAS diesen Korpus nur anbieten, wenn diese erste Edition vergriffen sein sollte.
Fragen und Orders bitte an
In einem zweiten Verarbeitungsschritt werden die BAS Korpora einer automatischen Annotation unterzogen. Diese beinhaltet eine automatische Segmentierung in Phoneme (MAUS), Detektion von Abweichungen in der Aussprache, Wortgrenzen, etc. Alle Ergebnisse weiterer Analysen werden im einheitlichen Partitur-Format dargestellt.
Im Rahmen des BITS-Projektes
(TP8) werden alle im BAS
derzeit verwalteten Korpora einer gründlichen Revalidierung nach
veröffentlichten Richtlinien
unterzogen. Die Ergebnisse dieses strengeren
BAS Long Test werden im BITS-Projekt veröffentlicht.
Dieser BAS Long Test wird im Rahmen der CLARIN Initiative wieder aufgenommen: alle
im CLARIN Repository des BAS veröffentlichten Corpora müssen anhand dieses
Protokolls validiert werden.
Außerdem befinden sich auf jeder BAS CDROM Software und C-Funktionen für den Zugriff auf die Signaldateien, sowie die automatische Transformation in und aus NIST/SPHERE Format, SAM Format und einfache raw Dateien.
Copyright © 1995-2020 Bayerisches Archiv für Sprachsignale,
Universität Müchen
This page and all other pages with the initial 'BAS' or 'Bas' in the
filename may be copied, printed and distributed to other parties,
under the condition that the pages are distributed as shown here. Parts
of pages or extended pages may not be distributed further withoutpermission of the BAS.