BAS
Bayerisches Archiv für Sprachsignale
Verbmobil I - VM1
Same page in english
Verbmobil I
Aufnahmen 1993 - 1996
Der Verbmobil Korpus I enthält nicht überlappende
Dialogaufnahmen (mit Ausnahme von VMS1.0) und wird in zwei Varianten vom BAS
herausgegeben. Die Original-Edition (VM##.0) enthält die unveränderten
Daten, wie sie innerhalb des Verbmobil Projektes verwendet wurden.
Die Bas-Edition (VM##.1) enthält eine überarbeitete Version, in der
zahlreiche Fehler und Inkonsistenzen bereinigt und alle
verfügbaren symbolischen Informationen hinzugefügt wurden. Dazu gehören
u.a. auch BAS Partitur Files und Aussprache-Lexika.
Zur Beachtung:
Die Volumes VM6, VM8 und VM13 enthalten amerikanisches Englisch und 'Denglisch'
(= von Deutschen gesprochenes Englisch); die Volumes VM16-19 enthalten
japanische Daten, größtenteils konform mit den übrigen VM I Daten; die
Volumes VM9, VM10 und VM11 wurden nie herausgegeben, weil der
Copyright-Holder die Verwendung in Verbmobil verweigerte.
Der Begriff 'spontaner Dialog' bezieht sich auf eine komplette Terminabsprache
zwischen zwei Sprechern. In den meisten Fällen wurden mehr als eine
Terminabsprache pro Sprecherpaar aufgenommen.
1242 Sprecher wurden in 2194 Aufnahmesitzungen erfasst
Der gesamte VMI Korpus ist
9 GB groß und enthält 31054 Dialogbeiträge
auf 15 CD-R.
Allgemeine Dokumentation des Verbmobil 1 Korpus
Informationen zur Struktur und zu möglichen Teilmengen
des VM Korpus
Aufteilung des deutschen VM Korpus
in Trainings-, Development- und Test-Korpus
History betreffend alle VMI Volumes:
- 30.05.2001 : Neuausgabe aller BAS Partitur Files (BPF) auf der Basis
der letzten Fehlerupdates. Dies beinhaltet auch eine Neuberechnung der
MAUS-Daten, sowie die Neuaufnahme weiterer Spuren von
VMII-Projekt-Partnern, die bis dato nicht veröffentlicht wurden.
(Dialogakt-Labelung, syntaktisch-prosodische Labelung, prosodische
Labelungen, Parts-of-Speech-Tags, Lemmata)
- 07.06.2001 : Ausgabe der VM Bonus-CD (VMBONUS) mit zusaetzlichem
Datenmaterial und Dokumentationen;
Ausgabe der VMLEX mit der offiziellen Lexikondatenbank der
Universität Bielefeld.
- 13.12.2001 : Fehler in BPF Spur PRO beseitigt
- 14.03.2002 : Formatfehler in Linkliste der PRO Spur beseitigt
- 30.01.03 : vm_ger.lex completely re-build:
The German pronunciation dir of VM I+II now contains only the
word items as they appear in the ORT tier of the BPF files.
Also the transcription was unified to a more consistant
concept of a 'canonical form'.
- 19.08.03 : New edition of all BAS Partitur Files (BPF) of German signal data
based on the latest error update:
Some minor bugs in the POS, LMA and SAP tiers fixed.
Complete re-done pronunciation list for German (vm_ger.lex)
according to the new 'Transliteration Conventions for Canonical
German' (www.bas.uni-muenchen.de/Bas/BasGermanPronunciation/)
Based on the new pronunciation the following tiers in the BPF
files have been re-calculated:
KAN, MAU
- 20.08.03 : New tier TLN integrated : the TLN tier contains the translation
of the recorded utterance. The transliterations were produced
manually by the University of Tuebingen, Prof. Hinrichs.
The integrated data are also stored on the volume VMBONUS
Please note that the orthographic representation of Japanese
(romanji) in these translations is of the original form as used
in the original Japanese pronunciation list (vm_jap_org.lex).
However, it was never check whether these two data sets (lexicon
and translations) are in fact compatible. Use with caution!
For details about the TLN tier please refer to the BPF documentation
www.bas.uni-muenchen.de/Bas/BasFormatseng.html
- 09.09.03 : Published defined training, development and test sub sets
Volumes:
Die Verbmobil Daten der BAS Edition
können auch nach Sprachgruppen zusammengefasst
bestellt werden, z.B.:
- Alle deutschen Dialoge
- Alle amerikanischen Dialoge
- etc.
Eine solche Zusammenfassung erleichtert oft die Weiterverarbeitung.
Fragen und Orders bitte an
Florian Schiel