BAS
Bayerisches Archiv für Sprachsignale
Verbmobil I - VM1
Same page in english
Verbmobil I
Aufnahmen 1993 - 1996
Der Verbmobil Korpus I enthält nicht überlappende
Dialogaufnahmen (mit Ausnahme von VMS1.0) und wird in zwei Varianten vom BAS
herausgegeben. Die Original-Edition (VM##.0) enthält die unveränderten 
Daten, wie sie innerhalb des Verbmobil Projektes verwendet wurden. 
Die Bas-Edition (VM##.1) enthält eine überarbeitete Version, in der 
zahlreiche Fehler und Inkonsistenzen bereinigt und alle 
verfügbaren symbolischen Informationen hinzugefügt wurden. Dazu gehören 
u.a. auch BAS Partitur Files und Aussprache-Lexika.
Zur Beachtung:
Die Volumes VM6, VM8 und VM13 enthalten amerikanisches Englisch und 'Denglisch' 
(= von Deutschen gesprochenes Englisch); die Volumes VM16-19 enthalten 
japanische Daten, größtenteils konform mit den übrigen VM I Daten; die 
Volumes VM9, VM10 und VM11 wurden nie herausgegeben, weil der 
Copyright-Holder die Verwendung in Verbmobil verweigerte.
Der Begriff 'spontaner Dialog' bezieht sich auf eine komplette Terminabsprache
zwischen zwei Sprechern. In den meisten Fällen wurden mehr als eine 
Terminabsprache pro Sprecherpaar aufgenommen.
1242 Sprecher wurden in 2194 Aufnahmesitzungen erfasst 
Der gesamte VMI Korpus ist
9 GB groß und enthält 31054 Dialogbeiträge
auf 15 CD-R.
Allgemeine Dokumentation des Verbmobil 1 Korpus
Informationen zur Struktur und zu möglichen Teilmengen 
des VM Korpus
 
Aufteilung des deutschen VM Korpus 
in Trainings-, Development- und Test-Korpus
History betreffend alle VMI Volumes:
- 30.05.2001 : Neuausgabe aller BAS Partitur Files (BPF) auf der Basis
der letzten Fehlerupdates. Dies beinhaltet auch eine Neuberechnung der
MAUS-Daten, sowie die Neuaufnahme weiterer Spuren von
VMII-Projekt-Partnern, die bis dato nicht veröffentlicht wurden.
(Dialogakt-Labelung, syntaktisch-prosodische Labelung, prosodische
Labelungen, Parts-of-Speech-Tags, Lemmata)
- 07.06.2001 : Ausgabe der VM Bonus-CD (VMBONUS) mit zusaetzlichem
Datenmaterial und Dokumentationen;
Ausgabe der VMLEX mit der offiziellen Lexikondatenbank der 
Universität Bielefeld.
- 13.12.2001 : Fehler in BPF Spur PRO beseitigt
- 14.03.2002 : Formatfehler in Linkliste der PRO Spur beseitigt
- 30.01.03 : vm_ger.lex completely re-build:
 The German pronunciation dir of VM I+II now contains only the
           word items as they appear in the ORT tier of the BPF files.
           Also the transcription was unified to a more consistant
           concept of a 'canonical form'.
 
- 19.08.03 : New edition of all BAS Partitur Files (BPF) of German signal data
           based on the latest error update:
 Some minor bugs in the POS, LMA and SAP tiers fixed.
           Complete re-done pronunciation list for German (vm_ger.lex)
           according to the new 'Transliteration Conventions for Canonical
           German' (www.bas.uni-muenchen.de/Bas/BasGermanPronunciation/)
           Based on the new pronunciation the following tiers in the BPF
           files have been re-calculated:
           KAN, MAU
- 20.08.03 : New tier TLN integrated : the TLN tier contains the translation
           of the recorded utterance. The transliterations were produced
           manually by the University of Tuebingen, Prof. Hinrichs.
           The integrated data are also stored on the volume VMBONUS
           Please note that the orthographic representation of Japanese
           (romanji) in these translations is of the original form as used
           in the original Japanese pronunciation list (vm_jap_org.lex).
           However, it was never check whether these two data sets (lexicon
           and translations) are in fact compatible. Use with caution!
           For details about the TLN tier please refer to the BPF documentation
           www.bas.uni-muenchen.de/Bas/BasFormatseng.html
- 09.09.03 : Published defined training, development and test sub sets	   
Volumes:
Die Verbmobil Daten der BAS Edition 
können auch nach Sprachgruppen zusammengefasst
bestellt werden, z.B.:
- Alle deutschen Dialoge
- Alle amerikanischen Dialoge
-  etc.
Eine solche Zusammenfassung erleichtert oft die Weiterverarbeitung.
Fragen und Orders bitte an 
Florian Schiel