Same page in english
Letzter Update dieser Seite: 03.07.2020
Diese Seite enthält Beschreibung und Definition der vom BAS empfohlenen/akzeptierten
Dateiformate.
Außer den unten aufgeführten Formaten unterstützt das BAS alle standardisierten
Fileformate von CLARIN.
media-corpus
XSD-Schemamedia-session
XSD-Schema
Signaldateien mit PhonDat 1 Header enthalten einen binären Header
von konstant 512 Bytes Länge. Danach folgen die Sprachsamples, die
grundsälich mit Low High Byte-Order (Intel-Format) in Worten (2 Bytes)
abgespeichert sind. Der Header enthält eine definierte Struktur mit
Begleitdaten, wie Abtastrate, Bitbreite, etc. Dieser Header ist ILS kompatibel.
Zum Lesen und Schreiben von PhonDat 1 Headern sollte die jeweils mitgelieferte
Software
verwendet werden (Modul header.c).
Eine detaillierte Beschreibung der binären Headerstruktur findet sich
hier.
PhonDat 2 ist eine Erweiterung des PhonDat 1 Formats. Nach dem
binären Header von 512 Bytes folgen beliebig viele weitere Header-Blöcke
von 512 Bytes Länge, in welchen die Orthographie und (optional)
eine kanonische Aussprache der Äußerung (in
SAM-PA) gespeichert
sind.
Zu Lesen und Schreiben von PhonDat 1 Headern sollte die jeweils mitgelieferte
Software
verwendet werden (Modul header.c).
Eine detaillierte Beschreibung der binären Headerstruktur und der
nachfolgenden Blöcke findet sich
hier.
Eine detaillierte Beschreibung des NIST/SPHERE Formats findet sich
hier.
Einige BAS Korpora enthalten Daten im NIST/SPHERE Format.
Zur Umwandlung von NIST in andere Standardformate empfehlen wir
SoX, z.B.:
Das S0-Format enthält Wortsegmentierungen von Äußerungen,
die länger als ein Wort sind. Das Format stammt aus dem PhonDat Projekt.
Die Labeldateien sind ASCII, haben das gleiche Präfix wie das zugehörige
Signalfile und die Extension
Syntax:
Bemerkungen:
Das S1-Format enthält die Phonemsegmentierung der
Äußerung. Das Format stammt aus dem PhonDat Projekt.
Die Labeldateien sind ASCII, haben den gleichen Präfix wie das zugehörige
Signalfile und die Extension
Syntax:
Bemerkungen:
Das S2-Format enthält automatisch erzeugte Phonem-Segmentierungen.
Das Format entspricht weitgehend dem S1-Format mit folgenden Abweichungen:
In Zukunft werden alle BAS Korpora, sofern sie segmentale Informationen
enthalten, im BAS Partitur Format ausgeliefert. Alte
Formate werden zwar beibehalten, aber ab einem bestimmten Zeitpunkt
nicht mehr mit Updates unterstützt.
Das BPF wird auch als internes Austauschformat der BAS WebServices verwendet.
Eine Veröffentlichung zur Version
1.2 finden Sie hier (1998).
Das BAS Partitur Format weist folgende Merkmale auf:
Wie im SAM Standard sind BPF files vom Typ text/plain. Als Kodierungen
sind nur 7-bit ASCII oder UTF-8 erlaubt. Manche BPF tier erlauben aus historischen Gründen auch die Kodierung
in LaTeX. Nach Konvention haben BPF Files die Extension '*.par' oder '*.PAR' und den Mimetype
'text/plain-bas'. BPF files sind 'zeilenorientiert', d.h. Information ist in Zeilen strukturiert
und für die Verarbeitung durch UNIX-Tools wie sed, grep, gawk optimiert.
Eine XML Version der BPF Daten ist im Annotation Graph Konzept von Liberman
(ATLAS format) kodiert. Diese Files haben nach Konvention die Extensionen
'*.ags' oder '*.AGS' und den Mimetype 'text/xml'. Die DTD dieses Formats kann
hier heruntergeladen werden.
Der Inhalt der Datei ist nur in 7-Bit-ASCII und UTF-8 kodiert (um Portabilität auf
alle Plattformen zu gewährleisten); je nach Label-Typ können
Sonderzeichen (z.B. Umlaute) in LaTeX oder UTF-8 kodiert werden. Jede Zeile beginnt mit einem
eindeutigen dreistelligem Label, gefolgt von einem Doppelpunkt,
das den Inhalt (Syntax und Semantik) der nachfolgenden
Zeile definiert.
Die Felder der Zeile sind mit 'white spaces' (blank, tab) von einander getrennt.
Das Partiturfile besteht analog zu SAM aus einem
Headerteil vom Label
Der Headerteil enthält SAM-kompatibel die wichtigsten generellen
Informationen. Obligatorisch sind die folgenden Einträge:
LHD: Partitur Version
Empfohlen sind die folgenden Einträge:
REP: Aufnahmeort
Zum Beispiel:
Die folgenden Einträge sind optional (außer diesen
sind im Prinzip auch beliebige andere erlaubt, solange sie nicht mit
obligatorischen Label-Definitionen kollidieren!):
FIL: SAM Dateitype
Der Bodyteil beginnt nach dem Label
Es gibt 5 Grundklassen von Spuren:
Eine Zeile dieser Spur enthält drei Einträge:
Beispiele:
Eine Zeile dieser Spur enthält 4 Einträge:
Zum Beispiel:
Eine Zeile dieser Spur enthält drei Einträge:
Eine Zeile dieser Spur enthält fünf Einträge:
Eine Zeile dieser Spur enthält vier Einträge:
Definition:
Diese Spur enthält eine tokenisierte Liste der vom Sprecher getätigten
Wörter in einer 'kanonischen' Ausspracheform kodiert in SAMPA (soweit definiert für diese
Sprache) oder X-SAMPA.
(in älteren deutschen Korpora ev. noch in einer Variante
German SAM-PA). Anstatt
eines 'glutinierten' SAMPA Strings in der 3. Spalte können die SAMPA-Symbole auch durch
Leerzeichen getrennt kodiert werden (also in Spalte 3 bis Ende, empfohlen).
Zum Beispiel:
Die symbolische Nummerierung der Worteinheiten der Vorschlagstranskription
bildet, wie schon erwähnt, die Referenz für alle anderen
symbolischen Bezüge (soweit vorhanden). Der Sinn dieser Zuordnung
von kategorialen Ereignissen zu Worteinheiten liegt zunächst
ganz pragmatisch darin, daß dadurch eine korrekte Darstellung
der Partituren über der Zeit ermöglicht werden soll.
Die Zuordnung kann aber auch andere Vorteile haben, z.B. bei der
Darstellung von prosodischen Ereignissen.
Definition:
Wie tier KAN aber transcript kann in SAMPA, X-SAMPA, IPA oder ARPABET
kodiert sein. Außerdem sind Silbengrenzen sowie primärer und sekundärer
Stress markiert. Phonetische Symbole sind immer durch Leerzeichen getrennt.
Zum Beispiel:
Definition:
Diese Spur kodiert die morphologische Zerlegung der Wörter
in Morphklassen. Die Morphsequenz und die Klassensequenz sind durch
ein Semikolon getrennt; Segmente innerhalb der Sequenzen durch
Leerzeichen. Eine Definition der Morphklassen befindet sich
hier.
Zum Beispiel:
Definition: Diese Spur enthält eine Liste der vom Sprecher
geäßerten Wörter in einer silbifizierten kanonischen
Ausspracheform. Die Transkription erfolgt in der SAMPA-Variante der
zugrundeliegenden Sprache oder X-SAMPA. Silben sind hierbei durch einen Punkt '.'
getrennt. Die SAMPA-Symbole können durch Blanks getrennt sein.
Ambisyllabische Konsonanten werden der vorangehenden Silbe zugeordnet. Zum Beispiel:
Definition:
Diese Spur enthält eine Liste der vom Sprecher gesprochenen
Wörtern in der tatsächlichen Aussprache kodiert in SAMPA
(bei Deutsch wird in älteren Sprachkorpora erweitertes
German SAM-PA
verwendet).
Zum Beispiel:
Die PTR weicht i.A. von der KAN ab, weil Sprecher nur selten in Zitierformen sprechen.
Definition:
Die Spur Orthographie enthält die zur Vorschlagstranskription
gehörigen orthographischen Formen.
Zum Beipiel:
Definition:
Die Spur Verbmobil-Transliteration enthält die Transliteration
der Äußerung nach den Verbmobil I Transliterations-Konventionen
segmentiert in die Einheiten der Vorschlagstranskription.
Eine Beschreibung des Verbmobil I Transliterationsformats befindet sich hier.
Beispiele:
Definition:
Im Gegensatz zur Spur TRL beschreibt diese Spur die Transliteration nach
den neu überarbeiteten Konvention des Verbmobil II Projektes. Eine grundlegende
Überarbeitung der Konventionen wurde notwendig, weil sich das Format
der ersten Verbmobil Phase nicht durch automatische Parser verarbeiten ließ.
Nähere Informationen zum VM II Format befinden sich hier.
Die Segmentierung erfolgt derart, daß grundsaetzlich nach einer
Worteinheit im Sinne der Referenz-Spur KAN (s.o.) ein neuer Zeileneintrag
begonnen wird. Die einzigen Ausnahmen sind erstens Interpunktionen und
zweitens Aussprachekommentare, die immer noch in der Zeile der vorangegangenen
Worteinheit stehen. (Dies nur, um die Lesbarkeit zu verbessern).
Beispiel:
Definition:
Diese Spur beschreibt exakt die originale Transkription
einer Aufnahme, d.h. wenn man alle label strings konkateniert, sollte man wieder die
Textform des original Transkriptes erhalten. Zeilenumbrüche sind als '\n' kodiert,
Tabulator als '\t' und andere 'white spaces' als '\s'.
TRO kann z.B. das Ergebnis eines optimalen Mappings der
Referenz-Tier ORT auf die original Transkription sein (z.B. das Ergebnis des Webservice
'subtitle'). Die TRO tier kann z.B. in Verbindung mit einer MAUS-Segmentierung
für die automatische Erzeugung von Untertiteln genutzt werden, oder für die Indizierung auf
original strings der Transkription.
Beispiel:
Definition:
In Multi-Party Aufnahmen (z.B. Verbmobil II) kann es vorkommen, daß
die Sprache des gerade aufgenommenen Sprechers von anderen Sprechern
aktiv überlagert wird ('cross talk'). In diesem Fall wird eine
zusätzliche Spur
Zum Beispiel:
Definition:
Diese Spur enthält eine bündige Segmentierung der
Äußerung in extended
German SAM-PA Einheiten (breite phonetische
Segmentierung). Die erste Nummer bezeichnet den Beginn des Segments
in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in
Samples.
Die Definition für extended German SAM-PA befindet sich
hier.
Zum Beispiel:
Definition:
Diese Spur enthält eine Segmentierung der
Äußerung in SAM-PA/X-SAMPA
Einheiten (breite phonetische
Segmentierung). Im Gegensatz zur Spur
Die Definition für extended German SAM-PA befindet sich
hier.
Zum Beispiel:
Definition:
Diese Spur enthält eine vollautomatisch erstellte Segmentierung
in Einheiten des SAM-PA. Einige dieser Segmentierungen (Verbmobil)
werden
in enger Zusammenarbeit mit der TU München, Lehrstuhl für
Mensch-Maschine-Kommunikation (Dr. G. Ruske) erstellt.
Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn
der Aufnahme, die zweite Nummer bezeichnet die Länge des Segments
in Samples.
Beispiel:
Definition:
Diese Spur enthält eine Segmentierung in Worte bzw. Wortäquivalente.
Die Segmentierung muß nicht bündig sein. Als 'label string' sind
sowohl Orthographie als auch Standardaussprache zulässig (z.B. Deutsches
SAM-PA). Ein '-' als letztes Zeichen in 'label string' bedeutet ein
elidiertes Wort (die Länge ist in diesem Fall Null) gegenüber
der Referenzspur KAN. Ein '-' als
erstes Zeichen in 'label string' bedeutet ein eingefügtes Wort.
Definition:
Diese Spur enthält die Segmentierung in Dialogakte des
Deutschen Forschungszentrums für künstliche
Intelligenz, Saarbrücken (DFKI).
Zum Beispiel:
Definition:
Diese Spur enthält die prosodische Segmentierung nach GTobi (Verbmobil,
Technische Universität Braunschweig, Institut für
Nachrichtentechnik).
Zum Beispiel:
Definition:
Diese Spur enthält eine prosodische Segmentierung und Labelung
von 3 Grenzmarkern und 3 Akzenten in Anlehnung an GTobi.
Semantik des Markerstrings:
Zum Beispiel:
Definition:
Diese Spur enthält eine wortweise Geräuschmarkierung des
Signals. Es werden zwei Typen von Geräuschen unterschieden: Einfache
Geräusche, die zwischen Wörtern auftreten, erhalten in der zweiten
Spalte die beiden sybolischen links der angrenzenden Wörter (z.B. '5;6');
Geräusche, die Wörter überlagern erhalten nur den sybolischen
Link des überlagerten Wortes (z.B. '5').
Zum Beispiel:
Definition:
Diese Spur enthält eine Labelung von prosodischen Grenzen
angelehnt an GTobi im Signal. Kein Bezug zur Wortfolge. Die Labelung
wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität
Braunschweig durchgeführt.
Definition:
Diese Spur enthält eine Labelung von prosodischen Grenzmarkern
angelehnt an GTobi im Signal. Kein Bezug zur Wortfolge. Die Labelung
wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität
Braunschweig durchgeführt.
Definition:
Diese Spur enthält eine Labelung von prosodischen Grenz- und Akzentmarkern
auf Basis der Wortfolge der Äußerung. Konsequenterweise handelt es sich
daher um eine Zuordnung von Labeln zu Wortpositionen bzw. zu Positionen
zwischen Wörtern. Die Labelung
wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität
Erlangen in Zusammenarbeit mit der Universität München durchgeführt.
Eine detailierte Beschreibung des Labeling-Systems und der verwendeten
Klassen findet sich
hier (für Deutsch) (Definition der Labels in Tabelle 12 auf S. 15-16 des Dokuments)
und hier (für Englisch).
Zum Beispiel:
Definition:
Diese Spur enthält eine maschinen-lesbare Repräsentation der
Syntax der zugrundeliegenden Äußerung. Die tiers SYN, FUN und LEX beziehen
sich auf diesselbe Struktur, können aber bei Bedarf auch separat
ausgewertet werden. Die Labelung
wurde im Rahmen des Verbmobil 2 Projekts von der Universität
Tübingen durchgeführt.
Eine Übersicht der Baumbänke in Verbmobil II finden Sie
hier.
Eine detailierte Beschreibung des Labeling-Systems und der verwendeten
Klassen findet sich hier für die Sprachen
Deutsch,
Englisch
und
Japanisch
(nur in Englisch).
Zum Beispiel:
Definition:
Diese Spur enthält eine Klassifikation der Wörter auf lexikale
Klassen (tagging). Das Klassensystem entspricht dem STTS
(Stuttgart-Tübingen-TagSet), welches sich in gleicher Form auch in der LEX-Spur
wiederfindet.
Das Tagging wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität
Stuttgart automatisch durchgeführt.
Eine detailierte Beschreibung der verwendeten
Klassen findet sich hier für die Sprachen
Deutsch
auf den Seiten 17 - 19 und
Englisch
uf den Seiten 48 - 49. Zusätzlichen finden sie
hier
einige Beispiele für das deutsche tagset (nur in Deutsch)
Zum Beispiel:
Definition:
Diese Spur enthält zu jedem gesprochenen Wort der Äußerung das
entsprechende Lemma.
Diese Annotation wurde im Rahmen des Verbmobil 2 Projektes automatisch von
der Universität Stuttgart auf der Basis der Transliterationen erzeugt.
Zum Beispiel:
Definition:
Diese Spur enthält eine Segmentierung der
Äußerung in IPA
Einheiten (enge phonetische
Segmentierung).
Die erste Nummer bezeichnet den Beginn des Segments
in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in
Samples. Der Rest der Zeile enthält eine mit Kommata getrennte Liste von
IPA-Nummern (mindestens eine Nummer), optional gefolgt von einer Liste von
korrespondierenden SAM-PA Symbolen.
Zum Beispiel:
Definition:
Diese Spur enthält eine Segmentierung einer längeren Aufname in
Dialogbeiträge (Turns), Sätze oder andere Einheiten.
Die erste Nummer bezeichnet den Beginn des Segments
in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in
Samples. Der symbolic link enthält die (mit Kommata separierte) Liste der
Wortnummern in den segmentierten Teilstück.
Der Rest der Zeile enthält ein optionales Label (z.B. Turn-Nummer, Satz-Nummer etc.)
Zum Beispiel:
Definition:
Im Gegensatz zur Spur TRL beschreibt diese Spur die Transliteration nach
den erweiterten Konvention des SmartKom Projektes.
Die Transliteration wurde an die besonderen Gegebenheiten des Mensch-Maschine-Dialogs angepasst; ein BPF beschreibt in SmartKom eine vollständige Aufnahmesitzung, d.h. eine Segmentierung in Turns entfällt.
Beispiel:
Synopsis:
Diese Spur enthaelt die 2D-Gestik-Annotation des
SmartKom Projekts.
Alle Gesten, die innerhalb des Erfassungsbereichs der SIVIT-Kamera
erfolgen, werden segmentiert und gelabelt. Zusätzlich werden emotionale
Gesten auch ausserhalb dieses Bereich markiert.
Hintergrundinformationen zur SmartKom Datensammlung finden Sie
hier.
Eine detailierte Beschreibung des Label-Sytems sowie die Entwicklung des
selben finden Sie in hier;
Das folgende ist eine Kurzzusammenfassung der 8 Label-Kategorien
(mögliche Werte der Label-Strings in '' gesetzt):
Example:
Synopsis:
Diese Spur enthält die Annotation von 'holistischen' User-States, d.h.
interessante emotionale und kognitive Zustände, wie sie im
SmartKom Projekt gelabelt wurden.
Für detailiertere Informationen zur SmartKom Datensammlung siehe
hier.
Die gesamte Aufnahme wird bündig segmentiert und gelabelt. Beginn (begin) und
Dauer (duration) jedes Segments wird in Samples von Beginn der Aufzeichnung
angegeben (SmartKom: 16 kHz).
Der Label-String (label string) enthält eine der folgenden 7 Kategorien
gefolgt von einem Rating (nur für die Kategorien 2-6).
Eine ausführliche Beschreibung des Label-Systems findet sich beispielsweise
hier.
Die Intensität des User-States, d.h. die Stärke des Ausdrucks, wird
durch für die Kategorien 2-6 durch ein 2stufiges Rating nach dem
Label angegeben (durch TAB getrennt):
Beispiel:
Synopsis:
Diese Spur enthält die Annotation von User-States, d.h.
interessante emotionale und kognitive Zustände, wie sie im
SmartKom Projekt gelabelt wurden.
Im Gegensatz zur Spur USH wird hier nur nach dem Eindruck des Gesichts,
d.h. ohne das Sprachsignal, gelabelt.
Die gesamte Aufnahme wird bündig segmentiert und gelabelt. Beginn (begin) und
Dauer (duration) jedes Segments wird in Samples von Beginn der Aufzeichnung
angegeben (SmartKom: 16 kHz).
Der Label-String (label string) enthält eine der folgenden 7 Kategorien
gefolgt von einem Rating (nur für die Kategorien 2-6).
Eine ausführliche Beschreibung des Label-Systems findet sich beispielsweise
hier.
Die Intensität des User-States, d.h. die Stärke des Ausdrucks, wird
durch für die Kategorien 2-6 durch ein 2stufiges Rating nach dem
Label angegeben (durch TAB getrennt):
Beispiel:
Siehe auch die Spuren USH, USP und
OCC.
Synopsis:
Diese Spur enthält eine nützliche Hilfsinformation für die Verarbeitung
des frontalen Videosignals in SmartKom-Aufnahmen. Gelabelt wurden jeweils
Verdeckungen des Gesichts bzw. Objekte, die in den Gesichtsbereich
bewegt werden und auf diese Weise das Gesicht teilweise verdecken.
Beginn (begin) und Dauer (duration) der Verdeckung wird in Samples von
Beginn der Aufnahmen angegeben (SmartKom: 16 kHz).
Example:
Siehe auch die Spuren USH, USP und
USM.
Synopsis:
Diese Spur enthält eine meta-liguistische Segmentierung und Labelung
der SmartKom Audiodaten. Die hier verwendeten Merkmalsklassen dienen als
Input zu einer stimmbasierten User-State-Detektion (s. Spur USH für mehr
Details zu den SmartKom User-States). Die USP-Spur basiert auf der originalen
SmartKom TRP Labelung, wurde jedoch zur einfacheren Verarbeitung auf die
Worteinheiten aligniert. Sie enthält sämtliche Daten der originalen TRP-Labelung.
Weitergehende Informationen zur TRP-Labelung finden sich hier.
Für detailiertere Informationen zur SmartKom Darensammlung siehe
hier.
Beginn (begin) und Dauer des gelabelten Ereignis werden in Samples
von Beginn der Aufnahme angegeben (SmartKom: 16 kHz). In den meisten Fällen
wird nicht das Ereignis ansich sondern das Wort segmentiert, in dem es
stattfindet. Siehe dazu die Bemerkungen zu den einzelnen Labels unten.
Label-Klassen:
Regeln zur Labelung:
Example:
Siehe auch die Spuren USH, OCC und
USM.
Synopsis:
Diese Spur enthält eine Übersetzung der Sprachaufnahme in eine andere Sprache.
Die gelisteten symbolischen Wortlinks markieren den Bereich in der Aufnahme, über den
sich die folgende Übersetzung erstreckt. Übersetzungen können daher auch in mehreren
Labelzeilen hintereinander annotiert sein. Auch überlappungen der Bereiche sind
im Prinzip möglich.
Beispiel:
Synopsis:
Diese Spur enthält eine prosodische Labelung, wie sie in deutschen
Synthese-Projekten am IMS Stuttgart und am BAS verwendet wird. Die
Labelung beschränkt sich auf Akzente und Grenztöne im sog.
'GTobi light' wie es vom IMS Stuttgart speziell für die Bedürfnisse
der Unit-Selection-Technik entwickelt wurde. Im Gegensatz zum normalen GTobi
wird hier nur entweder ein Akzenttyp oder ein Grenzmarker aus einem
geschlossenen Inventar gelabelt (frei kombinierte Annotation von Ton (TON:),
Akzenttyp (FUN:) und Grenztyp (BRE:) wie in GTobi ist nicht möglich).
Eine detailierte Beschreibung der Label-Inventare finden Sie in der
Dokumentation des deutschen BITS-Synthese-Corpus, Teil B.
Beispiel:
Synopsis:
Diese Spur enthält eine Transliteration des SmartWeb-Corpus.
Diese stellt ein Subset des SmartKom Transliterations-Sets
(TRS) dar,
erweitert um 4 Off-Talk-Marker (statt bisher nur 2),
eine SAMPA-Kodierung in den Aussprache-Kommentaren
und um zwei Zeitmarker zur manuellen Turn-Segmentierung.
Die folgenden Tags des SmartKom Transliterations-Sets werden hier verwendet:
Beispiel:
Synopsis:
Diese Spur enthält eine Segmentierung in Silben basierend auf der
MAUS-Segmentierung (siehe Spur MAU). Ausgehend von
dem SAM-PA Transkript der MAU-Spur wurde zunächst nach Sonoritäts-Minima
als mögliche Silbengrenzen zwischen Silbenkernen gesucht, und diese
anschließend nach den Regeln von Kohler verfeinert. Die resultierende
Syllabifizierung wurde mit Hilfe der Segmentgrenzen aus der MAU-Spur
mit Beginn und Dauer versehen.
Beispiel:
Synopsis:
Dieser Type 1 Tier enthält eine wort-weise Sprecher-Labellung ('diarization').
Die gelisteten symbolischen Wortlinks markieren den Bereich in der Aufnahme, über den
sich das folgende Sprecher-Label erstreckt. Jedem Wort kann nur ein Sprecher-Label
zugeordnet werden.
Example:
Eine Beschreibung des SAM Formats findet sich
hier.
PhonDat 1
Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!
PhonDat 2
Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!
PhonDat 2 Header unterscheiden sich durch ihre Versions-Nummer (2) im
binären Teil des Headers von PhonDat 1 Headern.
NIST - SPHERE
Das NIST - SPHERE Format ist ein vom 'National Institute of Standards
and Technology, USA' definiertes Format für Sprachdaten. Es wird in
zahlreichen amerikanischen Korpora verwendet. Der große Vorteil von NIST
ist der lesbare und dynamische Header für Metadaten.
sox -t sph input.nist output.wav
Segment-/Labeldaten
S0-Format
Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!.S0
.
<file> = <Name of segment file> CR
<Orthography> CR
oend CR
<Canonical form> CR
kend CR
hend CR
<list of word segments>
<list of word segments> = <begin sample> <marker> CR
...
<begin sample> = number of first sample
<marker> = '#c:' (beginning of first word) OR
<canonical word form> (as read from the lexicon) OR
'.' (end of last word)
<Name of segment file> = any valid filename
<Orthography> =
The orthographic string contains the standard orthography or a
transliteration with additional markers of the spoken utterance.
German umlauts are represented either by LaTeX
convention or by 7 bit ASCII signs or by German Character set
coding used by DEC and Sun:
Umlaut LaTeX 7 Bit ASCII (dec) German Char Set (hex)
Ae "A [ (91) C4
Ue "U ] (93) CD
Oe "O \ (92) D6
ae "a { (123) E4
ue "u } (125) FC
oe "o | (124) F6
ss "s ~ (126) DF
<Canonic form> =
The canonical string contains the expected citation form of the
words in the utterance. Note that this is NOT a transcription of the
signal. Symbols used are the German subcorpus of the
SAM-PA, with
following changes to SAM-PA:
Q Glottal stop
q laryngealization (not in canonicalal forms!)
' primary stress
" secondary stress
# compound word marker (optional)
+ function word marker (suffix, optional)
Words are separated by two blanks, phonemic labels are seperated by
one blank.
marker
markiert.
Das nachfolgende Wort hat dann den gleichen Wert in begin sample
.
begin sample
wie das fehlende Wort.
S1-Format
Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!.S1
.
<file> = <Name of segment file> CR
<Orthography> CR
oend CR
<Canonical form> CR
kend CR
<Transcription> CR
hend CR
<list of phoneme segments>
<list of phoneme segments> = <begin sample> <marker> CR
...
<begin sample> = number of first sample
<marker> = '#c:' (beginning of first word) OR
'#p:' (pause) OR
'#v:' (mis-pronunciation) OR
<segment> OR
<word boundary segment> OR
<compound boundary segment> OR
<punctuation>
<segment> = $<sampa string> (ordinary segment)
<word boundary segment> = ##<sampa string>
<compound boundary segment> = $#<sampa string>
<sampa string> = any string of <extended German SAM-PA symbols>
<punctuation> = '#.' OR '#,' OR '#?' OR '#!'
<Name of segment file> = any valid filename
<Orthography> =
The orthographic string contains the standard orthography or a transliteration
with additional markers of the spoken utterance.
German umlauts are represented either by LaTeX convention or by 7 bit ASCII
signs or by German Character set coding used by DEC and Sun:
Umlaut LaTeX 7 Bit ASCII (dec) German Char Set (hex)
Ae "A [ (91) C4
Ue "U ] (93) CD
Oe "O \ (92) D6
ae "a { (123) E4
ue "u } (125) FC
oe "o | (124) F6
ss "s ~ (126) DF
<Canonic form> =
The canonical string contains the expected citation form of the words in the
utterance. Note that this is NOT a transcription of the signal. Symbols used
are the German subcorpus of the SAM-PA, with the following changes to SAM-PA:
Q Glottal stop
q laryngealization (not in canonical forms!)
' primary stress
" secondary stress
# compound word marker (optional)
+ function word marker (suffix, optional)
Words are separated by two blanks, phonemic labels are separated by
one blank.
<Extended German SAM-PA symbols> =
See here for a complete table of extended SAM-PA symbols.
Aside of the defined German SAM-PA symbols the following
additional symbols are used:
~ : nasalization, e.g. ~E
Q : glottal stop (instead of ? in SAM-PA)
' : canonical primary word stress
" : canonical secondary word stress
q : laryngealization
% : uncertain boundary, e.g. $%a:
- : modifications of the canonical form:
replacement: a:-A
elision: a:-
insertion: -A
= : realization of two syllables as a diphthong, e.g. E:=6
+ : function word (placed after last segment)
Zum Beispiel: /d i:6/
(dir), /g e: h OY6/
(geheuer)
S2-Format
Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!
BAS Partitur-Format
Allgemeines
Die meisten Formate für segmentale Informationen haben den
Nachteil, daß sie
Aus diesem Grunde wurde am BAS auf der Basis des SAM Labelformats
ein neues offenes Format zur Beschreibung segmentaler
Informationen entwickelt, welches diese Schwächen umgeht.
Da es als Idealvorstellung alle verschiedenen Beschreibungsebenen
des Sprachsignals wie die Stimmen einer Partitur nebeneinanderstellt,
wurde es BAS Partitur Format (BPF) genannt.
Files und Mimetype
History
1.0 : 01.09.95 Vorläufige Definition des BAS Partitur Formats
BITTE NICHT MEHR VERWENDEN !
1.1 : 01.06.96 Strukturierte Definition mit Klassen
1.2 : 28.08.96 Label
ELF:
aus Definition gestrichen
(Tool par-1.1-to-1.2 wandelt 1.1 Files in 1.2 Files um)
1.2.1 : ?
1.2.2 : Tier DAS added
1.2.3 : 16.01.98 Tier TR2, SUP added
1.2.4 : 07.07.98 Tier PRS added
1.2.5 : 24.08.98 Tier NOI added
1.2.6 : distinction between symbolic links to word groups (list of word
numbers seperated by kommata) and symbolic links to events between
words (eg. noises, number pairs seperated by semi-colon)
changed class definition of class 1, 4 and 5 accordingly
changed tier defintion NOI
1.2.7 : 12.09.00 Tiers LBP and LBG added
1.2.8 : 11.05.01 Tiers PRO,POS,LMA,SYN,FUN,LEX added
1.2.9 : 07.08.01 : Tier IPA added
1.2.10 : 29.08.01 : Tier TRN added
1.2.11 : 28.11.01 : Tier TRS added
1.2.12 : 20.07.02 : Tiers GES,USH,USM,OCC,USP added
1.2.13 : 22.10.02 : Tier GES: definition of gestures extended
Tier TLN added
1.2.14 : 21.04.06 : Tier PRM added
1.2.15 : 21.02.07 : Tier TRW added
1.2.16 : 21.09.09 : Tier MAS added
1.3 : 05.10.12 : Extension of 7-bit ASCII to UTF-8 as a valid coding
1.3.1 : 11.05.17 : added header entries MAO (MAUS options) and GPO (G2P options)
1.3.2 : 27.06.17 : added header entry SAO (Speech Recognition options)
1.3.3 : 20.07.17 : added type 1 tier TRO
1.3.4 : 13.10.17 : added type 1 tier SPK
1.3.5 : 26.08.19 : added type 2 tier SPD
1.3.6 : 03.02.20 : added type 2 tier VAD
Strukturdefinition 1.X
Eine Partiturdatei hat üblicherweise den gleichen Basisnamen wie die zugehörige
Signaldatei (vorzugsweise 8 Zeichen für ISO 9660 Kompatibilität),
aber die Extension .par
.LHD:
bis Label LBD:
und einem
Bodyteil von Label LBD:
bis zum Dateiende, wobei die letzte
Zeile korrekt mit einem 'line terminator' Symbol abgeschlossen sein muß (das abschließende
Label ELF:
des SAM Label Formats wurde nicht übernommen, da es die
einfach Bearbeitung der Partiturfiles behindert).
SAM: Abtastrate in Hz
LBD:
SNB: Anzahl Bytes pro Sample
SBF: Bytereihenfolge (Intel 01, Motorola 10)
SSB: Bitauflösung
NCH: Anzahl Kanäle
SPN: Sprecher ID
LHD: Partitur 1.3
REP: Muenchen
SNB: 2
SAM: 16000
SBF: 01
SSB: 16
NCH: 1
SPN: PS1
LBD:
TYP: Typ des SAM-Labelfiles
DBN: Korpusname
VOL: Nummer des Volumes
DIR: Directory im Volume
SRC: Name des Sprachsignalfiles
BEG: Anfang der gelabelten Sequenz
END: Ende der gelabelten Sequenz
RED: Aufnahmedatum
RET: Aufnahmedauer
RCC: Aufnahmebedingungen (Mikrophone,etc.)
CMT: Kommentar
SPI: Sprecherinformation
PCF: Name der Protokolldatei
PCN: Protokollnummer
EXP: Name des Segmentierers
SYS: Labelingsystem
DAT: Datum der Fertigstellung der Labelung
SPA: SAM-PA Version
MAO: MAUS version and option list (paired value list)
GPO: G2P version and option list (paired value list)
SAO: Speech recognition program, version and option list (paired value list)
LBD:
und reicht
bis zum Dateiende.
Er enthält die eigentlichen Spuren der Partitur. Jede
Spur ist durch ihr eindeutiges Label gekennzeichnet. Sowohl die Reihenfolge
der Spuren, als auch die Reihenfolge der einzelnen Zeilen einer Spur
sind beliebig.
Diese drei Einträge sind durch 'white spaces' getrennt.
Die symbolischen Links beziehen sich auf eine Referenzspur,
in der die Worteinheiten von Null beginnend durchnumeriert sind
(Die Wahl der Wort-Tokens als Einheit ist willkürlich!).
Der Label-String wiederum enthält eine für diesen Tier spezifizierte Syntax und Semantik.
TRL: 6,7 mit'm
NOI: 4;5 #Klopfen
Die Zahlen sind vom Typ Integer; sie bezeichnen Beginn und Dauer des zeitlichen
Segments in samples.
GES: 10334949 23646 I-Geste I - tipp + ...
Zum Beispiel:PRB: 13456 TON: P*; FUN: PA
Zum Beispiel:
ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wörtern bezeichnet
(durch Semicolon getrennt)
SAP: 13456 345 9 aU
Zum Beispiel:
ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wörtern bezeichnet
(durch Semicolon getrennt)
PRB: 13456 13 TON: P*; FUN: PA
Bemerkungen:
-1
eingetragen
Spurdefinitionen
KAN:
Klasse 1KAN: (symbolic link) (transcript)
'Kanonisch'
ist hier in Anführungszeichen gesetzt, weil z.B. bei Spontansprache
oft nicht mehr von einer kanonischen Form, also einer Zitierform
gesprochen werden kann; z.B. wenn es sich um verstümmelte Wörter
oder Häsitationen handelt.
Die Segmentierung der Gesamtäußerung erfolgt in Worteinheiten,
wobei alles als Wort gilt, was mehr oder weniger klar zur 'Rede' des
Sprechers gerechnet werden kann. Z.B. gelten in diesem Sinne
Häsitationen als Wörter, Lachen und Husten dagegen nicht.
Diese Trennung ist nicht immer eindeutig durchzuführen, spielt
aber auch keine Rolle, da diese Spur mehr oder weniger willkürlich
als Referenzspur verwendet werden soll (der Begriff 'kanonische Form'
ist bekanntlich umstritten, aber nützlich!).
Ähnliche Probleme ergeben sich bei stark reduzierten Formen,
die orthographisch z.B. als mit'm wiedergegeben werden. In diesen
Fällen werden die zugrundeliegenden Wörter restituiert
wiedergegeben, hier als /mIt de:m/. Grund
hierfür ist, daß genau solche Phänomene
anhand der standardisierten Referenzspuren automatisch ermittelbar sein
sollen.
KAN: 0 j 'a:
KAN: 1 Q a l z o:+
KAN: 2 Q E: m
KAN: 3 h 'OY t @
KAN: 4 Q o: d 6+
KAN: 5 m 'O6 g @ n
KSS:
Klasse 1
KSS: (symbolic link) (transcript)
KSS: 0 d ' e:6
KSS: 1 b ' U n . d @ s . t a: k
KSS: 2 h ' a t
KSS: 3 z ' aI . n @
KSS: 4 d e . b ' a . t @
KSS: 5 ? ' y: . b 6
KSS: 6 d ' i:
KSS: 7 r e . g ' i: . r U N s . ? E6 . k l E: . r U N
KSS: 8 f ' O6 t . g @ . z E t s t
MRP:
Klasse 1
MRP: (symbolic link) (transcript)
MRP: 0 d er;ART INFL
MRP: 1 bund es tag;NN FG NN
MRP: 2 hat;V
MRP: 3 sein e;PPOS INFL
MRP: 4 debatte;NN
MRP: 5 über;ADP
MRP: 6 d ie;ART INFL
MRP: 7 reg ier ung s er klär ung;V SFX SFX FG PRFX V SFX
MRP: 8 fort ge setz t;PTKVZ PRFX V SFX
KAS:
Klasse 1
KAS: (symbolic link) (transcript)
KAS: 0 v i:6
KAS: 1 m Y s . @ n
KAS: 2 d a n
KAS: 3 d i: . z @
KAS: 4 f i l . j a: . l @
KAS: 5 Q I n
KAS: 6 h a n . o: . f 6
KAS: 7 b @ . z u: . x @ n
PTR:
Klasse 1PTR: (symbolic link) (transcript)
PTR: 0 j a:
PTR: 1 a l z O
PTR: 2 @ m
PTR: 3 h OY t @
PTR: 4 o: d 6
PTR: 5 m O6 N
ORT:
Klasse 1ORT: (symbolic link) (orthography)
Es gilt die lexikalische Schreibweise, d.h. zu Beginn eines Satzes wird
klein geschrieben (nur Nomen werden groß geschrieben). Umlaute und andere
von 7 Bit ASCII abweichende Buchstaben werden so notiert, wie sie für den
lexikalen Zugriff benötigt werden. Daher können z.B. Umlaute von Fall zu Fall
(d.h. in verschiedenen Korpora) unterschiedlich kodiert sein, z.B. in
ISO-8859 oder in LaTeX.
Diese Spur dient zur einfachen Referenz auf einen Lexikoneintrag. Daher soll sie
außer lexikalischen Einheiten keine weiteren Informationen oder
Marker enthalten. Sie enthält daher auch keine Interpunktionen. Zu den
'lexikalischen' Einheiten gehören allerdings alle Einheiten, die auch
in der KAN Spur definiert sind (d.h. z.B. Hesitationen, Abbrüche).
ORT: 0 ja
ORT: 1 also
ORT: 2 <"ahm>
ORT: 3 heute
ORT: 4 oder
ORT: 5 morgen
TRL:
Klasse 1TRL: (list of symbolic links) (transliteration)
Klasse 1
Dabei kann es (z.B. bei reduziert dargestellten Formen) vorkommen,
daß eine Einheit sich auf zwei Worteinheiten bezieht.
Die Segmentierung erfolgt derart, daß immer der ganze Bereich bis zum Beginn der
nächsten Worteinheit als Labelstring eingetragen wird. Durch
diese Festlegung entsteht möglicherweise am Anfang der
Transliterationsspur ein Eintrag, der keine Worteinheit enthält.
Dieser wird durch den symbolischen Link 0 zur ersten Worteinheit zugerechnet.
TRL: 0 <Schmatzen>
TRL: 0 ja ,
TRL: 1 also
TRL: 2 <"ahm>
TRL: 3 heute
TRL: 4 oder
TRL: 5 morgen .
TR2:
Klasse 1TR2: (list of symbolic links) (transliteration)
Klasse 1
TR2: 25 ~Weihnachten
TR2: 26 ist
TR2: 27 das
TR2: 28 sowieso
TR2: 29 immer
TR2: 30 etwas
TR2: 31 schwierig ,
TR2: 32 und
TR2: 33 <"ahm>
TR2: 34 in
TR2: 35 der
TR2: 36 #zweiten
TRO:
Klasse 1TRO: (list of symbolic links) (transliteration)
Klasse 1
TRO: 67 Roten\s
TRO: 68 Himmel.\s\n
TRO: 69 Mein\s
TRO: 70 Blick\s
TRO: 71 folgte\s
TRO: 72 dem\s
TRO: 73 2.\s
TRO: 74 Raumschiff,\s
TRO: 75 wie\s
SUP:
Klasse 1SUP: (list of symbolic links) (utterrance-id) (transliteration)
Klasse 1SUP
eingefügt, welche genau die
Teile des 'fremden' Sprecher transliteriert, die den gerade sprechenden
Partner 'aktiv überlagert'. Die symbolischen Links geben die Referenz zu
den überlagerten Teilen der Äußerung wieder. Die
'utterance-id' ist i.a. der Filename der Äußerung, aus dem
die Überlagerung stammt. Die Spur
SUP
wird im Moment nur in Verbindung mit der Spur TR2
verwendet. Zur näheren Definition von überlagerter Sprache in
Verbmobil II siehe hier.
TR2: 0 ich
TR2: 1 w"urde
TR2: 2 vorschlagen ,
TR2: 3 da"s
TR2: 4 wir9@
TR2: 5 dann9@
TR2: 6 <:<#> hinfliegen:> ,
TR2: 7 <:<#> ich:>
TR2: 8 hab'
TR2: 9 jetzt
TR2: 10 aber
TR2: 11 <:<#Rascheln> grade:>
TR2: 12 <:<#Rascheln> keine:>
TR2: 13 Unterlagen
TR2: 14 da . <#>
SUP: 4,5 g002acn2_028_AAK.par @9ja
PHO:
Klasse 4PHO: (begin) (duration) (list of symbolic links) (label string)
Zu den Konventionen der Segmentierung und zur Syntax und Semantik des
Labelstrings siehe hier.
<label string> = '#c:' (beginning of first word) OR
'#p:' (pause) OR
'#v:' (mis-pronunciation) OR
<segment> OR
<word boundary segment> OR
<compound boundary segment> OR
<punctuation>
<segment> = $<sampa string> (ordinary segment)
<word boundary segment> = ##<sampa string>
<compound boundary segment> = $#<sampa string>
<sampa string> = any string of <extended German SAM-PA symbols>
<punctuation> = '#.' OR '#,' OR '#?' OR '#!'
PHO: 2473 0 0 #c:
PHO: 2473 1100 0 ##d
PHO: 3573 0 0 $a-@
PHO: 4126 2007 0 $s
PHO: 6133 0 0 $-+
PHO: 6133 1130 1 ##g
PHO: 7263 1206 1 $e:
PHO: 8496 937 1 $t
PHO: 9433 0 2 ##Q-
PHO: 9433 0 2 $-q
PHO: 9433 2698 2 $aU
PHO: 12131 1178 2 $x
PHO: 13309 0 2 $-+
PHO: 13309 962 3 ##n
PHO: 14271 1675 3 $I
PHO: 15946 4308 3 $C
PHO: 18579 0 3 $t-
PHO: 18579 0 3 $-+
PHO: 18579 5467 3 #p:
SAP:
Klasse 4SAP: (begin) (duration) (list of symbolic links) (label string)
PHO:
muß
diese nicht bündig sein.
Die erste Nummer bezeichnet den Beginn des Segments
in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in
Samples.
Zu den Konventionen der Segmentierung und zur Syntax und Semantik
des Labelstrings für Deutsch siehe hier.
SAP: 549 867 0 Q%<
SAP: 1416 1242 0 aU
SAP: 2658 1136 0 f
SAP: 3794 408 1 v
SAP: 4202 852 1 i:
SAP: 5054 433 1 d
SAP: 5487 1686 1 6%>
SAP: 7173 828 1 h%<%>
SAP: 8001 864 1 2:-9%<%>
SAP: 8865 1015 1 r-6%<
SAP: 9880 0 1 @-
SAP: 9880 1732 1 n
MAU:
Klasse 4MAU: (begin) (duration) (list of symbolic links) (label string)
Eine ausführliche Beschreibung des MAUS Systems finden Sie
hier.
Die Segmentierung erfolgt bündig und ohne
Bezug zur Vorschlagstranskription (außer den symbolischen
Relationen).
Das Inventar ist
erweitertes Deutsches SAM-PA. Zusätzlich
werden 'nicht-sprachliche' Geräusche mit dem Label <nib>
und Pausen mit <p:>
segmentiert (nur in Spontansprache!).
Diese beiden Labels erhalten immer den symbolischen Link -1
(= keine Zuordnung).
Darüber hinaus werden sprachliche, aber nicht klassifizierbare
Ereignisse (z.B. unverständliche Wörter) mit dem Label
<usb>
bezeichnet. Letztere erhalten auch einen symbolischen
Link.
MAU: 0 676 -1 <p:>
MAU: 677 7861 -1 <nib>
MAU: 8539 450 0 g
MAU: 8990 2436 0 u:
MAU: 11427 1740 0 t
MAU: 13168 958 1 d
MAU: 14127 1298 1 a
MAU: 15426 3820 1 n
MAU: 19247 303 2 n
MAU: 19551 1785 2 e:
MAU: 21337 624 2 m
MAU: 21962 636 2 n
MAU: 22599 501 3 v
WOR:
Klasse 4WOR: (begin) (duration) (list of symbolic links) (label string)
Die symbolischen Links legen die eindeutige Zuordnung zu den
Einheiten der Referenzspur KAN fest. Ein eingefügtes Wort erhält einen
Link auf das vorherige Wort in der Spur KAN.
DAS:
Klasse 1DAS: (list of symbolic links) (marker string)
Der Marker bezieht sich jeweils auf den Bereich des Sprachsignals,
der durch die Liste von symbolischen links abgedeckt wird.
DAS: 0,1,2,3,4,5 @(SUGGEST_SUPPORT_DATE BA)
DAS: 6,7,8,9 @(DELIBERATE_EXPLICITE BA)
DAS: 10,11,12,13,14,15,16,17,18,19,20 @(SUGGEST_SUPPORT_DATE BA)
In diesem Beispiel bezieht sich der Dialogakt-Marker
SUGGEST_SUPPORT_DATE
auf die Worte 0 bis 5 in der Referenz-Spur
KAN
. Der Zusatz BA
zeigt an, daß dieser
Dialogakt von Sprecher 'B' an Sprecher 'A' gerichtet ist. Sprecher
'A' ist immer der Sprecher, der den Dialog beginnt.
Eine ausführlichere Beschreibung der verwendeten Marker,
deren Bedeutung und die Prinzipien der Segmentierung finden Sie
hier .
PRB:
Klasse 5PRB: (sample) (list of symbolic links) (marker string)
Die erste Nummer bezeichnet den Zeitpunkt des prosodischen Ereignisses
in Samples von Beginn des Files.
Die symbolischen Links legen die eindeutige Zuordnung zu den
Einheiten der Referenzspur KAN fest.
Der Label-String beschreibt das prosodische Ereignis. Die genaue
Definition befindet sich hier.
PRB: 54212 5 TON: H*; FUN: NA
PRB: 63269 7 TON: L+H*; FUN: EK
PRB: 76371 8 BRE: B3; TON: L-L%
PRB: 79967 8 TON: L*+H; FUN: PA
PRS:
Klasse 1PRS: (list of symbolic links) (marker string)
Die symbolischen Links legen die eindeutige Zuordnung zu den
Einheiten der Referenzspur KAN fest. Das bedeutet, daß diese
Labelung nur wortweise genau erfolgt ist.
Der Markerstring beschreibt das prosodische Ereignis. Grenzmarker
(B3, B2, B9) haben jeweils zwei symbolische Links welche die Wörter
links und rechts des Grenzmarkers bezeichnen. Akzentmarker (PA, NA, EK)
beziehen
sich auf das Wort, in dem der betreffende Akzent gelabelt wurde. Angaben
über die Silbenposition des Akzents innerhalb des Wortes sind nicht
gegeben.
B3 : Das Label B3 steht zwischen kompletten, intonatorisch als solchen
markierten Phrasen. Diese Markierung muß nach der Definition bitonal sein,
da sie aus Phrasenakzent und Grenzton bestehen muß. Auch eine Dehnung
(Prefinal Lenghthening) oder Pause koennen diese Grenze markieren.
Selbstverstaendlich koennen auch alle drei Merkmale in beliebigen
Kombinationen auftreten. Stattdessen kann aber auch ein Wechsel in der
Sprechgeschwindigkeit das Kriterium sein.
B2 : B2-Grenzen koennen innerhalb einer mit B3 als Phrase gekennzeichneten
Einheit eine feinere Unterstrukturierung markieren. Hier findet sich eine
schwaechere Intonation als in der uebergeordneten Einheit.
B9 : Irregulaere Grenzen B9, heißen jene, die durch unbeabsichtigte
Haesitationen, Pausen und dergleichen entstehen und die keine eigentlich
strukturierende Funktion erfuellen. Diese 'ungrammatischen' Phaenomene
deuten haeufig auch auf Reparaturen.
PA : Den Hauptakzent PA traegt in einer mit B3 gelabelten Phrase normalerweise
ein Wort. ('Phrasenakzent'). Diese Akzentuierung gibt dem Wort im
Sprechakt das groeßte Gewicht in der Phrase. Gibt es keine
Entscheidungsmoeglichkeit, kann auch mehr als ein Wort mit PA
gekennzeichnet werden.
NA : Nebenakzente NA bezeichnen akzentuierte Woerter ohne PA. Deren
Akzentuierung traegt zur inneren Strukturierung einer Phrase bei.
EK : Emphatische oder Kontrastive Akzente EK werden fuer Woerter vergeben,
deren Akzentuierung besonders stark ist, weil sie im Kontrast zu anderen
stehen oder eine emphatische Funktion erfuellen.
PRS: 0 EK
PRS: 4;5 B2
PRS: 7 NA
PRS: 9 NA
PRS: 11 NA
PRS: 11;12 B3
PRS: 13 EK
PRS: 14 EK
PRS: 15 PA
PRS: 17 NA
PRS: 17;18 B2
PRS: 18 NA
PRS: 19;20 B3
PRS: 23 EK
PRS: 23;24 B3
PRS: 25 EK
PRS: 27 PA
NOI:
Klasse 1NOI: (single or pair of symbolic links) (marker string)
Der 'marker string' enthält eine Liste von mit Blank getrennten
Geräusch-Labeln. Die Label entsprechen der VMII TRL-Konvention:
<A> <B> : Atmen
<P> : deutliche Pause innerhalb einer Aeusserung
<%> : Unverstaendliches
Schmatzen> <Smack>
<Schlucken> <Swallow>
<R"auspern> <Throat>
<Husten> <Cough>
<Lachen> <Laugh>
<Ger"ausch> <Noise> : Restklasse artikulatorisches Geraeusch
<#Klopfen> <#Knock>
<#Rascheln> <#Rustle>
<#Quietschen> <#Squeak>
<#Klicken> <#Click>
<#Mikrowind> : Blasgeraeuch
<#Mikrobe> : Koerperschall direkt vom Mikrophon
(z.B. durch Beruehren)
<#> : Restklasse technisches Geraeusch
NOI: 5 <Lachen> # Wort 5 ist durch Lachen ueberlagert
NOI: 5;6 <B> # Zwischen Wort 5 und Wort 6 ist ein
# deutliche hoerbares Atmen aufgezeichnet
LBP:
Klasse 3LBP: (sample) (marker string)
Es werden folgende Akzentklassen gelabelt:
PA Phrasenakzent
NA Nebenakzent
EK Emphase bzw. kontrastierender Akzent
Zum Beispiel:
LBP: 1651 PA
LBG:
Klasse 3LBG: (sample) (marker string)
Es werden folgende Grenzen gelabelt:
B9 irreguläre Grenze
B2 schwache/ intermediäre Phrasengrenze
B3 starke reguläre Phrasengrenze, keine Frage
B3QH B3, inhaltlich eine Frage, mit hohem Grenzton
B3QL B3, inhaltlich eine Frage, mit tiefem Grenzton
Zum Beispiel:
LBG: 6586 B3
PRO:
Klasse 1PRO: (symbolic link) (marker string)
PRO: 6;7 SS2
PRO: 13;14 AC1
PRO: 14;15 AC1
PRO: 15;16 AC1
PRO: 18;19 SC3
PRO: 24;25 IRB
PRO: 25;26 AC1
PRO: 26;27 AC1
PRO: 27;28 AC1
PRO: 28;29 IWE
PRO: 28;29 IZB
PRO: 31 SM3
SYN: FUN: LEX:
Klasse 1SYN: (symbolic link) (marker string)
FUN: (symbolic link) (marker string)
LEX: (symbolic link) (marker string)
Darstellung der Syntaxbäume im BAS Partiturformat (BPF)
=======================================================
Die Syntaxbäume werden in drei Spuren abgebildet. Die terminalen
(lexikalischen) Kategorien werden in der LEX-Spur dargestellt. Die
höheren syntaktischen Kategorien, die den Knoten des Syntaxbaumes
entsprechen, werden in der SYN-Spur aufgelistet. Die zur LEX- und
SYN-Spur gehörigen grammatischen Funktionen, stehen in der
FUN-Spur. Sie werden im Syntaxbaum an den Kanten annotiert.
Lexikalische Kategorien:
------------------------
Definition:
LEX: (symbolic link) (label string)
Diese Spur enthält die lexikalische Kategorisierung der Wörter, auf
die mit den Symbolic Links verwiesen wird. Häsitationen und
unverständliche Äußerungen bleiben hierbei unberücksichtigt.
Beispiel:
LEX: 0 0 PDS
LEX: 1 0 VMFIN
LEX: 2 0 CARD
LEX: 3 0 NN
LEX: 4 0 ADJD
LEX: 5 0 VVINF
Der Label-String setzt sich zusammen aus
(1) einem Tag für die jeweilige lexikalische Kategorie, so zum
Beispiel CARD (Kardinalzahl) für Wort 2
(2) einem Index, der eindeutige Zuordnungen zwischen der LEX-, der
SYN- und der FUN-Spur möglich macht. Für terminale Knoten im Syntaxbaum,
also die Ebene, die in der LEX-Spur behandelt wird, ist der Index
stets gleich 0 (siehe SYN- und FUN-Spur für weitere Informationen zum Index).
Im Deutschen verwendete Labels:
UNKNOWN Unbekanntes Tag aus Einlesen aus Korpusdatei
--
SYN: 0 1 DM
SYN: 1 1 NX
SYN: 1 2 VF
SYN: 1,2,3,4,5 0 SIMPX
SYN: 2 1 VXFIN
SYN: 2 2 LK
SYN: 3 1 ADVX
SYN: 3,4,5 0 MF
SYN: 4 1 NX
SYN: 5 1 ADVX
SYN: 7 1 VXFIN
SYN: 7 2 LK
SYN: 7,8,9,10,11 0 SIMPX
SYN: 8 1 NX
SYN: 8,9,10,11 0 MF
SYN: 9,10,11 0 NX
SYN: 10 1 NX
SYN: 10,11 0 NX
SYN: 11 1 NX
FUN: 0 0 -
FUN: 0 1 --
FUN: 1 0 HD
FUN: 1 1 ON
FUN: 1 2 -
FUN: 1,2,3,4,5 0 --
FUN: 2 0 HD
FUN: 2 1 HD
FUN: 2 2 -
FUN: 3 0 HD
FUN: 3 1 MOD
FUN: 3,4,5 0 -
FUN: 4 0 HD
FUN: 4 1 OA
FUN: 5 0 HD
FUN: 5 1 V-MOD
FUN: 7 0 HD
FUN: 7 1 HD
FUN: 7 2 -
FUN: 7,8,9,10,11 0 --
FUN: 8 0 HD
FUN: 8 1 ON
FUN: 8,9,10,11 0 -
LEX: 0 0 PTKANT
LEX: 1 0 PPER
LEX: 2 0 VAFIN
LEX: 3 0 ADV
LEX: 4 0 NN
LEX: 5 0 ADV
LEX: 7 0 VVFIN
LEX: 8 0 PPER
LEX: 9 0 ART
LEX: 10 0 NN
LEX: 11 0 NE
POS:
Klasse 1POS: (symbolic link) (marker string)
POS: 0 ITJ
POS: 1 PPER
POS: 2 VAFIN
POS: 3 ADV
POS: 4 NN
POS: 5 ADV
POS: 7 VVFIN
POS: 8 PPER
POS: 9 ART
POS: 10 NN
POS: 11 NE
LMA:
Class 1LMA: (sybolic link) (marker string)
LMA: 0 nein
LMA: 1 pper
LMA: 2 haben
LMA: 3 hier
LMA: 4 Unterlage
LMA: 5 da
LMA: 7 kennen
LMA: 8 pper
LMA: 9 d
LMA: 10 Hotel
LMA: 11 Maritim
Beachten Sie, dass Personalpronomina einheitlich mit 'pper' und Artikel
mit 'd' annotiert wurden.
IPA:
Klasse 2IPA: (begin) (duration) (label string)
IPA-Chart
mit IPA-Nummern
IPA-Chart
mit Symbolen
IPA: 4856 1228 322 @
IPA: 10629 564 317
IPA: 11805 991 319 I
IPA: 12797 1142 138 C
IPA: 13940 1534 302 e
IPA: 15475 895 110 g
IPA: 16371 777 322 @
IPA: 17149 758 155 l
IPA: 17908 1497 305
IPA: 19406 1204 116 n
IPA: 20611 589 104 d
IPA: 21201 1018 322 @
IPA: 22220 1185 103 t
TRN:
Klasse 4TRN: (begin) (duration) (symbolic link) (label string)
TRN: 132736 144640 0,1,2,3,4,5,6,7 002
TRS:
Klasse 1TRS: (list of symbolic links) (transliteration)
Klasse 1
Detailierte Informationen zum SmartKom Transliterationsformat befinden sich hier.
Die Segmentierung erfolgt derart, daß grundsaetzlich nach einer
Worteinheit im Sinne der Referenz-Spur KAN (s.o.) ein neuer Zeileneintrag
begonnen wird. Die einzigen Ausnahmen sind erstens Interpunktionen und
zweitens Aussprachekommentare, die immer noch in der Zeile der vorangegangenen
Worteinheit stehen. (Dies nur, um die Lesbarkeit zu verbessern).
TRS: 0 <:<#> ja:> [NA] [B2] ,
TRS: 1 ich
TRS: 2 h"atte
TRS: 3 <:<#> gern:> [NA]
TRS: 4 +/die/+ [B9] <P>
TRS: 5 die
TRS: 6 Sehensw"urdigkeiten [PA]
TRS: 7 von
TRS: 8 ~Heidelberg <!1 Heidelber'> [NA] [B3 fall] .
TRS: 9 gibt [NA]
TRS: 10 es
TRS: 11 hier
TRS: 12 vielleicht
TRS: 13 Cafeterias [PA] [B3 rise] ? <#>
TRS: 14 was
TRS: 15 f"ur
TRS: 16 Hotels [NA]
TRS: 17 gibt [PA]
TRS: 18 es [B3 cont] ?
TRS: 19 @1mhm [NA] [B3 cont] .
TRS: 20 kannst <!1 kanns'>
TRS: 21 was
TRS: 22 andres [PA]
Die gleiche Spur wurde auch im deutschen
SmartWeb Projekt verwendet.
Siehe TRW Spur.
GES
class 2GES: (begin) (duration) (label string)
Die erste Nummer markiert den Beginn der Geste in Samples vom Beginn der
Aufnahme (SmartKom 16 kHz Abtastrate); die zweite Nummer enthält die Dauer
der Geste in Samples.
Der 'label string' besteht aus 8 durch TAB getrennte Spalten und einer optionalen
9. Spalte mit freien Kommentaren:
Dieser Eintrag st entweder '[FINGER] re|li [TOOL]' oder 'nicht erkennbar'
Z.B. bezeichnet 'Zeige re Hand' den Zeigefinger der rechten Hand; 'li Hand'
eine Geste die mit mehreren Fingern der linken Hand ausgeführt wurde;
'li Stift' eine Geste mit einem Stift, der in der linken Hand gehalten wird.
Wird mehr als ein Finger oder ein Stift verwendet, bleibt dieser String leer.
Der Eintrag kann drei Formen annehmen:
Nur bei I-Gesten wird ein Referenzwort gelabelt; sonst ist dieser Eintrag leer.
Nur bei I- und U-Gesten wird ein Referenzort gelabelt; sonst ist dieser Eintrag leer.
Nur bei I-Gesten wird ein Referenzobjekt gelabelt; sonst ist dieser Eintrag leer.
Entweder freier Textkommentar oder eine von den standardisierten folgenden Klassen zur näheren
Bezeichnung der gelabelten Geste:
GES: 1072000 23039 I-Geste I - tipp + Zeige li Hand links oben Treffer 1078400 12159
GES: 1959680 114559 R-Geste R - emot - re Hand 1078400 12159 "Uberlegung/Nachdenken
GES: 2166400 15999 I-Geste I - tipp + Zeige li Hand links oben rechts 2171520 7679
GES: 2641280 12799 I-Geste I - tipp + Zeige re Hand § Schlo"s rechts unten Treffer 2647680 5119
GES: 3093120 14079 I-Geste I - tipp + Zeige re Hand links unten Treffer 3098240 7039
GES: 3351680 7039 R-Geste R - UFO re Hand 3098240 7039
GES: 4029440 22399 I-Geste I - tipp + Zeige li Hand links oben rechts 4035840 10239
USH
class 2USH: (begin) (duration) (label string)
Die Kategorien werden nach dem Eindruck des Labelers vergeben. Nicht nur
das Video des Gesichts sondern auch die Stimmqualität oder andere
Kontextinformation darf dabei berücksichtigt werden. Nicht berücksichtigt
werden dagegen Wörter mit emotionalem Inhalt ohne emotionalen Ausdruck in
Gesicht oder Stimme.
USH: 0 205439 Freude/Erfolg schwach
USH: 205440 30719 Neutral
USH: 236160 37759 Freude/Erfolg schwach
USH: 273920 191999 Neutral
USH: 465920 78719 "Uberlegen/Nachdenken stark
USH: 544640 295679 Neutral
USH: 840320 49919 "Arger/Mi"serfolg schwach
USH: 890240 42879 Neutral
USH: 933120 21759 "Uberraschung/Verwunderung schwach
USH: 954880 97919 Ratlosigkeit schwach
USH: 1052800 542719 Neutral
Siehe auch die Spuren USM, USP und
OCC.
USM
class 2USM: (begin) (duration) (label string)
Für detailiertere Informationen zur SmartKom Darensammlung siehe
hier.
Die Kategorien werden nach dem Eindruck des Labelers vergeben. NUR
das Video des Gesichts, NICHT aber die Stimmqualität oder andere
Kontextinformation werden dabei berücksichtigt.
USM: 0 205439 Freude/Erfolg schwach
USM: 205440 30719 Neutral
USM: 236160 37759 Freude/Erfolg schwach
USM: 273920 191999 Neutral
USM: 465920 78719 "Uberlegen/Nachdenken schwach
USM: 544640 295679 Neutral
USM: 840320 49919 "Arger/Mi"serfolg schwach
USM: 890240 42879 Neutral
USM: 933120 119679 "Uberlegen/Nachdenken schwach
USM: 1052800 542719 Neutral
USM: 1595520 59519 "Uberlegen/Nachdenken schwach
USM: 1655040 157439 Neutral
USM: 1812480 143359 "Uberlegen/Nachdenken schwach
USM: 1955840 58879 "Arger/Mi"serfolg stark
USM: 2014720 89599 Neutral
USM: 2104320 559359 "Arger/Mi"Serfolg schwach
USM: 2663680 263679 Neutral
USM: 2927360 28799 "Arger/Mi"serfolg schwach
OCC
class 2OCC: (begin) (duration) (label string)
Der Wert des (label string) kann folgende Klassen annehmen:
OCC: 380800 18559 Teilweise nicht im Bild
OCC: 458880 58239 Teilweise nicht im Bild
OCC: 1167360 7679 Teilweise nicht im Bild
OCC: 1173120 14719 Hand im Gesicht
OCC: 1201920 11519 Teilweise nicht im Bild
OCC: 2000000 12159 Hand im Gesicht/Mund
OCC: 2567040 57599 Teilweise nicht im Bild
OCC: 2709120 40959 Hand im Gesicht/Mund
OCC: 2947840 33279 Hand im Gesicht
OCC: 2955520 9599 Teilweise nicht im Bild
OCC: 2981120 35839 Teilweise nicht im Bild
OCC: 3528960 10879 Hand im Gesicht
OCC: 4001920 10239 Hand im Gesicht
OCC: 4103680 20479 Teilweise nicht im Bild
USP
class 4USP: (begin) (duration) (list of symbolic links) (label string)
Der symbolische Wortlink (symbolic link) verweist auf die Wortnummer des
betroffenen Wortes.
Der Label-String besteht aus einem von 9 Label-Klassen.
(Falls nicht anders angegeben, bezieht sich das Segment auf das
gesamte Wort)
Sprecher versucht Hochdeutsch zu sprechen; keine dialektalen
Varianten; vergleichbar der Sprache eines trainierten Radiosprechers.
Unnatürlich deutliche Aussprache; wie beim Versuch mit einer Person zu
sprechen, die die Sprache nicht beherrscht.
Starke Betonung eines Wortes oder einer Silbe.
Unnatürlich starke Betonung eines Wortes oder einer Silbe.
Unnatürliche Pausen; keine Pausen zwischen Sätzen oder zwischen
Haupt- und Nebensatz (es sei denn sie sind unnatürlich lang).
In diesem Fall erstreckt sich das Segment über das vorangehende Wort und
die nachfolgende Pause.
Pause zwischen Wörtern, die normalerweise nicht auftreten würde.
In diesem Fall erstreckt sich das Segment über das vorangehende Wort und
die nachfolgende Pause.
In diesem Fall enthält das Segment das gesamte Wort mit der gelängten Silbe.
Kein Lachen alleine.
USP: 3678656 14144 48;49 PAUSE_WORD
USP: 79552 6704 0 EMPHASIS
USP: 426176 8768 6 STRONG_EMPH
USP: 426176 8768 6 CLEAR_ART
USP: 435952 10160 7 CLEAR_ART
USP: 806560 6592 9 LENGTH_SYLL
USP: 814624 4832 10 LENGTH_SYLL
USP: 819776 17184 11 EMPHASIS
USP: 1356896 6000 13 LENGTH_SYLL
USP: 1785232 11808 20 LENGTH_SYLL
USP: 1798064 7808 21 LENGTH_SYLL
USP: 2449632 7376 23 LENGTH_SYLL
USP: 2470016 10736 27 LENGTH_SYLL
USP: 2470016 14800 27;28 PAUSE_WORD
USP: 2794160 12080 31 LENGTH_SYLL
USP: 3221632 5440 41 CLEAR_ART
USP: 3678656 8528 48 LENGTH_SYLL
USP: 3678656 14144 48;49 PAUSE_WORD
USP: 3694576 3824 49 EMPHASIS
USP: 4170960 11344 53 LENGTH_SYLL
USP: 4186192 4464 54 EMPHASIS
TLN
class 1TLN: (list of symbolic links) (label string)
Der label string enthält als ersten Eintrag die Übersetzungsrichtung kodiert als
'##>%%' wobei '##' das internationale Sprachenkuerzel der Quellsprache und '%%' das
entsprechende Kürzel der Zielsprache bedeutet, z.B. von Deutsch nach English: 'DE>EN'.
Hinter diesem Eintrag folgt nach einem TAB die orthographische Form der Übersetzung
ohne Interpunktion bis zum Ende der Zeile. Spezielle Ziechen (z.B. Umlaute) können
wie in der ORT-Spur in verschiedener Form kodiert sein (siehe oben).
ORT: 0 okay
ORT: 1 thank
ORT: 2 you
ORT: 3 bye
TLN: 0,1,2,3 EN>DE gut danke tschüs
PRM
class 3PRM: (point-in-time) (label string)
PRM: 98160 L*H
PRM: 108665 -
PRM: 132414 H*L
PRM: 158400 %?
TRW
class 1TRW: (list of symbolic links) (label string)
Dazu kommen noch:
Zum Beispiel:<ROT>
gelesener Off-Talk; Sprecher liest vom Display ab
<POT>
paraphrasierter Off-Talk; Sprecher wiederholt
Informationen mit eigenen Worten (um sie an einen Partner weiterzugeben)
<SOT>
spontaner Off-Talk; Sprecher kommuniziert mit
dritter Seite (meist ein menschlicher Partner)
<OOT>
anderer Off-Talk; lautes Denken
weitere<POT> ber"uhmte<POT> Sehensw"urdigkeiten<POT> in%<POT> ~Berlin<POT>
sind<POT> der<POT> ~Alexanderplatz<POT> , der<POT> Funkturm<POT> ,
das<POT> ~Brandenburger+Tor<POT> und<Z><SOT> das<SOT> letzte<SOT>
hab'<SOT> ich<SOT> vergessen<SOT> .
Im Gegensatz zu den bisherigen rein orthographischen Aussprachekommentaren,
wie z.B. haben wir <!2 hama>
wird hier zusätzlich
die tatsächliche Aussprache in SAMPA kodiert: haben wir <!2 hama#ha:m6>
###.###
bezeichnet Millisekunden von Beginn der Aufzeichnung:
<ZA ###.###>
<ZE ###.###>
TRW: 0 <ZA 211.619> wurde<POT>
TRW: 1 #zw"olf<POT>
TRW: 2 irgendwann<POT>
TRW: 3 von<POT> <P>
TRW: 4 <%> . <PP>
TRW: 5 <"ah>
TRW: 6 's<POT>
TRW: 7 wurde<POT>
TRW: 8 #zw"olf<POT>
TRW: 9 #drei"sig<POT>
TRW: 10 von<POT>
TRW: 11 ~Otto<POT>
TRW: 12 dem<POT>
TRW: 13 <%>
TRW: 14 und<POT>
TRW: 15 ~Heinrich<Z><POT>
TRW: 16 irgendjemandem<POT>
TRW: 17 gegr"undet<POT> .
TRW: 18 ~Heinrich<POT>
TRW: 19 der<Z><POT> ,
TRW: 20 keine<SOT>
TRW: 21 Ahnung<SOT> ,
TRW: 22 und<POT>
TRW: 23 ~Otto<POT> ,
TRW: 24 was<SOT>
TRW: 25 wei"s<SOT>
TRW: 26 ich<SOT> <;ungrammatisch> . <PP>
TRW: 27 #zw"olf<POT> , <P>
TRW: 28 ne<OOT> . <ZE 233.342>
MAS
class 4MAS: (begin sample) (duration sample) (list of symbolic links) (label string)
MAS: 53600 1920 0 'smar
MAS: 55520 10560 0 ta
MAS: 66080 1680 0 kUs
MAS: 67760 11120 1 'vEl
MAS: 78880 960 1 C@
MAS: 79840 1600 2 'li:
MAS: 81440 6880 2 plINs
MAS: 88320 1600 2 'far
MAS: 89920 1920 2 b@
MAS: 91840 1760 3 'has
MAS: 93600 1120 4 'du:
MAS: 220256 480 5 m
MAS: 220736 11040 6 'mi:6
MAS: 231776 2560 7 'maI
MAS: 234336 2240 7 n@
MAS: 236576 4160 8 'fra:
MAS: 240736 2080 8 g@
MAS: 242816 1600 9 b@
MAS: 244416 5440 9 'ant
MAS: 249856 4160 9 'vO6
MAS: 254016 2400 9 t@n
SPK
class 1SPK: (list of symbolic links) (label string)
ORT: 0 okay
ORT: 1 bye
ORT: 2 good
ORT: 3 bye
SPK: 0 speaker001
SPK: 1 speaker001
SPK: 2,3 speaker002
SAM
Das SAM Format wurde im
ESPRIT "SAM" Project No 2589 : 'Speech Input and Output
Assessment Methodologies and Standardization'
zur Beschreibung von Sprachdaten definiert. Nur sehr wenige BAS Korpora
enthalten SAM kompatible Daten. Das BAS Partitur Format ist, obwohl oberflächlich
sehr ähnlich, nicht vollständig kompatibel zu SAM.
Auf jeder BAS CDROM befinden sich
Skripten (sam2pho, pho2sam
)
zur Umwandlung von Sam in PhonDat und umgekehrt.
AGS - Annotation Graphs
Bird et al (LDC) verwenden ein abstraktes Datenmodell in ATLAS zur Representation
von Annotationen genannt 'Annotation Graphs'. Auch das
BAS Partitur Format (BPF) lässt sich als Annotation Graph darstellen.
Nachdem LDC auch Software-Module
für den eigenen Entwurf von Annoations-Werkzeugen bereitstellt, gibt es auch
ein SGML-basiertes Format (AGS, entspricht ATLAS Level 0, v1.1b3) zum
Speichern und Austauschen solcher Annotation Graphs.
Auf jeder BAS CDROM befindet sich ein Skript
par2ags.pl
zur Umwandlung des BAS Partitur Formats (BPF) in AGS. Ebenfalls dort finden
Sie eine
DTD fuer dieses Format. Manche BAS Korpora
werden bereits mit BPF und AGS ausgeliefert.
Florian Schiel