BAS
Bayerisches Archiv für Sprachsignale
Aussprache-Lexikon PHONOLEX

Same page in english

Letzter Update dieser Seite: 19.09.2013

Allgemeines

PHONOLEX ist das Ergebnis einer Zusammenarbeit des DFKI Saarbrücken, Computational Linguistics Lab, der Universität Leipzig und des Bayerischen Archivs für Sprachsignale in München.
Es besteht aus einer einfachen Vollformenliste des Deutschen mit folgenden Einträgen:

Orthographische Form
Merkmale:
- ASCII or UTF-8; Umlautung auch in LaTeX Format
- Nomen in Großschreibung
- Alte und neue Rechtschreibnorm (je nach Quelle: neuere Sprachkorpora haben moderne Schreibweise)
- Nur Einzelwörter - keine Phrasen
- Orthographische Konventionen je nach Quell-Korpus (kann für gleiche Einträge unterschiedlich sein!)
Sonstige Informationen
Merkmale:
Marker durch TAB getrennt; jeder Marker besteht aus Key (2 Zeichen), Doppelpunkt und Wert (string). Z.B. GE:m ( = Genus maskulinum). Marker können in beliebiger Reihenfolge auftreten und sind alle optional.
Linguistische Wortklasse: CL
- Nomen - nom
- Verben - ver
- Adjektive - adj
- Adverben - adv
- Preposition - prep
- Namen - prop
- Artikel - det
- Zahlwörter - num
- Partikel - par
- Grundformen (Nomen) - baseform
Genus: GE
- maskulinum - m
- femininum - f
- neutrum - n
Herkunft: OR
- Universität Saarbrücken - sb
- Universität Leipzig - lg
- German Verbmobil - vm
- Phondat 1 - pd1
- Phondat 2 - pd2
- SI100 - si100
- SI1000 - si1000
- RVG1 read speech - rvg1_read
- RVG1 monologue - rvg1_trl
- German SmartKom - sk_ger
- SpeechDat FIXED1DE - fixed1de
- SpeechDat VEHIC1DE - vehic1de
- SpeechDat MOBIL1DE - mobil1de
- SpeechDat VERIF1DE - verif1de
- SpeechDat ORIENTEL - orientel
- HEMPEL monologue over telephone - hempel
- RVG-J kids speech - rvg-j
- ZIPTEL numbers over telephone - ziptel
- German SmartWeb queries - sw_ger
- ALC - alcoholized speech - alc
Text-to-Phonem Methode: TP
- P-TRA (automatisch) - ptra
- Von Hand (manuell) - manu
- Von Hand und verifiziert nach BAS Guidelines - manu_veri
Kanonische Aussprache
Merkmale:
- Kanonische Aussprache
- Kodierung in erweitertem SAM-PA (PhonDat-Verbmobil)
Die kanonische Aussprache wird durch verschiedene Methoden erzeugt (siehe Key 'TP'). Das Programm P-TRA wurde freundlicherweise von der Universität Bonn, Dr. Stock zur Verfügung gestellt.
P-TRA wurde am BAS auf UNIX portiert und für die Zwecke des Projekts modifiziert.
Liste von empirischen Aussprachen
Merkmale:
- Liste kann leer sein, wenn noch keine empirischen Daten vorliegen
- Kodierung in erweitertem SAM-PA (PhonDat-Verbmobil)
- Detektion durch manuelle (MAN) oder automatische Segmentierung (MAUS)
- Aufbau einer Zeile:
  pronunciation TAB counter TAB corpus TAB type
  mit
  pronunciation : Aussprache in SAM-PA
  counter : Anzahl des Vorkommens
  corpus : Korpus-Kürzel
  type : Art der Analyse (MAN: manuell, MAUS: automatisch)

Struktur

Das PHONOLEX ist derzeit als einfaches ASCII File und als XML-Version verfügbar. Die einzelnen Einträge der ASCII-Liste sind in ASCII-Sortierung aufgelistet.


file       ->  item 'NL'
               [ item 'NL' ]
               ...

item       ->  orthography 
               info
               canonic_pronunciation 
               empiricial_pronunciation_list 
               '*' 

orthography  ->  German Orthography with LateX Umlauts

info  ->  TAB-seperated list of keys:string

canonic_pronunciation  ->  word_form 

empirical_pronunciation_list  ->  
                   word_form TAB counter TAB corpus TAB type
                   ...

word_form  ->  string of extended SAM-PA

counter  ->  Integer

corpus  ->  String 

type  ->  String

Beispiel

"Athanylylidenes
CL:nom  OR:sb
QE:tanylyli:d@n@s
*
"Ather
CL:nom  GE:m    OR:lg
QE:t6
*
"Ather
CL:nom  OR:sb
QE:t6
*
"Ather
OR:vm   TP:manu
Q'E:t6
QE:t6   1       VM      MAUS
*

Zusätzlich zur Basisliste enthält das PHONOLEX Paket noch eine Version in XML und zwei Auszüge:

phonolex_xml enthält praktisch die gleichen Strukturen wie phonolex; siehe die DTD für die genaue Struktur.
phonolex_list enthält als dreispaltige Tabelle alle Einträge in der Form: Orthographie Aussprache Origin
phonolex_core wie phonolex_list aber beschränkt auf Einträge mit TP:manU_veri.

Bekannte Fehler

Keine Aussprache-Liste ist fehlerlos, auch PHONOLEX bildet da keine Ausnahme. Wir hoffen aber, in der nächsten Zeit durch kontinuierliche Verbesserung zumindest die regelmäßigen Fehler sowohl in der Orthographie als auch in der Aussprache ausmerzen zu können. Außerdem erwarten wir ein kontinuierliches Anwachsen der Wortliste.

Bekannte Fehler (nur TP:ptra):

'fel' wird in bestimmten Kontexten auf /f@l/ abgebildet
An Komposita-Grenzen wird 'eng' auf /@N/ abgebildet
An Komposita-Grenzen wird 'ei' auf /aI/ abgebildet
Doppelkonsonanten an Kompositagrenzen sind oft durch einen Laut abgebildet, z.B. Siebbeine zi:baIn@

Auszug aus aktueller Korpus-Dokumentation

Tabellarische Merkmalsliste aller Quellen

Historie

Dez 95 : Foundation of Working Group DFKI - BAS
Aug 96 : Version 1.0 : First Word List - 665.893 Formen
Aug 96 : Version 1.1 : Improved P-TRA, Exception lists, 666.237 entries
Dez 96 : Version 1.2 : Improved glottal stops, geminates removed, Update to users
Jan 97 : Version 1.3 : Improved rule set, benchmark from 62 to 67 %
Feb 97 : Version 1.4 : Bug removed: in some contexts a superfluous /S/ was appended to words.
Jun 98 : University of Leipzig joins Working group
Sep 98 : Extended Wordlist to 1.600.000
Nov 98 : Version 2.0 : Changed format of info line to 'Key:Text', Inserted ORIGIN marker, Improved Rule set for P-TRA (bench mark to 80%), Using morpheme boundaries,
Mar 99 : Version 2.1 : Bug caused some items of origin 'lg' not to be marked with text-to-phoneme method 'ptra ('TP:ptra'), all items from origin 'lg' had an empty class tag, improved canonical pronunciation for items with morph boundaries (bench mark to 90%)
May 99 : Version 2.2 : Improved rule sets for the pronunciation (bench mark: with morph boundaries : 93%, w/out morph boundaries : 83%)
Jun 99 : Version 2.3 : Added new class of noun baseforms ('baseform') that are NOT compounds of German
Jul 99 : Version 2.4 : Extended empiric pronunciation from VM corpus
Aug 99 : Version 2.5 : 48 entries contain a 8-Bit char in pronunciation denoting /O~/. Fixed.
Jul 01 : Version 2.6 : Added empirical pronunciations from the Verbmobil corpora. New sources PhonDat1, Phondat2, SI100, SI1000, RVG1 added.
Jan 03 : Version 2.7 : New source SmartKom German (sk_ger) added.
Jan 03 : Version 2.8 : New sources RVG1_read and RVG1_trl added.
Jan 03 : Version 2.9 : New source speechdat (FIXED1de, MOBIL1DE, VEHIC1DE, VERIF1DE, ORIENTEL) added
Feb 03 : Version 2.10 : New corrected version of Verbmobil (OR:vm) source, SourceTable.pdf added with specific description and features of sources
Apr 03 : Version 3.0 : Added a rule set for proper transcription in German SAM-PA. The following resources were re-transcribed to meet the requirements of the new standard: Verbmobil I + II (or:VM) SmartKom (or:SK)
Jul 03 : Version 3.1 : Added filter that prevents /R/ (instead of /r/ in the rule based pronunciation output. Re-build phonolex
Aug 03 : Version 3.2 : Added 'TP=manu_veri' descriptor, that denotes an manually verified canonical pronunciation according to the 'Transcription Conventions for Canonical German' as published on the BAS Web site. Re-calculated transcription of the German VM corpus and updated the empirical word forms in phonolex accordingly. Re-build phonolex.
Sep 03 : Version 3.3 : Extended the makefile for the generation of phonolex_core, a list of all phonolex-entries that that have been manually checked for accuracy and tagged with "manu_veri"
Jan 04 . Version 3.4 : Fixed a bug in the creation of phonolex_core The bug caused the first column to have multiple identical entries with different pronunciations
Jan 04 : Version 3.5 : Fixed some bugs in sk_ger.lex, RVG1_trl R-substitution did not work caused by a faulty script for RVG1 lexica.
Feb 04 : Version 3.6 : Updated documentation; mapped orthography of SpeechDat lexica to LaTeX Added hempel
Feb 04 : Version 3.7 : Mapped glotal stops /?/ in sd1 lexica to /Q/ Added rvg-j; phonolex_core now at 22086 entries
Mar 04 : Version 3.8 : Re-calculated OR:vm entries after bug fix in volume 4.1 signals.
Apr 04 : Version 3.9 : Bugfix in source RVG-J : This bug caused about 100 entries from RVG-J to be false aligned. Fixed.
May 04 : Version 3.10: Approx. 120 typos fixed; mainly in source hempel Changed /R/ to /r/ in all speechdat sources
Jun 04 : Version 3.11: Re-calculated MAUS segmentations of VM corpora; included new empirical wordforms (OR:vm)
Oct 04 : Version 3.12: Fixed /R/ -> /r/ in HEMPEL source Fixed errors in RVG1 source
Dec 04 : Version 3.13: Added speechdat_m section added third column to phonolex_core output derived from key OR:... added phonolex_list output with a simple three-column list (as phonolex_core) with all phonolex entries, where each orthographic entry comes only once (the first one, if there are multiple of equal quality)
Feb 05 : Version 3.14: Replaced original PD1 lexicon by BAS standard list (PD1_bas.lex)
Apr 05 : Version 3.15: Replaced FIXED1DE by a manually verified version Replaced MOBIL1DE by a manually verified version Replaced VEHIC1DE by a manually verified version
May 05 : Version 3.16: Replaced VERIF1DE by a manually verified version Replaced ORIENTEL by a manually verified version Added ZIPTEL manually verified
Jun 05 : Version 3.17: Replaced RVG1_TRL by a manually verified version Replaced RVG1_READ by a manually verified version
Sep 05 : Version 3.18: Replaced SI100 by a manually verified version Replaced SI1000 by a manually verified version Multiple pronunciation error fixes in the following source lexica: HEMPEL, ORIENTEL, PD1, RVG-J, SmartKom (sk_ger), FIXED1DE, MOBIL1DE, VEHIC1DE, VERIF1DE, Verbmobil (vm_ger), ZIPTEL
Sep 05 : Version 3.19: Multiple pronunciation error fixes in the following source lexica: PD2, vm_ger (German Verbmobil) New calculation of pronunciation variants of vm_ger
Oct 05 : Version 3.20: Added XML version phonolex_xml
Jun 08 : Version 3.21: Added SmartWeb (SW) manually verified
Apr 11 : Version 3.22: Fixed 98 errors in lg portion of phonolex
Jul 11 : Version 3.23: changed phonolex_list so that it contains ALL entries of phonolex not just unique (and arbitrarily chosen) orthographic entries. Added alc section (alc) manually verified.
Aug 11 : Version 3.24: Multiple pronunciation error fixes in FIXED1DE, ZIPTEL, SMARTKOM, ALC.
Sep 13 : Version 4.0: re-coding of orthographic string. Until now the coding of the orthographic string depended on the coding of the source. This let to mixed-coding files. From version 4.x the coding must be either LaTeX or UTF-8 resulting in true UTF-8 coded files: ziptel,hempel,rvg-j are recoded on-the-fly from ISO8859 to UTF-8 (sources still ISO8859!) Bug fix: corrupt entry at begin of phonolex_core/list: 'OR:si100...' Content fix: several wrong pronunciations fixed in sources

Verfügbarkeit

Kopien der aktuellen Version von PHONOLEX können über das BAS bezogen werden. Dazu ist der einmalige Erwerb einer Benutzer-Lizenz erforderlich.
Die Benutzer-Lizenz ermächtigt zum Gebrauch des PHONOLEX für kommerzielle und/oder rein wissenschaftliche Zwecke (verschiedene Lizenzen). Außerdem berechtigt der Besitz der Lizenz zum kostenlosen Bezug weiterer verbesserter Versionen von PHONOLEX, sobald diese vom DFKI und BAS als verfügbar erklärt werden.
Sie berechtigt nicht zur Weitergabe an Dritte, auch nicht in Auszügen oder in modifizierter/erweiterter Form. Eine Vermarktung der Liste in direkter Form ist nicht gestattet.
Außerdem verpflichtet sich der Benutzer des PHONOLEX alle von ihm aufgefundenen, vermeintlichen Fehler im PHONOLEX an das BAS zu melden. Auf diese Weise soll schrittweise eine weitgehend fehlerfreie Aussprache-Liste entstehen.
Alle Copyrights verbleiben beim DFKI, UL und BAS.
Mit dem Erwerb der Lizenz akzeptiert der Benutzer alle obigen Bedingungen.

Kosten

PHONOLEX - Auslieferung per CDROM, Update-Service
Lizenz wissenschaftlich EUR 1030.25
Lizenz wissenschaftlich ELRA Mitglieder EUR 631.45
Lizenz kommerziell EUR 6081.82
Lizenz kommerziell ELRA Mitglieder EUR 3423.10

Bestellungen oder Fragen senden Sie bitte an folgende Adresse:

Voraussetzung für die Ausführung der Bestellung ist die Übersendung der editierten und unterschriebenen Nutzungserklärung per Post oder Fax an das BAS.

Copyright © 1996-2011 Bayerisches Archiv für Sprachsignale, Universität Müchen, Deutsches Forschungszentrum für künstliche Intelligenz, Saarbrücken, Universität Leipzig
This page and all other pages with the initial 'BAS' or 'Bas' in the filename may be copied, printed and distributed to other parties, under the condition that the pages are distributed as shown here. Parts of pages or extended pages may not be distributed further without permission of the BAS.

Florian Schiel

BASBayerisches Archiv für Sprachsignale Aussprache-Lexikon PHONOLEX