BAS
Bayerisches Archiv für Sprachsignale
Aussprache-Lexikon PHONOLEX
Same page in english
Letzter Update dieser Seite: 19.09.2013
Allgemeines
PHONOLEX ist das Ergebnis einer Zusammenarbeit des 
DFKI 
Saarbrücken, Computational Linguistics Lab, der 
Universität Leipzig und des 
Bayerischen 
Archivs für Sprachsignale in München.
Es besteht aus einer einfachen Vollformenliste des Deutschen mit
folgenden Einträgen: 
- Orthographische Form 
 Merkmale:
- ASCII or UTF-8; Umlautung auch in LaTeX Format
- Nomen in Großschreibung
- Alte und neue Rechtschreibnorm (je nach Quelle: neuere Sprachkorpora haben moderne Schreibweise)
- Nur Einzelwörter - keine Phrasen
- Orthographische Konventionen je nach Quell-Korpus (kann für 
gleiche Einträge unterschiedlich sein!)
 
- Sonstige Informationen 
 Merkmale:
 Marker durch TAB getrennt; jeder Marker besteht aus Key (2 Zeichen), 
Doppelpunkt und Wert (string). Z.B. GE:m ( = Genus maskulinum). Marker können
in beliebiger Reihenfolge auftreten und sind alle optional.
 Linguistische Wortklasse: CL
- Nomen - nom
- Verben - ver
- Adjektive - adj
- Adverben - adv
- Preposition - prep
- Namen - prop
- Artikel - det
- Zahlwörter - num
- Partikel  - par
- Grundformen (Nomen)  - baseform
 Genus: GE
- maskulinum - m
- femininum - f
- neutrum - n
 Herkunft: OR
- Universität Saarbrücken - sb
- Universität Leipzig - lg
- German Verbmobil - vm
- Phondat 1 - pd1
- Phondat 2 - pd2
- SI100 - si100
- SI1000 - si1000
- RVG1 read speech - rvg1_read
- RVG1 monologue - rvg1_trl
- German SmartKom - sk_ger
- SpeechDat FIXED1DE - fixed1de
- SpeechDat VEHIC1DE - vehic1de
- SpeechDat MOBIL1DE - mobil1de
- SpeechDat VERIF1DE - verif1de
- SpeechDat ORIENTEL - orientel
- HEMPEL monologue over telephone - hempel
- RVG-J kids speech - rvg-j
- ZIPTEL numbers over telephone - ziptel
- German SmartWeb queries - sw_ger
- ALC - alcoholized speech -  alc
 Text-to-Phonem Methode: TP
- P-TRA (automatisch) - ptra
- Von Hand (manuell) - manu
- Von Hand und verifiziert nach BAS Guidelines - manu_veri
 
- Kanonische Aussprache
 Merkmale:
- Kanonische Aussprache
- Kodierung in erweitertem 
SAM-PA (PhonDat-Verbmobil)
 Die kanonische Aussprache wird durch verschiedene Methoden erzeugt 
(siehe Key 'TP'). 
Das Programm
P-TRA wurde freundlicherweise von der Universität Bonn, Dr. Stock
zur Verfügung gestellt.
 P-TRA wurde am BAS auf UNIX portiert und für die Zwecke des 
Projekts modifiziert.
- Liste von empirischen Aussprachen
 Merkmale:
- Liste kann leer sein, wenn noch keine empirischen Daten vorliegen
- Kodierung in erweitertem
SAM-PA (PhonDat-Verbmobil)
- Detektion durch manuelle (MAN) oder automatische Segmentierung 
(MAUS)
- Aufbau einer Zeile:
 pronunciation TAB counter TAB corpus TAB type
 mit
 pronunciation: Aussprache in SAM-PA
 counter: Anzahl des Vorkommens
 corpus: Korpus-Kürzel
 type: Art der Analyse (MAN: manuell, MAUS: automatisch)
 
 
Struktur
Das PHONOLEX ist derzeit als einfaches ASCII File und als XML-Version
verfügbar.
Die einzelnen Einträge der ASCII-Liste 
sind in ASCII-Sortierung aufgelistet.
file       ->  item 'NL'
               [ item 'NL' ]
               ...
item       ->  orthography 
               info
               canonic_pronunciation 
               empiricial_pronunciation_list 
               '*' 
orthography  ->  German Orthography with LateX Umlauts
info  ->  TAB-seperated list of keys:string
canonic_pronunciation  ->  word_form 
empirical_pronunciation_list  ->  
                   word_form TAB counter TAB corpus TAB type
                   ...
word_form  ->  string of extended SAM-PA
counter  ->  Integer
corpus  ->  String 
type  ->  String
Beispiel
"Athanylylidenes
CL:nom  OR:sb
QE:tanylyli:d@n@s
*
"Ather
CL:nom  GE:m    OR:lg
QE:t6
*
"Ather
CL:nom  OR:sb
QE:t6
*
"Ather
OR:vm   TP:manu
Q'E:t6
QE:t6   1       VM      MAUS
*
Zusätzlich zur Basisliste enthält das PHONOLEX Paket noch eine 
Version in XML und zwei
Auszüge:
- phonolex_xmlenthält praktisch die gleichen Strukturen wie- phonolex; siehe die 
DTD für die genaue Struktur.
- phonolex_listenthält als dreispaltige Tabelle alle
Einträge in der Form: Orthographie Aussprache Origin
- phonolex_corewie- phonolex_listaber 
beschränkt auf Einträge mit- TP:manU_veri.
Bekannte Fehler
Keine Aussprache-Liste ist fehlerlos, auch PHONOLEX bildet da keine 
Ausnahme. Wir hoffen aber, in der nächsten Zeit durch kontinuierliche
Verbesserung zumindest die regelmäßigen Fehler sowohl in  
der Orthographie als auch in der Aussprache ausmerzen zu können.
Außerdem erwarten wir ein kontinuierliches Anwachsen der Wortliste.
Bekannte Fehler (nur TP:ptra):
-  'fel' wird in bestimmten Kontexten auf /f@l/ abgebildet
-  An Komposita-Grenzen wird 'eng' auf /@N/ abgebildet
-  An Komposita-Grenzen wird 'ei' auf /aI/ abgebildet
-  Doppelkonsonanten an Kompositagrenzen sind oft durch einen 
Laut abgebildet, z.B. Siebbeine zi:baIn@
Historie
-  Dez 95 : Foundation of Working Group DFKI - BAS
-  Aug 96 : Version 1.0 : First Word List - 665.893 Formen
-  Aug 96 : Version 1.1 : Improved P-TRA, Exception lists, 666.237 entries
-  Dez 96 : Version 1.2 : Improved glottal stops, geminates removed,
            Update to users
-  Jan 97 : Version 1.3 : Improved rule set, benchmark from 62 to 67 %
-  Feb 97 : Version 1.4 : Bug removed: in some contexts a superfluous
  /S/ was appended to words.
-  Jun 98 : University of Leipzig joins Working group
- Sep 98 : Extended Wordlist to 1.600.000
- Nov 98 : Version 2.0 : Changed format of info line to 'Key:Text',
                       Inserted ORIGIN marker,
                       Improved Rule set for P-TRA (bench mark to 80%),
                       Using morpheme boundaries,
- Mar 99 : Version 2.1 : Bug caused some items of origin 'lg' not to be marked
                       with text-to-phoneme method 'ptra ('TP:ptra'),
                       all items from origin 'lg' had an empty class tag,
                       improved canonical pronunciation for items with
                       morph boundaries (bench mark to 90%)
- May 99 : Version 2.2 : Improved rule sets for the pronunciation
                       (bench mark: with morph boundaries : 93%, 
                                    w/out morph boundaries  : 83%)
- Jun 99 : Version 2.3 : Added new class of noun baseforms ('baseform') that                             are NOT compounds of German
- Jul 99 : Version 2.4 : Extended empiric pronunciation from VM corpus
- Aug 99 : Version 2.5 : 48 entries contain a 8-Bit char in pronunciation
                       denoting /O~/. Fixed.
- Jul 01 : Version 2.6 : Added empirical pronunciations from the
                       Verbmobil corpora.		       
                       New sources PhonDat1, Phondat2, SI100, SI1000, RVG1
                       added.
- Jan 03 : Version 2.7 : New source SmartKom German (sk_ger) added.
- Jan 03 : Version 2.8 : New sources RVG1_read and RVG1_trl added.
- Jan 03 : Version 2.9 : New source speechdat (FIXED1de, MOBIL1DE, VEHIC1DE,
                       VERIF1DE, ORIENTEL) added
- Feb 03 : Version 2.10 : New corrected version of Verbmobil (OR:vm)
                        source, SourceTable.pdf added with specific
                        description and features of sources
- Apr 03 : Version 3.0 : Added a rule set for proper transcription
                       in German SAM-PA.
                       The following resources were re-transcribed
                       to meet the requirements of the new standard:
                       Verbmobil I + II (or:VM)
                       SmartKom (or:SK)
- Jul 03 : Version 3.1 : Added filter that prevents /R/ (instead of /r/
                       in the rule based pronunciation output.
                       Re-build phonolex
- Aug 03 : Version 3.2 : Added 'TP=manu_veri' descriptor, that denotes
                       an manually verified canonical pronunciation
                       according to the 'Transcription Conventions
                       for Canonical German' as published on the BAS
                       Web site.
                       Re-calculated transcription of the German VM
                       corpus and updated the empirical word forms in
                       phonolex accordingly.
                       Re-build phonolex.
- Sep 03 : Version 3.3 : Extended the makefile for the generation of
                       phonolex_core, a list of all phonolex-entries
                       that that have been manually checked for accuracy
                       and tagged with "manu_veri"
- Jan 04 . Version 3.4 : Fixed a bug in the creation of phonolex_core
                       The bug caused the first column to have multiple
                       identical entries with different pronunciations
- Jan 04 : Version 3.5 : Fixed some bugs in sk_ger.lex, RVG1_trl
                       R-substitution did not work caused by a faulty
                       script for RVG1 lexica.
- Feb 04 : Version 3.6 : Updated documentation; mapped orthography of
                       SpeechDat lexica to LaTeX
                       Added hempel
- Feb 04 : Version 3.7 : Mapped glotal stops /?/ in sd1 lexica to /Q/
                       Added rvg-j; phonolex_core now at 22086 entries
- Mar 04 : Version 3.8 : Re-calculated OR:vm entries after bug fix in
                       volume 4.1 signals.
- Apr 04 : Version 3.9 : Bugfix in source RVG-J : This bug caused about 100
                       entries from RVG-J to be false aligned. Fixed.
- May 04 : Version 3.10: Approx. 120 typos fixed; mainly in source hempel
                       Changed /R/ to /r/ in all speechdat sources
- Jun 04 : Version 3.11: Re-calculated MAUS segmentations of VM corpora;
                       included new empirical wordforms (OR:vm)
- Oct 04 : Version 3.12: Fixed /R/ -> /r/ in HEMPEL source
                       Fixed errors in RVG1 source
- Dec 04 : Version 3.13: Added speechdat_m section
                       added third column to phonolex_core output derived from
                       key OR:...
                       added phonolex_list output with a simple three-column
                       list (as phonolex_core) with all phonolex entries,
                       where each orthographic entry comes only once (the
                       first one, if there are multiple of equal quality)
- Feb 05 : Version 3.14: Replaced original PD1 lexicon by BAS standard
                       list (PD1_bas.lex)
- Apr 05 : Version 3.15: Replaced FIXED1DE by a manually verified version
                       Replaced MOBIL1DE by a manually verified version
                       Replaced VEHIC1DE by a manually verified version
- May 05 : Version 3.16: Replaced VERIF1DE by a manually verified version
                       Replaced ORIENTEL by a manually verified version
		       Added ZIPTEL manually verified
- Jun 05 : Version 3.17: Replaced RVG1_TRL by a manually verified version
                       Replaced RVG1_READ by a manually verified version
- Sep 05 : Version 3.18: Replaced SI100 by a manually verified version
                       Replaced SI1000 by a manually verified version
                       Multiple pronunciation error fixes in the following
                       source lexica:
                       HEMPEL, ORIENTEL, PD1, RVG-J, SmartKom (sk_ger),
                       FIXED1DE, MOBIL1DE, VEHIC1DE, VERIF1DE,
                       Verbmobil (vm_ger), ZIPTEL
- Sep 05 : Version 3.19: Multiple pronunciation error fixes in the following
                       source lexica:  PD2, vm_ger (German Verbmobil)
                       New calculation of pronunciation variants of vm_ger
- Oct 05 : Version 3.20: Added XML version phonolex_xml
- Jun 08 : Version 3.21: Added SmartWeb (SW) manually verified
- Apr 11 : Version 3.22: Fixed 98 errors in lg portion of phonolex
- Jul 11 : Version 3.23: changed phonolex_list so that it contains ALL entries of phonolex not just unique (and arbitrarily chosen) orthographic entries.  Added alc section (alc) manually verified.
- Aug 11 : Version 3.24: Multiple pronunciation error fixes in FIXED1DE,
                       ZIPTEL, SMARTKOM, ALC.
- Sep 13 : Version 4.0:  re-coding of orthographic string. Until now the coding
                       of the orthographic string depended on the coding of the source.
                       This let to mixed-coding files. From version 4.x the coding
                       must be either LaTeX or UTF-8 resulting in true UTF-8
                       coded files:
                       ziptel,hempel,rvg-j are recoded on-the-fly from ISO8859 to UTF-8
                       (sources still ISO8859!)
                       Bug fix: corrupt entry at begin of phonolex_core/list: 'OR:si100...'
                       Content fix: several wrong pronunciations fixed in sources
Verfügbarkeit
Kopien der aktuellen Version von PHONOLEX können über
das BAS bezogen werden. Dazu ist der einmalige Erwerb einer 
Benutzer-Lizenz erforderlich. 
Die Benutzer-Lizenz ermächtigt zum Gebrauch des PHONOLEX für
kommerzielle und/oder rein wissenschaftliche Zwecke (verschiedene Lizenzen). 
Außerdem berechtigt der Besitz der Lizenz 
zum kostenlosen Bezug weiterer verbesserter Versionen von PHONOLEX, sobald
diese vom DFKI und BAS als verfügbar erklärt werden.
Sie berechtigt nicht
zur Weitergabe an Dritte, auch nicht in Auszügen oder in 
modifizierter/erweiterter
Form. Eine Vermarktung der Liste in direkter Form ist nicht gestattet. 
Außerdem verpflichtet sich der Benutzer des PHONOLEX alle
von ihm aufgefundenen, vermeintlichen Fehler im PHONOLEX an das
BAS zu melden. Auf diese Weise soll schrittweise eine weitgehend
fehlerfreie Aussprache-Liste entstehen.
Alle Copyrights verbleiben beim DFKI, UL und BAS.
Mit dem Erwerb der Lizenz akzeptiert der Benutzer alle obigen 
Bedingungen.
Kosten
PHONOLEX - Auslieferung per CDROM, Update-Service
 
Lizenz wissenschaftlich EUR 1030.25 
 
Lizenz wissenschaftlich ELRA Mitglieder EUR 631.45 
 
Lizenz kommerziell EUR 6081.82
 
Lizenz kommerziell ELRA Mitglieder EUR 3423.10 
Bestellungen oder Fragen senden Sie bitte an folgende Adresse:
 .
.
Voraussetzung für die Ausführung der Bestellung
ist die Übersendung der editierten und unterschriebenen 
Nutzungserklärung 
per Post oder Fax an das BAS.
Copyright © 1996-2011 Bayerisches Archiv für Sprachsignale,
Universität Müchen, Deutsches Forschungszentrum für 
künstliche 
Intelligenz, Saarbrücken, Universität Leipzig
This page and all other pages with the initial 'BAS' or 'Bas' in the
filename may be copied, printed and distributed to other parties,
under the condition that the pages are distributed as shown here. Parts
of pages or extended pages may not be distributed further without
permission of the BAS.
Florian Schiel