SGLKapitel2: Das Lesen von Sonagrammen

Das Lesen von Sonagrammen V1.0 - Kapitel II

Die Lautklassen im Sonagramm:
Bestimmung des Artikulationsmodus

Kirsten Machelett

Inhalt:

Vokale und Formanten
Plosive
- Unterscheidung stimmhafter, entstimmter von stimmlosen Plosiven
- Velare und laterale Verschlußlösung
Glottal-Stop und Glottalisierung
Nasale
- Nasalierung
Laterale
- Laterale in verschiedenen Kontexten
Trills
Frikative
- Affrikaten
Fragen

IPA - SAMPA Tabelle laden und ausdrucken !

Vokale und Formanten

Die Vokale des Deutschen sind stimmhafte Laute, deren Klangcharakteristika primär durch die Konfiguration des Vokaltraktes bestimmt sind. Der durch Glottisimpulse angeregte Luftstrom wird im Ansatzrohr moduliert. Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie die Lippenstellung verändern die Resonanzeigenschaften des Ansatzrohres und damit auch die Resonanzfrequenzen des entstehenden Vokals. So erhält jeder Vokal seine für ihn typische spektrale Zusammensetzung mit Energiekonzentrationen bei den jeweiligen Resonanzfrequenzen. Diese Energiekonzentrationen, die man im Sonagramm als waagerechte Frequenzbänder erkennen kann, heißen Formanten F1, F2 und F3 usw.

Während erster, zweiter und dritter Formant vokalspezifisch sind, d.h. relativ sprecherunabhängig immer annähernd gleiche Frequenzwerte annehmen, sind die Frequenzwerte ab dem vierten Formanten überwiegend für Klangfarbe und Charakterisitk der Sprecherstimme verantwortlich. Sie dienen in erster Linie der Identifikation eines Sprechers und nicht eines Vokals.

Daher werden wir uns bei der Vokalidentifikation im Sonagramm ebenfalls nur auf die ersten drei, meist sogar nur die ersten beiden Formanten konzentrieren. Der Verlauf des dritten Formanten wird uns zuweilen helfen, die Artikulationsstelle eines angrenzenden Konsonanten, meist Nasal oder Plosiv, zu erkennen.

Die Formanttabelle in Abbildung 2V.1 zeigt die bei Männern (M), Frauen (W) und Kindern (Ch) durchschnittlich gemessene Grundfrequenz F0 und die Frequenzwerte der drei ersten Vokalformanten.

Abb. 2.1: Formanttabelle mit Grundfrequenz F0 und F1, F2, F3 der Vokale, gemittelt über 76 Sprecher: Männer (M), Frauen (W) und Kinder (Ch). (entnommen aus: PETERSON, BARNEY, 1952, S.183)

Abgrenzung der Vokale von den Konsonanten

Vokale unterscheiden sich im Sonagramm von Konsonanten in erster Linie durch ihre deutliche Formantstruktur. Da jedoch auch Lateral und Nasal mehr oder weniger ausgeprägt Formantstrukturen aufweisen, ist eine Abgrenzung von ihnen an dieser Stelle notwendig, um Verwechslungen auszuschließen. Wichtigstes Unterscheidungsmerkmal ist dabei der bei den Konsonanten niedrigere erste Formant F1. Er wird bedingt durch die größere artikulatorische Enge bei Konsonanten im Vergleich zu Vokalen. Auf die Abgrenzung von Vokalen und ähnlich aussehenden Konsonanten wird in Kapitel 4 ("Leicht zu verwechselnde Laute") näher eingegangen.

Formantübergänge von einem Vokal zum anderen oder vom Vokal zum angrenzenden Konsonant heißen Transitionen. Sie können steigend, fallend oder neutral sein. Nach HALLE, HUGHES und RADLEY (1957) unterscheiden wir negative (zum Konsonanten hin fallende), positive (zum Konsonanten hin steigende) und neutrale (waagerechte) Transitionen. Im Sonagramm von Abbildung 2.2 sind die Vokalsegmente der Äußerung "Biedermeier" gekennzeichnet.

Abb. 2.2: "Biedermeier" mit Vokal-Kennzeichnung [i],[A],[aI A]

Diphthonge

Tritt eine deutlich wahrnehmbare Veränderung der Vokalqualität innerhalb einer Silbe auf, so sprechen wir von einem Diphthong. Die für Diphthonge typische kontinuierliche Veränderung der Vokalqualität zeigt sich im Sonagramm durch einen gleitenden Übergang der Formanten vom ersten zum zweiten Vokal. Im Deutschen finden wir die Diphthonge [aI], [aU] und [OY].

Die sehr häufige silbenfinale r-Vokalisation nach einem Vokal wie z.B. in "Uhr" [u6], "Ohr" [o6], "ihr" [i6] usw. führt ebenfalls zur Realisierung eines gleitenden Vokalübergangs. (Siehe auch Kap. 3.5 "/r/- Realisationen")

Das Sonagramm der Äußerung "Da ist mein Neuhaus" in Abbildung 2.3 zeigt die gleitenden Formantübergänge (Transitionen) der Diphthonge. Zu sehen ist außerdem die monophtongische Vokalfolge /a-i/. Wir beobachten zwar ebenfalls einen Übergang der Formanten vom /a/ zum /i/, doch weisen hier die beiden Vokale wesentlich längere quasikonstante Phasen auf, wohingegen der folgende Diphthong [aI] fast ausschließlich aus Transitionen besteht.

Abb. 2.3: "Da ist mein Neuhaus" mit markierten Diphthongen [aI OY aU], Vokale /a/ und /i/ sind ebenfalls markiert.

Vokale mit Glottal-Stop

Im Allgemeinen geht den Vokalen im Deutschen in wort- und silbeninitialer Position ein glottaler Verschlußlaut, der 'Glottal-Stop' voraus. Er wird auch als harter Stimmeinsatz bezeichnet. Er steht potentiell vor jedem mit Vokal beginnenden Wort- und Stamm-Morphem, sowie nach einer Sprechpause vor betontem und unbetontem Vokal bei intramorphematischen Vokalfolgen /the?ater/. Er tritt ebenfalls im Innern einer nicht unterbrochenen Äußerung vor betontem Vokal auf.

Der sog. harte Stimmeinsatz hängt jedoch unabhängig von Akzentuierung und Pausensetzung auch von der Vokalqualität ab und korreliert mit dem Öffnungsgrad des Vokals. Damit tritt der Glottal-Stop am häufigsten vor /a/, am seltensten vor /i/, /u/ und /y/ auf. (Siehe Kapitel 2.3 "Der Glottal Stop")

Plosive

Bei der Bildung eines Plosivs werden artikulatorisch drei Phasen unterschieden: die Verschlußbildung (I), die Verschlußphase (II) und die Verschlußlösung (III). In der ersten Phase bildet das artikulierende Organ (Lippen, Zungenspitze, Zungenrücken) einen vollständigen Verschluß mit der Artikulationsstelle (labial, alveolar, velar). Während dieser Zustand über einen bestimmten Zeitraum aufrechterhalten wird, staut sich hinter dem Verschluß der expiratorische Luftstrom - Phase II-, bis sich der Verschluß unter explosiver Geräuschbildung in der dritten Phase aktiv löst. Diese drei Phasen des artikulatorischen Prozesses spiegeln sich auch im akustischen Resultat wider.

Mit der Verschlußbildung (Phase I) erfolgt ein abrupter Abfall der spektralen Energie. Die Verschlußphase (Phase II) zeichnet sich durch eine völlige 'akustische Stille' in allen Frequenzbereichen des Spektrums aus, abgesehen von einem eventuell vorhandenen Stimmton. Dieser ist als 'voice bar' im untersten Frequenzbereich des Sonagramms zu sehen. Während der Verschlußphase eines stimmhaften Plosivs schwingen die Stimmlippen so lange weiter, bis der Luftdruck im Mundraum groß genug ist, die Phonation zu stoppen oder aber der Verschluß gelöst wird. Das erklärt den nicht immer durchgehenden Stimmton bei stimmhaften Plosiven.

Die Verschlußlösung, der Burst (Phase III), hat einen plötzlichen, sprunghaften Anstieg der spektralen Energie in einem bestimmten Frequenzbereich zur Folge. Dieser ist bestimmt durch die Burst-Schallquelle, also der Artikulationsstelle des Plosivs. Das Verschlußlösungsgeräusch stimmhafter Plosive ist mit einer Dauer von nur 10-20 ms sehr kurz. Ihm folgt eine sehr schnelle F1-Transition von ca. 50 ms. Bei stimmlosen Plosiven ist der Burst in der Regel gefolgt von einer Aspirationsphase unterschiedlicher Dauer. Diese liegt etwa zwischen 40 ms und 80 ms. Die Aspiration entfällt bei stimmlosen Plosiven in Verbindung mit Frikativen und vor Nasalen.

Plosive sind im Sonagramm in der Regel anhand ihrer Verschlußphase sehr gut zu erkennen, da während dieser Phase quasi eine 'Lücke' im Sonagramm auftritt. Auch bei stimmhaften Plosiven herrscht oberhalb von etwa 500 Hz absolute Stille, da Stimmlippenschwingungen nur im untersten Frequenzbereich (d.h. im Bereich der F0 und den ersten Harmonischen) über Kehlkopf und Körpergewebe abgestrahlt werden können.

Diese Stille gilt als notwendiges akustisches Merkmal für die Perzeption eines Plosivs. Fehlt sie, kann kein Plosiv wahrgenommen werden. Das läßt sich direkt auf die visuelle Darstellung übertragen. Fehlt die 'akustische Stille', d.h. die 'Lücke' im Sonagramm, ist es fast unmöglich, einen Plosiv wahrzunehmen, es sei denn, ein Burst läßt sich zweifelsfrei erkennen.

Zu diesem Phänomen sind jedoch einige Anmerkungen notwendig. Geht einem stimmhaften Plosiv ein Nasal voraus, kann diese 'Stille' auf wenige Millisekunden reduziert werden, besonders wenn Nasal und Plosiv homorgan sind, d.h. dieselbe Artikulationsstelle haben. Im Extremfall kann der Plosiv nicht mehr vom Nasal getrennt werden, wenngleich er auditiv wahrnehmbar ist (vgl. dazu auch im Kapitel 4.2 "Leicht zu verwechselnde Laute" die sonagraphische Gegenüberstellung [d] vs. [nd] vs. [n].)

Das Sonagramm in Abbildung 2.4 zeigt die stimmhaften Plosive [d] und [g] und zweimal den stimmlos aspirierten Plosiv [th] in der Äußerung "das gute Boot".

Abb. 2.4: "das gute Boot" mit den stimmhaften Plosiven [d] und [g] und dem stimmlos aspirierten Plosiv [th]

Unterscheidung stimmhafter, entstimmter von stimmlosen Plosiven

Neben dem 'voice bar' ist die Aspiration das wichtigste Merkmal, um die Phoneme /p/, /t/ und /k/ äußerungsinitial und -medial von den Phonemen /b/, /d/ und /g/ zu unterscheiden. Ganz besonders deshalb, weil phonologisch stimmhafte Plosive keineswegs immer stimmhaft realisiert werden, sondern oft teilweise oder völlig entstimmt produziert werden. Das zeigt sich im Sonagramm am fehlenden oder unterbrochenen 'voice bar'.

Die Verschlußphase stimmhafter Plosive ist meist kürzer als die der stimmlosen und auch ihr Burst ist wesentlich schwächer. Während der Produktion stimmloser Plosive wird hinter dem Verschluß ein wesentlich stärkerer Druck aufgebaut, was einen Burst höherer Intensität zur Folge hat.

Die anstelle der stimmhaft/stimmlos-Unterscheidung vorgeschlagene, perzeptiv wahrnehmbare 'fortis-lenis'-Unterscheidung ist beim Lesen von Sonagrammen wenig hilfreich, da sich der fortis-lenis-Unterschied akustisch allenfalls in minimalen Intensitätsunterschieden bei der Verschlußlösung bemerkbar macht. Diese sind im Sonagramm selten erkenn- oder gar meßbar.

Velare und laterale Verschlußlösung

Wird bei einer homorganen Plosiv-Nasal-Folge die Verschlußlösung allein durch das Senken des Velums bewirkt, spricht man von nasaler Plosion bzw. velarer Verschlußlösung. In diesem Fall wird der Verschluß für Plosiv und Nasal am gleichen Ort beibehalten. Auch eine laterale Verschlußlösung ist möglich, wenn Plosiv und folgender Lateral homorgan sind. Der Verschluß öffnet sich einfach durch Senken der Zungenseiten in den Lateral.

Die Sonagramme in Abbildung 2.5 zeigen die reduziert produzierten Äußerungen "Abend, bettelt" mit velarer und lateraler Verschlußlösung [bm] und [tl]. Auch hier ist der Burst noch deutlich zu erkennen.

Abb. 2.5: "Abend" mit velarer Verschlußlösung [bm] und "bettelt" mit lateraler Verschlußlösung [tl].

Glottal-Stop und Glottalisierung

Der nur Vokalen vorausgehende Glottal-Stop entsteht durch einen vollständigen Verschluß der Stimmlippen, was ein kurzzeitiges Aussetzen der Stimmlippenschwingung zur Folge hat. Dies zeigt sich im Sonagramm - vergleichbar mit der Verschlußphase eines Plosivs - als Signalpause von meist weniger als 100 ms. Die Verschlußlösung ist erkennbar an einigen (1-3) unregelmäßigen Stimmlippenschwingungen zu Beginn des Vokals. Sie weisen dieselbe Formantstruktur auf wie der Vokal. Die Abbildung 2.6 zeigt die Wörter "am" und "also", die jeweils mit einem Glottal-Stop beginnen.

Abb. 2.6: Der 'Glottal-Stop' jeweils zu Beginn von "am" und "also", [?] markiert

Anstelle des Glottal-Stops beobachtet man häufig einen sog. Glottalisierungseffekt zu Beginn des Vokals. Mit Glottalisierung wird eine unregelmäßige Glottisschwingung bei niedriger Schwingungsfrequenz bezeichnet. In der Regel wird das Phänomen der Glottalisierung perzeptiv gar nicht wahrgenommen. Im Sonagramm aber ist es nicht zu übersehen. Das kurzzeitige rasche Abnehmen der Schwingungsfrequenz (Absinken der Grundfrequenz F0) zeigt sich dort durch deutlich größere Abstände zwischen den einzelnen Glottisschlägen. Die Formantstruktur der Glottisschläge während der Glottalisierungsphase entspricht der des Vokals, denn die Ansatzrohrkonfiguration bleibt unverändert.

Abbildung 2.7 vergleicht den einsilbigen Namen "Bea" mit dem zweisilbigen "Beate", wobei wir beim zweiten Namen einen silbeninitialen Glottal-Stop vor dem /a/ erwarten würden. Die erste Äußerung zeigt einen fließenden Übergang zwischen den Vokalen /e/ und /a/, während in der zweiten der Glottal-Stop durch einen glottalisierten Übergang ersetzt wird.

Abb. 2.7: "Bea" vs. "Be?ate": Glottalisierung ersetzt den Glottal-Stop

Eine Glottalisierung ("creaky voice") erfolgt häufig auch bei Konsonant-Vokal- Übergängen, wenn z.B. dem silbeninitialen Vokal ein Nasal oder ein Lateral vorausgeht. In diesem Fall beginnt die Glottalisierung bereits gegen Ende des vorausgehenden Nasals oder Laterals. Abbildung 2.8 zeigt den glottalisierten Übergang vom Nasal /m/ zum Folgevokal /a/ in der Äußerung "am Abend" und vom Lateral zum Folgevokal /e/ in der Äußerung "Schulessen".

Abb. 2.8: Glottalisierung von Nasal und Lateral in den Äußerungen "am~Abend" und "Schul~essen", Übergang markiert

Neben den Möglichkeiten Glottal-Stop und Glottalisierung finden wir weitere Realisierungen, die weder der einen noch der anderen Kategorie zugeordnet werden können, sondern dazwischen liegen.

Die stufenweise Reduktion des glottalen Verschlußlautes bis hin zur Glottalisierung wollen wir uns nun im Zeitsignal ansehen. Abbildung 2.9 zeigt dies am Beispiel der Äußerung "arbeitet" bei vorausgehendem Vokal.

Abb. 2.9: Zeitsignal (5x) zeigt die stufenweise Reduktion des [?] bis hin zur Glottalisierung am Beispiel von "arbeitet" bei vorausgehendem Vokal. (Abbildung entnommen aus: Einsichten, Zeitschrift der LMU München, Nr.1, 1992, S.12)

Beim ersten Signal ist der Glottal-Stop deutlich ausgeprägt. Das zeigt sich im Ansetzen der glottalen Anregung nach einer deutlichen Signalpause. Bei den nächsten Realisierungen wird die Pause weiter verkürzt. Dennoch zeigt sich bei diesen Reduktionen ein Reflex des ursprünglichen Verschlußlautes, der als Störung im periodischen Ablauf der Kehlkopfanregungen zu erkennen bleibt.

Solches Stimmverhalten kann als Indiz für das Vorliegen einer Wort- oder zumindest einer Silbengrenze herangezogen werden. Bei unbetontem Anfangsvokal kann dieser letzte Hinweis auch ganz wegfallen, wie das Sonagramm in Abbildung 2.10 zeigt. Wir sehen einen nahtlosen Übergang der Vokalfolge /e-i/ zwischen den beiden Wörtern "suche ich".

Abb. 2.10: nicht-glottalisierter, diphtongisierter Übergang /e-i/ in der Äußerung "suche ich", [@] und [I] markiert

Glottalisierung tritt jedoch nicht nur als Reduktionsphänomen anstelle des Glottal-Stops auf. Eine Glottalisierung beobachten wir ebenfalls an weitgehend beliebiger Stelle einer Äußerung und natürlich im Rahmen des Phänomens 'prefinal lengthening'. Mit 'prefinal lengthening' wird eine zeitliche Dehnung der Laute am Satzende bzw. äußerungsfinal bezeichnet. Neben einer Dehnung der Vokale finden wir hier häufig eine deutlich erkennbare, unter der sprecherüblichen F0 liegende Stimmlippenschwingung, die zudem oft unregelmäßig ist.

Die Nasale

Nasale werden durch eine Kombination zweier artikulatorischer Bewegungen gebildet: 1. die orale Verschlußbildung durch Lippen, Zungenspitze oder Zungenrücken und 2. das Absenken des Velums.

Der Verschluß im Mundraum wird analog zu den Plosiven gebildet. Die Bewegung von Zunge oder Lippen erfolgt schnell. Es wird ein kompletter Verschluß gebildet. Während der Verschlußphase strömt der Glottisschall durch den Nasenraum nach außen, so daß sich - anders als bei den Plosiven - kein Druck im Mundraum aufbauen kann. Aus diesem Grund entsteht bei der oralen Verschlußlösung kein Verschlußlösungsgeräusch. Aufgrund des geringeren oralen (supraglottalen) Drucks wird der Verschluß außerdem langsamer gelöst als beim Plosiv.

Während der Verschlußphase bilden sich im Vokaltrakt aufgrund des zugeschalteten Nasenraums sog. Anti-Formanten aus, die Teile des Spektrums sehr stark dämpfen. Der durch die Nase ausströmende Schall hat ein überwiegend niederfrequentes Spektrum, bedingt durch die Hauptresonanz der großvolumigen nasalen Passage und die starke Verengung an den Nasenöffnungen.

Hauptkennzeichen eines Nasals im Sonagramm ist ein stark gedämpftes Formantspektrum oberhalb etwa 500 Hz. Der erste Formant F1 liegt bei ca. 250 Hz und dominiert das Spektrum. F2 ist sehr schwach ausgeprägt oder fehlt völlig. Mehrere höhere Formanten geringer Intensität sind manchmal zu erkennen. Einer von ihnen liegt bei etwa 2200 Hz.

Die Anti-Formanten des Nasals sind besonders in Vokalumgebung gut erkennbar durch einen starken Energieabfall im Spektrum zu Beginn des Nasals: am Ende des Vokals erfolgt ein starker Amplitudenabfall und ein abrupter Wechsel der Formantstruktur. Die Nasale des Deutschen sind stimmhafte Laute, beginnen jedoch nach stimmlosen Frikativen meist stimmlos.

Abbildung 2.11 zeigt die drei Nasale des Deutschen in den Äußerungen "anga" (Ohne [g] gesprochen), "ana" und "ama". Dort ist zu sehen, wie klar sich Nasale von Vokalen abgrenzen lassen, was die Segmentierung erleichtert.

Abb. 2.11: [aNa, ana, ama] mit den drei Nasalen des Deutschen [N, n, m] jeweils im [a]-Kontext, Nasale segmentiert und gekennzeichnet.

Nasalierung

Vokale können vollständig - wie es im Französischen üblich ist - oder teilweise - wie oft im Deutschen an Vokal-Nasal- und Nasal-Vokal-Übergängen - nasaliert werden. Das Absenken des Velums beginnt häufig schon zum Ende des Vokals ca. 100 ms bevor der orale Nasalverschluß (bilabial, alveolar oder velar) gebildet wird. Das Velum wird erst wieder vollständig angehoben, wenn dieser Verschluß bereits gelöst ist. Die Folge ist eine teilweise Nasalierung der den Nasal umgebenden Vokale für eine Dauer von bis zu 100 ms.

Durch den bei der Nasalierung hinzugeschalteten Nasaltrakt werden im Vokaltrakt zusätzliche Resonanzen und Antiresonanzen erzeugt. Diese Veränderungen sind jedoch überwiegend auf die veränderten Filtereigenschaften des Vokaltrakts zurückzuführen und nicht durch den zusätzlich durch die Nase ausströmenden Sprachschall verursacht. Der austretende Nasenschall kann aufgrund seiner im Vergleich zum Vokal geringen Amplitude oberhalb von 500 Hz in der Regel vernachlässigt werden.

Das Vokalspektrum erfährt durch die Nasalierung folgende Veränderungen.

Im Vokalspektrum entsteht eine zusätzliche niederfrequente Resonanz im Bereich der Grundfrequenz F0, was zu einer Verstärkung von F0 führt.
Eine direkt darüber liegende Antiresonanz schwächt das Spektrum im Bereich des ersten Formanten F1 ab, was zur Auslöschung von F1 führen kann, wenn dieser sehr tief liegt.
Hat der nasalierte Vokal einen hohen F1 wie z.B. beim [a], wird dadurch die spektrale Energie zwischen der Grundfrequenz F0 und dem ersten Formanten F1 gedämpft.
Im Bereich zwischen 2000 Hz und 3000 Hz können durch Nasalierung ebenfalls Antiresonanzen entstehen. In diesem Fall werden gegebenenfalls zweiter und dritter Formant gedämpft.

Die genauen Frequenzbereiche dieser Antiresonanzen hängen jedoch sehr stark vom Grad der Nasalierung, also vom Grad der Velumöffnung ab.

Das Sonagramm in Abbildung 2.12 vergleicht die beiden Äußerungen "bei" und "Mai" (entnommen aus PICKET, 1980, S.124). Das [a] in der ersten Äußerung ist nicht nasaliert, denn F1 und F3 sind mit normaler Amplitude gut zu erkennen. Der erste Formant weist Transitionen vom [b] zum [a] auf. Das [a] der zweiten Äußerung dagegen ist nasaliert, zu erkennen an der gedämpften Amplitude des F1 und dem durch Antiresonanzen nahezu ausgelöschten F3.

Abb. 2.12: Nasalierung anhand "bei" vs. "Mai". Die Nasalierung des [a] in "Mai" ist zu erkennen am gedämpften F1 und am durch Antiresonanzen nahezu ausgelöschten F3.

Die Laterale

Der Lateral des Deutschen wird gebildet, indem die Zungenspitze die Alveolen berührt. Der Zungenrücken ist aufgewölbt und läßt laterale Passagen frei. Im Gegensatz zur weitgehend festgelegten Position der Zungenspitze ist der Zungenrücken freier, sich dem oberen Pharynxraum anzunähern. Dadurch erhält der Lateral eine zweite Artikulationsstelle in der Uvulagegend.

Was den Grad der artikulatorischen Konstriktion betrifft, besitzt das /l/ sowohl 'vokalische' als auch 'konsonantische' Eigenschaften. Der alveolare Teil-Verschluß mit der Zungenspitze und die Verengung in der Uvulagegend geben dem /l/ im Sonagramm seine konsonantischen Eigenschaften: der erste Formant F1 liegt tief. Zudem dämpfen Antiresonanzen die Amplitude der Formanten im Vergleich zu den Vokalen. Allerdings ist diese Dämpfung viel weniger stark ausgeprägt als bei den Nasalen. Durch die seitlich offenen Passagen bekommt das /l/ seine meist klare Formantstruktur, die es einem Vokal oft zum Verwechseln ähnlich aussehen läßt.

Liegt uns ein vokalähnliches Segment mit den ungefähren Formantwerten F1 < 500 Hz und F2 = 1800 Hz vor, handelt es sich mit hoher Wahrscheinlichkeit um einen Lateral. Als weiteren Hinweis auf einen Lateral können wir vereinzelte Verschlußlösungen (der Zungenspritze!) an den Segmentgrenzen des Laterals oder sogar im Lateral selbst (der Zungenspitze) werten. Die Sonagramme in Abbildung 2.13 zeigen den Lateral in vokalischer Umgebung /a, i, u/.

Abb. 2.13: [ala] [ili] [ulu], der Lateral in Vokalumgebung

Laterale in verschiedenen Kontexten

Der relativ frei bewegliche Zungenrücken und besonders eine kontextabhängige Lippenrundung machen den Lateral 'anfällig' für koartikulatorische Effekte. Diese zeigen sich in der recht variablen Lage seiner Formanten. Die Formantwerte des /l/ variieren je nach vokalischer und konsonantischer Umgebung:

F1:	 350 Hz -  550 Hz 

F2:	1000 Hz - 2000 Hz 

F3:	2500 Hz - 3000 Hz

Die Distanz zwischen erstem und zweitem Formanten beträgt etwa 1000 Hz. Die große Variabilität des zweiten Formanten läßt sich näher differenzieren. Einen sehr hohen F2 finden wir in Konsonant-Clustern, beispielsweise nach Plosiven. F2 liegt dann zwischen 1800 Hz und 2000 Hz. Die Abbildung 2.14 zeigt dies anhand der Äußerung "Blume".

Abb. 2.14: Der Lateral in "Blume": F2 liegt hoch zwischen 1800 und 2000 Hz.

In "Blume" weist der Lateral einen hohen zweiten Formanten auf, obwohl sowohl der vorausgehende Plosiv [b] einen Lokus von unter 1000 Hz hat, als auch der zweite Formant des nachfolgenden Vokals [u] unter 1000 Hz liegt. Einen hohen zweiten Formanten von etwa 1800 Hz finden wir beim /l/ ebenfalls, wenn vordere Vokale angrenzen. Bei knapp 2000 Hz liegt er vor Nasalen und nach unbetonten Vokalen, was in den Sonagrammen der Äußerungen "Ulm", "Alm" und "belebt" in Abbildung 2.15 zu sehen ist.

Abb. 2.15: Der F2 des Laterals in "Ulm, Alm, belebt" liegt hoch bei etwa 1800 Hz.

KNIPPER (1981) untersuchte Koartikulationseffekte im Italienischen anhand des Laterals in verschiedenen Vokalkontexten. Er maß folgende Formantwerte des [l] in Abhängigkeit von verschiedenen Folgevokalen.

Folgevokal	F1		F2		F3	 

	u	160 - 300 Hz	1070 - 1500 Hz	2000 - 2500 Hz 

	o	190 - 430 Hz	 950 - 1540 Hz	1900 - 2500 Hz 

	a	260 - 500 Hz	1130 - 1740 Hz	2200 - 2470 Hz 

	e	210 - 450 Hz	1300 - 1780 Hz	2260 - 2500 Hz 

	i	180 - 270 Hz	1310 - 2050 Hz	2240 - 2680 Hz	 

Zusammenfassung	160 - 500 Hz	 950 - 2050 Hz	1900 - 2680 Hz

Die Untersuchung zeigt eine sehr starke Streuung der Formantwerte für jeden der Vokale, wenngleich der höchste F1 vor dem Vokal [a] mit dem höchsten F1 und der höchste F2 vor dem Vokal [i] mit dem höchsten F2 gemessen wurde. Für die Laterale des Englischen geben DALSTON (1974) und FAURE (1972) folgende Durchschnittswerte für die ersten drei Formanten an:


	 Dalston	  Faure	 

F1:	   350 Hz	 495 Hz 

F2:	1200-1300 Hz	1015 Hz 

F3:	2600-2900 Hz	2260 Hz

Dem englischen Lateral entspricht im Deutschen etwa die 'Kölsche' Dialektversion. In Abbildung 2.16 können wir die standarddeutsche Version des [l] mit der Dialektversion anhand der Äußerung "Pilz" vergleichen. Die zweite, standarddeutsche Version ist als [pIlts] realisiert, während sich bei der ersten, 'kölschen' Aussprachevariante [p@lts] neben dem [l] auch die Vokalqualität des /i/ ändert.

Abb. 2.16: Zwei Varianten von "Pilz" (kölsch und hochdeutsch): [p@lts] vs. [pIlts].

Für die sich deutlich widersprechenden Werte für den dritten Formanten bei DALSTON und FAURE möge eine Erläuterung FANTs (1970) als Erklärung dienen, der folgende Formantwerte für den Lateral angibt:


F1 =  350 Hz

F2 = 2000 Hz

F3 = 2300 Hz

F4 = 2900 Hz

Er bemerkt, daß der dritte Formant F3 aufgrund der beschriebenen Antiresonanzen manchmal derart schwach ausgeprägt ist, daß er im Sonagramm nicht mehr erkennbar ist. In diesem Fall übernimmt der vierte Formant F4 mit 2900 Hz dann die Rolle des dritten Formanten.

Die Trills

Der Trill ist ein intermittierender Verschluß, was bedeutet, daß er aus einer Folge von Verschlüssen und Verschlußlösungen besteht. Er wird auch als Schwinglaut oder Vibrant bezeichnet. Jeden einzelnen dieser Verschlüsse nennt man Schlag. Ein einfach geschlagener Trill heißt 'Flap'. Im Deutschen werden zwei Allophone des Phonems /r/ als Trill realisiert, das alveolare [r] und das uvulare [R]. Beim alveolaren [r] bewegt sich die Zungenspitze in Richtung der Alveolen und flattert passiv gegen sie. Dabei unterbricht sie den die Schwingung bewirkenden Luftstrom. Beim uvularen [R] wird eine Enge gebildet durch Annäherung des hinteren Zungenrückens an Velum bzw. Zäpfchen. Das Hindurchtreten des Phonationsstromes bewirkt die Schwingung dieser Teile gegeneinander. Trills sind in der Regel stimmhaft, doch kann es bei angrenzenden stimmlosen Segmenten gegebenenfalls zur Entstimmung kommen.

Aufgrund ihrer physiologischen Bildungsweise sind beim Trill zwei Phasen besonderer Strukturierung zu unterscheiden: eine offene Phase und eine Verschlußphase. Jeder Schlag des Trills besteht aus diesen zwei Phasen. Während der offenen Phase wird ein Maximum an Phonationsschall abgestrahlt, da in dem Moment die Zungenspitze den größten Abstand von den Alveolen hat bzw. die Uvula die weiteste Auslenkung erfährt. Während der Verschlußphase ist die alveolare bzw. uvulare Passage maximal verkleinert und dämpft so den Phonationsstrom kurzzeitig auf ein Minimum.

Der Übergang von der Verschlußphase zur Öffnungsphase erfolgt schneller als im umgekehrten Fall, da das Artikulationsorgan hier durch den Phonationsstrom unterstützt wird. Der alveolare Verschluß bzw. die uvulare Enge dagegen wird gegen den Phonationsstrom gebildet. Im Sonagramm zeigt sich dieser Zusammenhang durch eine etwas längere Öffnungsphase im Vergleich zur Verschlußphase. Diese beiden artikulatorisch sehr verschiedenen Phasen sind auch im Sonagramm sehr gut voneinander zu unterscheiden. Das akustische Produkt ist ein mit der Frequenz des Verschlusses amplitudenmodulierter Vokal. Seine Frequenz liegt etwa zwischen 23 Hz und 26 Hz. Das Sonagramm in Abbildung 2.17 zeigt den alveolaren Trill [r] in "Ara". In fließender Sprache haben diese Trills weniger Schläge. Ihre Anzahl beträgt üblicherweise höchstens fünf Schläge.

Abb. 2.17: Der alveolare Trill [r] in "Ara"

Die Frikative

Die Entstehung der Frikative basiert auf einer Engebildung im Mundraum zwischen artikulierendem Organ und der Artikulationsstelle. Im zeitlichen Verhalten ähneln Frikative den Plosiven und Nasalen, doch wird hier kein völliger Verschluß sondern nur eine dichte Annäherung durch das artikulierende Organ gebildet. Diese Verengung unterteilt den Mundraum in einen vorderen und einen hinteren Resonanzraum. Der Luftstrom, der diese Enge passiert, wird turbulent. Luftturbulenzen sind die typischen Schallquellen aller Frikative.

Das erzeugte Friktionsgeräusch, das akustisch etwa dem weißen Rauschen entspricht, wirkt als akustische Anregung für beide Resonanzräume. Es wird jedoch überwiegend im vorderen Mundraum moduliert, so daß das Spektrum des am Mund abgestrahlten Frikativschalls weitgehend von Größe und Form des vorderen Resonanzraumes abhängt. Generell gilt, je größer der vorderer Resonanzraum ist, d.h. je weiter hinten die Artikulationsstelle, also der Ort der Engebildung, liegt, desto stärker wird der Schall moduliert und umso ausgeprägter ist sein Spektrum. Während also beim labiodentalen [f] das Spektrum sehr flach ist, weist das velare [x] bereits formantähnliche Strukturen auf.

Frikative sind im Sonagramm anhand ihrer 'Geräuscheigenschaften' meist sehr leicht zu erkennen und zu segmentieren. Sie zeichnen sich durch eine stochastische Schwärzung besonders im oberen Frequenzbereich aus. Das Frikativspektrum weist wesentlich mehr Intensität in den höheren Frequenzbereichen oberhalb von 2500 Hz auf als in den unteren Frequenzbereichen. Je nach Artikulationsort konzentriert sich dieses 'Rauschen' auf bestimmte Frequenzbereiche.

Das Sonagramm in Abbildung 2.18 zeigt die Äußerung "Fachschaft" mit den markierten Frikativen [f], [x], [S] und [f]. Während sich beim [x] bereits frikative Formantstrukturen erkennen lassen, ist beim [f] das Rauschen über alle Frequenzbereiche weitgehend gleichmäßig verteilt. Beim [S] dagegen ist eine Energiekonzentration im mittleren Frequenzbereich ab etwa 2500 Hz zu erkennen.

Abb. 2.18: Frikative [f], [x], [S] und [f] in der Äußerung "Fachschaft", gleichmäßige Energie beim [f], Formantstrukturen beim [x], Energieschwerpunkt beim [S] ab 2500 Hz.

Ein stimmhafter Frikativ weist eine geringere Intensität auf als ein stimmloser. Hinzu kommt bei stimmhaften Frikativen der 'voice bar' der zugeschalteten Glottisschallquelle. Stimmhafte Frikative können sowohl äußerungsinitial als auch in stimmloser Umgebung ganz oder teilweise entstimmt produziert sein. Das zeigt sich im Fehlen des 'voice bar'. Die für stimmhafte Frikative typische geringe Intensität bleibt dabei jedoch meistens als Erkennungsmerkmal seiner 'ursprünglichen' Stimmhaftigkeit erhalten.

Affrikaten

Die Öffnung eines Plosivs in einen homorganen Frikativ bezeichnet man als Affrikate. Affrikaten werden wie Frikative produziert, denen ein Verschluß vorausgeht. Dieser Verschluß wird an derselben Stelle gebildet wie die Enge für den Frikativteil. Der Frikativteil ist in der Regel kürzer als ein 'einzelner' Frikativ. Im Sonagramm zeigt sich die Ausbildung des Frikativs mit zunehmender Verschlußöffnung sehr deutlich durch eine schräg verlaufende (meist fallende) Untergrenze des frikativen Energieschwerpunktes. Die Abbildung 2.19 zeigt die Affrikate [ts] in der Äußerung "Zoo".

Abb. 2.19: Affrikate [ts] gefolgt von [o]

Fragen

Was sind die typischen Eigenschaften von Vokalen und wie erkennen wir sie im Sonagramm?
Was ist ein wichtiges Unterscheidungsmerkmal zwischen Vokalen und Konsonanten im Sonagramm?
Woran sind die drei Phasen eines Plosivs im Sonagramm zu erkennen?
Was sind die Eigenschaften von Glottal-Stop und Glottalisierung im Sonagramm?
Welches ist das Hauptkennzeichen von Nasalen im Sonagramm?
Welche konsonantischen und vokalischen Eigenschaften finden wir beim Lateral im Sonagramm?
Anhand welcher akustischen Eigenschaften erkennen wir Frikative im Sonagramm?
Welchen Zusammenhang gibt es zwischen Artikulationsstelle bzw. Größe des vorderen Resonanzraumes und dem Spektrum des Frikativschalls?

Antworten

Weiter zu KAPITEL III

Copyright © 1996 Institut für Phonetik und Sprachliche Kommunikation, Universität München
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'SGL' im Filenamen dürfen kopiert, gedruckt und an Dritte weitergegeben werden, unter der Bedingung, daß jede Seite vollständig bleibt. Weitergabe von Auszügen nur mit Erlaubnis der Urheber.

Kirsten Machelett

Das Lesen von Sonagrammen V1.0 - Kapitel II

Die Lautklassen im Sonagramm: Bestimmung des Artikulationsmodus

Inhalt:

Vokale und Formanten

Weiter zu KAPITEL III

Die Lautklassen im Sonagramm:
Bestimmung des Artikulationsmodus