SGLKapitel4: Das Lesen von Sonagrammen

Das Lesen von Sonagrammen V1.0 - Kapitel IV

Sonagrammlesen in der Praxis

Kirsten Machelett

Inhalt:

Suprasegmentalia
Analysestrategien
Leicht zu verwechselnde Laute

IPA - SAMPA Tabelle laden und ausdrucken !

Suprasegmentalia

1.1 Beobachtungen zum Äußerungsende

Das Ende einer Äußerung wird durch eine Reihe von sprachlichen Merkmalen angezeigt. Einige von ihnen, wie z.B. Absinken der Tonhöhe oder Silbendehnung, werden vom Hörer in der Regel aktiv wahrgenommen, andere dagegen entziehen sich meist unserer Wahrnehmung. Dennoch sind die 'Folgen' dieser Merkmale im Sonagramm zu erkennen, wie z.B. ein Intensitätsabfall oder eine Nasalierung.
Zum Äußerungsende können folgende Beobachtungen gemacht werden:

Die Grundfrequenz F0 sinkt deutlich ab, ausgenommen bei Fragesätzen.
'prefinal lengthening': Die letzte Silbe, besonders deren Vokale, werden gedehnt.
Die Intensität/Amplitude des Signals sinkt ab.
Der am Äußerungsende verbleibende Luftstrom wird ausgehaucht. Deshalb besteht ein äußerungsfinaler, gehauchter Vokal oft aus zwei Teilen: der erste Teil hat das übliche Aussehen eines Vokals, im zweiten Teil beobachten wir dagegen eine intensitätsschwache, verwischte Formantstruktur, die an einen Frikativ oder Nasal erinnert (stimmloser Vokal).
Das Velum senkt sich, was eine Nasalierung des Äußerungsendes zur Folge hat.

1.2 Erkennen von Wort- und Silbengrenzen

Das Erkennen von Wortgrenzen im Sonagramm ist prinzipiell sehr schwierig, da

es in der Regel keine Pausen zwischen einzelnen Worten gibt und
an Wortgrenzen, d.h. wortfinal, besonders häufig Reduktionen zu beobachten sind.

Es gibt trotzdem einige Erkennungszeichen, die - sofern sie auftreten - zur Identifikation einer Wortgrenze verwendet werden können.

Das Auftreten von Signal"lücken" im Sonagramm, die nicht (allein) auf einen Plosiv zurückzuführen sind, sind ein einfaches, aber auch relativ selten auftretendes Merkmal.
Phonotaktisches Wissen - falls nicht reduziert artikuliert wurde - kann helfen festzulegen, wo sicher keine Wortgrenze liegt.
Bsp:
- es gibt kein initiales [x]
- [h] tritt nie am Wortende auf.
Tritt eine Phase von Glottalisierung ('creaky voice') zwischen zwei vokalischen Segmenten (Vokale, Laterale, Nasale) auf, deutet das in der Regel auf eine Silbengrenze, möglicherweise sogar auf eine Wort- oder Satzgrenze.

1.3 Erkennen von Intonation und Betonung

Der Einfachheit halber ist zur Ermittlung des Intonationsverlaufs einer Äußerung ein Schmalband-Sonagramm zu erstellen. Dort lassen sich sehr anschaulich die Tonhöhenschwankungen am Verlauf der Harmonischen (Obertöne) verfolgen. Tonhöhenschwankungen bedeuten eine Änderung der Grundfrequenz.
Änderungen der Grundfrequenz können auch im Breitband-Sonagramm am veränderten Abstand der Glottisschläge abgelesen werden. Steigt die F0, wird ihr Abstand kleiner. Da jedoch die im Intonationsverlauf auftretenden Tonhöhenänderungen meist geringfügig sind, ermöglicht das Breitband-Sonagramm nur eine sehr ungenaue und wage Beurteilung. Aus dem Grund ist diese Art der Darstellung nicht so sehr zum Verfolgen des Intonationsverlauf geeignet.
Die Unterscheidung von betonten und unbetonten Silben läßt sich jedoch auch anhand eines Breitband-Sonagramms ermitteln, wenn folgende Kriterien zuhilfe genommen werden:

 
				betont			unbetont	 
       --------------------------------------------------------------------
	Intensität		hoch			niedrig 
	Dauer			lang			kurz 
	Artikulation		relativ deutlich	eher reduziert 
	F0/Tonhöhe		Anstieg			Abfall 
	Glottisimpulse		dicht			weiter

1.4 Berücksichtigung von dialektalen Aussprachevarianten

Wer dialektale Aussprache-Varianten beim Sonagramm-Lesen berücksichtigen möchte, dem sei zum Einstieg empfohlen, die phonetisch enge Transkription von gesprochenem Dialekt intensiv zu üben. Die Schulung von Wahrnehmungsleistungen ist Grundvoraussetzung, um Dialektvarianten im Sonagramm bewußt erkennen und einordnen zu können. Im folgenden seien nur einige der Laute und Lauteigenschaften genannt, die besonders betroffen sind:

die Veränderung der Vokalqualität (Wegfall und Austausch von Vokalen im Vokalschema),
die Stimmhaftigkeit der Laute wird abweichend von der standarddeutschen Aussprache realisiert,
die Realisierung des /r/ ist sehr stark dialektabhängig (siehe auch Kap. III.6: /r/-Allophone),
die Vokalisierung von Konsonanten wie /r/ und /l/ ist möglich.

Grundsätzlich gilt es jedoch zu beachten, daß getroffene Entscheidungen über Segmentgrenzen und Lautklassifikationen im Verlauf der Analyse immer wieder neu überprüft werden müssen, da voreilige Schlüsse besonders bei phonotaktischer Interpretation von Nachbarsegmenten schnell zu Trugschlüssen führen können.

Weitere empfohlene Analysestrategien:

Das 'Journal of the International Phonetic Association' empfahl in seiner 20. Ausgabe (JIPA, 20:1, S.51) folgende Vorgehensweise: "Learning to read spectrograms".
Auch FANT (1963, S.241f) schlug eine generelle Prozedur, um das "Sonagramm einer unbekannten Äußerung zu entschlüsseln".

Beide Vorschläge enthalten viele nützliche Hinweise, wie ein Sonagramm 'entschlüsselt' werden kann, wobei der Vorschlag FANTs um einiges ausführlicher ist. Zu beachten ist, daß der Vorschlag des JIPA, besonders in einigen Teilen, für Sonagramme des Englischen gedacht ist, während FANT eine sprachunabhängige Strategie vorgibt.

Im Laufe der Zeit wird jeder Sonagramm-Leser seine eigene Strategie beim 'Entschlüsseln' eines Sonagramms entwickeln. Eine weitere Methode wird in der hier abrufbaren Beispielanalyse vorgestellt.

Leicht zu verwechselnde Laute

Im Folgenden wird eine Darstellung und Gegenüberstellung von Lauten gegeben, die im Sonagramm leicht übersehen oder mit anderen Lauten verwechselt werden können. Auch zu Lauten, die in initialer oder finaler Position schwer zu identifizieren sind, werden hier nähere Hinweise teilweise mit Literaturverweisen gegeben.

Diese Liste sog. 'Problemfälle' erhebt jedoch keinen Anspruch auf Vollständigkeit. Es wird lediglich eine Auswahl von problematischen Fällen behandelt.

Initiale und finale Plosive

Die Erkennung finaler Plosive ist einfach, da diese im Deutschen nie stimmhaft und immer von einer starken Aspirationsphase gefolgt sind. Die Aspirationsphase ist final meist wesentlich länger als in medialer Position. Auch initiale stimmhafte Plosive [b, d, g] sind im Allgemeinen problemlos anhand ihres 'voice bars', initiale stimmlos aspirierte [pha, tha, kha] anhand ihrer Aspiration zu erkennen.
Problematisch und zuweilen sogar unmöglich ist dagegen die Erkennung eines entstimmten initialen Plosivs. Wird er mit einer geringen Intensität produziert, entfällt neben dem 'voice bar' auch noch ein ausgeprägter Burst. Einziger Hinweis auf einen initialen Plosiv sind dann die eventuell vorhandenen Transitionen zum vokalischen Folgesegment. Beginnt eine Äußerung mit einem vokalischen Element, so wird dieses niemals mit Transitionen beginnen. Beobachten wir dennoch eine vermeintlich äußerungsinitiale Transition, der nur 'akustische Stille' vorausgeht, so weist das auf einen initialen entstimmten Plosiv hin. (Vgl. auch: PETERSON, LEHISTE, 1960, S.694f)

Zur Unterscheidung von [ç] und [S]

Der postalveolare Frikativ hat eine größere Intensität als das palatale [ç]. Das [ç] weist dafür bereits formantähnliche Strukturen auf, die etwa bei 3000 Hz, 4000 Hz und 5000 Hz liegen können (sprecher- und kontextabhängig).

Den stimmhaften labiodentalen Frikativ [v] initial von initialen Nasalen unterscheiden

Stimmhafte Frikative weisen in der Regel eine geringere Intensität auf als stimmlose. Das gilt ganz besonders bei stimmhaften initialen Frikativen, so daß diese aufgrund des lediglich sichtbaren 'voice bar' möglicherweise mit initialen Nasalen verwechselt werden könnten. Ein wichtiges Merkmal, das den Übergang zum Folgesegment betrifft, hilft diesen Irrtum zu vermeiden. Der Übergang von stimmhaftem Frikativ zum Folgevokal verläuft eher transitiv und graduell, der Nasal-Vokal-Übergang dagegen immer sehr abrupt.
Ein - wenn auch sehr schwaches - Friktionsgeräusch im oberen Frequenzbereich spricht außerdem für den Frikativ und nicht für den Nasal.

Vergleiche initiales [v] und [n] im folgenden Sonagramm der Wörter "Nase" und "Vase".

Abb. 4.1: Initial [v] vs. [n] in "Nase" vs "Vase"

Zur Unterscheidung und Trennung von Nasal und stimmhaftem Plosiv

Geht einem stimmhaften Plosiv ein Nasal voraus, kann dieser fälschlicherweise übersehen bzw. mit der Verschlußphase des Plosivs verwechselt werden. Die Sonagramme in Abbildung 4.2 zeigen in Folge die Äußerungen [ana], [anda] und [ada].

Abb. 4.2: [ana] vs. [anda] vs. [ada]
a) [ana] nur Nasal
b) [anda] Nasal und sth. Plosiv
c) [ada] nur Plosiv

Vergleichen wir den Nasal [n] in Abbildung 59a mit dem stimmhaften Plosiv [d] in Abbildung 59c. Während der Verschlußphase des Plosivs beobachten wir oberhalb von 500 Hz absolute 'Stille' im Sonagramm. Der Nasal dagegen zeigt im Bereich bis ca. 3000 Hz schwach ausgeprägte Formanten. Der erste Formant des Nasals liegt deutlich ausgeprägt bei etwa 400 Hz und ist aufgrund seiner hohen Intensität gut zu erkennen, wohingegen die Stimmbandschwingung, der 'voice bar' des Plosivs, nur eine schwache Intensität aufweist.

Besonders gut zeigt sich dieser Intensitätsunterschied bei der Folge Nasal/Plosiv [anda] in Abbildung 4.2b. Hier beobachten wir eine stufenweise Intensitätsreduzierung vom Vokal zum Nasal und weiter zum Plosiv. Die Verschlußphase des Plosivs, dem ein (homorganer) Nasal vorausgeht, ist stark verkürzt. In diesem Beispiel beträgt sie 60-70 ms. Sie kann aber auch noch kürzer sein.
Ein weiterer Hinweis auf einen Nasal ist die Nasalierung der angrenzenden Vokale. Sie zeigt sich durch einen stark geschwächten oder völlig 'gelöschten' ersten Formanten.
Beobachten wir nasalierte Vokale auf beiden Seiten des zu identifizierenden Segments (das einen Nasal oder einen Plosiv oder beides enthalten könnte), weist das auf einen Nasal, auch wenn - wie in unserem Sonagrammbeipiel - eine burst-ähnliche Struktur zu sehen ist. Ist nur der dem unbekannten Segment vorausgehende Vokal nasaliert und wir beobachten zudem noch eine kleine "Lücke" - die Verschlußphase des Plosivs - im Signal, handelt es sich um eine Nasal-Plosiv-Folge. Handelt es sich lediglich um einen Plosiv, fehlt die Nasalierung bei den diesem Plosiv angrenzenden Vokalen völlig.

Zusätzlich zu diesen beiden Unterscheidungsmerkmalen beobachten wir bei den Vokalen, die an den Plosiv angrenzen, wesentlich deutlichere Transitionen als beim Vokal-Nasal-Übergang, obwohl Nasal und Plosiv in unserem Beispiel homorgan sind (und damit den gleichen Lokus haben). So beobachten wir deutlichere Transitionen in der Äußerung [ada] bei beiden angrenzenden Vokalen, in [anda] nur beim plosivseitigen Vokal.

Verschlußphase oder Pause

Verschlußphasen sollten nicht verwechselt werden mit Pausen zwischen einzelnen Wörtern einer Äußerung. Pausen haben eine deutlich längere Dauer. Genaue Zeitangaben sind jedoch wenig sinnvoll, da sowohl Verschluß- als auch Pausendauer sehr stark von der Sprechgeschwindigkeit abhängig sind. Eine Orientierungshilfe zur ungefähren Ermittlung der Sprechgeschwindigkeit sind Vokaldauern, sofern es sich um nicht reduzierte Vokale handelt.

Bei niedrigen Sprechgeschwindigkeiten wurden durchaus Verschlußdauern von bis zu 150 ms beobachtet. Liegt die Signalpausendauer jedoch deutlich darüber, kann man mit großer Wahrscheinlichkeit davon ausgehen, daß es sich nicht um eine Verschlußphase, sondern um eine Pause und damit um eine Wortgrenze handelt. Bei diesen Überlegungen darf jedoch nicht unberücksichtigt bleiben, daß es nach dieser Sprechpause mit einem Plosiv weitergehen könnte. Transitionen nach einer Pause können diesen initialen Plosiv anzeigen.

Zur Unterscheidung von Affrikate und aspiriertem Plosiv

Die Unterscheidung von Frikativ und Aspirationsgeräusch beginnt bereits mit der Unterscheidung der Quelle, an der sie entstehen. Während die Frikative (ausgenommen dem glottalen /h/) ihre Quelle am Artikulationsort im Mundraum haben, ist die Schallquelle der Aspiration immer die Glottis. Der turbulente frikative Luftstrom wird beim Frikativ nur noch bedingt moduliert, wohingegen er bei der Aspiration noch das gesamte Ansatzrohr durchläuft, das bereits die Position des folgenden Vokals einnimmt. Die Aspiration zeigt demnach Intensität über den gesamten Frequenzbereich mit formantähnlichen Strukturen, der Frikativ weist Intensität nur in bestimmten Frequenzbereichen auf. Die Sonagramme in Abbildung 4.3 stellen Frikativ und Aspiration jeweils in Verbindung mit einem Plosiv gegenüber.

Abb. 4.3: Affrikate vs. aspirierter Plosiv: [pfu] vs. [phu] und [tsa] vs. [tha]

Zudem ist die Aspiration meist von geringerer Dauer als der Frikativteil der Affrikate. Die Dauer der Aspiration ist allerdings sowohl kontext- als auch sehr stark sprecherspezifisch.

Zur Unterscheidung von Lateral und Nasal

Laterale und Nasale unterscheiden sich von Vokalen in der Regel durch eine geringere Intensität, die durch entstehende Antiresonanzen bedingt ist. Antiresonanzen sind im Sonagramm erkennbar an einem Intensitätseinbruch an der Grenze zu Vokalen. Dieser ist jedoch bei den Nasalen wesentlich stärker ausgeprägt als bei den Lateralen.

Zudem entfällt beim Lateral die Nasalierung angrenzender Vokale, wie sie beim Nasal häufig zu beobachten ist. Beim Lateral sind die Formanten aufgrund des geöffneten Mundes meist deutlich ausgeprägt und weisen besonders oberhalb von 800 Hz eine deutlich höhere Intensität auf als Nasale. Während beim Nasal lediglich erster und zweiter Formant mehr oder weniger gut zu sehen sind, finden wir beim Lateral auch noch in den oberen Frequenzbereichen - wie bei den Vokalen - Formantstrukturen.

Der Übergang zwischen Nasal und Vokal verläuft sehr abrupt, wohingegen wir beim Lateral eher graduelle Transitionen an den Grenzen zu Vokalen beobachten.

Das Sonagramm in Abbildung 4.4 stellt Nasal und Lateral in [a]-Umgebung gegenüber.

Abb. 4.4: Lateral vs. Nasal in [ala] vs. [ana]

Laterale von Vokalen unterscheiden und trennen

Die Formantstruktur des Laterals ist manchmal derart stark ausgeprägt, daß dieser kaum von den angrenzenden Vokalen zu unterscheiden und noch schlechter zu segmentieren ist. Als Hinweis auf das Vorhandensein eines Laterals finden wir allerdings meistens eine minimale Signallücke zwischen Vokal und Lateral und Lateralverschluß-Lösungen (nicht zu verwechseln mit den in Kap. II.5 beschriebenen lateralen Verschlußlösungen, bei denen dem Lateral ein homorganer Plosiv vorausging!). Diese Lateralverschluß-Lösungen können sowohl zu Beginn und Ende des Laterals als auch vereinzelt während des Laterals auftreten.

Aufgrund der größeren artikulatorischen Enge des Laterals hat dieser in der Regel auch einen niedrigeren ersten Formanten als die Vokale. Die Abbildung 4.5 zeigt das Sonagramm der Plosiv-Lateral-Vokal-Folge [bli], bei der ein Lateralverschluß-Burst zu sehen ist.

Abb. 4.5: [bli] Plosiv-Verschlußlösung vs. Lateralverschluß-Lösung beim Lateral-Vokal-Übergang

Geminaten erkennen

Hat ein Segment - Nasal, Lateral oder Frikativ - eine besonders lange Dauer, spricht das für einen Doppellaut. Das beobachten wir beispielsweise bei Reduktionen wie hier im Zahlwort "99". Dabei kann das "und" zwischen "neun" und "neunzig" zu einer Nasal-Geminate reduziert werden: "neunneunzig", wie das Sonagramm in Abbildung 4.6 zeigt. Beim Vergleich der Nasaldauern stellen wir beim "nn"-Segment eine fast doppelt so lange Dauer wie beim nachfolgenden "n"-Segment fest.

Abb. 4.6: Nasal-Geminate /neunneunzig/ aus "99"

Weiter zum KAPITEL ÜBUNGEN

Copyright © 1996 Institut für Phonetik und Sprachliche Kommunikation, Universität München
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'SGL' im Filenamen dürfen kopiert, gedruckt und an Dritte weitergegeben werden, unter der Bedingung, daß jede Seite vollständig bleibt. Weitergabe von Auszügen nur mit Erlaubnis der Urheber.

Kirsten Machelett