Das Lesen von Sonagrammen - Kapitel I

Grundlagen:

Sonagraph, Sonagramm, Koartikulation und Segmentierbarkeit

Kirsten Machelett

Inhalt:

  1. Der Sonagraph
  2. Das Sonagramm
  3. Der Prozeß des Sprechens und Koartikulation
  4. Die Frage nach der Segmentierbarkeit
  5. Fragen


  1. Der Sonagraph
  2. Einfach formuliert ist der Sonagraph ein Gerät zur 'Sichtbarmachung' von Sprache in Form von Sonagrammen. Er ermöglicht die visuelle Darstellung eines Sprachsignals, der "Visible Speech", das akustisch in seine spektralen Komponenten zerlegt wurde. Wichtigste Parameter des Sprachsignals sind Frequenz f, Intensität/Amplitude A und die Zeit t.

    Abb. 1.1: Variabler Filter zerlegt das Sprachsignal in seine spektralen Komponenten

    Abbildung 1.1 demonstriert das Prinzip der Zerlegung eines komplexen Sprachsignals mittels eines variablen Filters (entnommen aus POTTER, KOPP und GREEN, 1947).

    Der klassische Sonagraph

    Der klassische Sonagraph ist ein elektromechanisches Gerät zur Aufzeichnung von zeitvarianten Fourierspektren, welches auf elegante Weise die drei Grundfunktionen Bandpaßfilterung, Gleichrichtung und Glättung mit der graphischen Darstellung verbindet.

    Bei der Arbeit mit dem klassischen Kay-Sonagraphen kann eine Äußerung von maximal 2,4 Sekunden aufgezeichnet werden. Das gespeicherte Sprachsignal kann beliebig oft abgehört und als Sonagramm im Frequenzbereich 0-8000 Hz zu Papier gebracht werden.

    Die Bedienung des klassischen Sonagraphen geschieht in folgenden Schritten:

    Liegt das erzeugte Sonagramm noch auf der Trommel auf, kann beim Abhören des Sprachsignals sehr schön das sonagraphische Abbild mitverfolgt werden. Durch automatisches Drehen der Trommel beim Abhören zeigt der Schreiber immer genau auf die Stelle im Sonagramm, die gerade gehört wird.

    Demo:
    Dieses Prinzip wollen wir in der folgenden Abbildung demonstrieren. Sobald Sie den Audio-Button anklicken, hören Sie, was im abgebildeten Sonagramm gesprochen wurde. Gleichzeitig läuft ein Cursor durch das Sonagramm, der immer die Stelle anzeigt, die gerade abgehört wird.

    Der digitale Sonagraph

    Mittlerweile werden anstelle des klassischen KAY-Sonagraphen zunehmend digitale Verfahren benutzt. Darunter spielt die Diskrete-Fourier-Transformation (DFT), in der Regel als Fast-Fourier-Transformation-Algorithmus (FFT) implementiert, die Hauptrolle.

    Alle in diesem Dokument enthaltenen Sonagramme wurden - sofern nicht anders gekennzeichnet - mit dem digitalen KAY-Sonagraphen Modell 5500 erstellt.

    Bei dem digitalen KAY-Sonagraphen Modell 5500, einem Echtzeit-Sonagraphen, handelt es sich um eine Signal-Analyse-Workstation mit frei wählbaren und vielfältig kombinierbaren Analysemöglichkeiten. Die Workstation 5500 besteht aus einer Rechnereinheit, mindestens einem Lautsprecher, einem Bildschirm, einem Mikrophon oder Tonband-/Cassettengerät und einem Drucker. Es kann ein Sprachsignal von einer Länge bis zu 98 Sekunden aufgezeichnet werden.

    Das entstandene Sonagramm kann als Ganzes oder in mittels Cursor markierten Teilen abgehört und ausgedruckt werden. Die gleichzeitige Darstellung von Breitband- und Schmalband-Sonagramm in zwei Fenstern auf dem Bildschirm ist möglich. Neben den bekannten Analysefilter-Bandbreiten, 300 Hz und 50 Hz, können weitere Filter gewählt werden. Die gewünschten Parameter für Aufnahme, Analyse, Bildschirm-Anzeige und Ausdruck werden über vorgegebene oder selbstdefinierte Setups festgelegt und ermöglichen so ein sehr individuelles Arbeiten.

    Vertiefung zur Handhabung des Sonagraphen.

  3. Das Sonagramm
  4. Das Spektrum: Zeit - Frequenz - Intensität

    Das Sonagramm stellt das Sprachsignal in drei akustischen Dimensionen (Parameter) dar:

    Die Zeit
    in Millisekunden (ms), perzeptiv als Dauer wahrgenommen, wird auf der x-Achse von links nach rechts gelesen.
    Die Frequenz
    in Hertz (Hz), perzeptiv als Tonhöhe wahrgenommen, wird auf der y-Achse von unten nach oben gelesen.
    Die Energie
    (bzw. Intensität) des Signals, perzeptiv als Lautstärke bzw. Intensität wahrgenommen, wird auf der gedachten z-Achse des Sonagramms am Grad der Schwärzung abgelesen.

    Jede vertikale Linie im Sonagramm entspricht einem Glottisschlag, d.h. einer glottalen Verschlußbildung. Sie kennzeichnen die Stimmhaftigkeit des Sprachsignals. Die Abstände dieser vertikalen Linien zeigen die Frequenz der Glottisschläge an. Daraus lassen sich Frequenzänderungen im Verlauf des Sprachsignals ablesen, wie z. B. ein "Knarzen" der Stimme (creaky), der äußerungsfinale Tonhöhenabfall oder steigende Tonhöhe am Ende eines Fragesatzes. Eine Ausnahme bildet der Burst eines Plosivs, der ebenfalls häufig als vertikale Linie im Sonagramm zu sehen ist.

    Breitband- vs. Schmalband-Sonagramm

    Ein Breitband-Sonagramm bietet einer hohen Auflösung im Zeitbereich, d.h. die einzelnen Glottisschläge sind gut sichtbar und man kann die Formantstruktur der Vokale gut verfolgen. Die dabei verwendeten 'Kurzzeit'-FFTs sorgen für eine hohe Zeitauflösung, um schnell wechselnde Ereignisse zu erfassen. Diese Zeitauflösung ist hoch genug, um Glottisimpulse unter 300 Hz aufzulösen und ebenfalls ideal für die Formantauflösung. Formanten sind als waagerechte Frequenzbänder im Sonagramm zu sehen.

    Ein Schmalband-Sonagramm bietet dagegen eine hohe Auflösung im Frequenzbereich und erfaßt demzufolge den Tonhöhenverlauf sowie die Lage und den Verlauf der Harmonischen (Obertöne).
    Diese Harmonischen sind im Sonagramm als schmale, parallele "Bänder" zu erkennen, die grundsätzlich parallel verlaufen und deren Abstand jeweils gleich groß ist. Dieser Abstand kann zu verschiedenen Zeitpunkten variieren. Zu einem Zeitpunkt jedoch ist der Abstand von der ersten zur zweiten und weiter zur dritten und vierten Harmonischen immer gleich groß.
    Die Obertöne sollten aber auf keinen Fall mit den Formanten verwechselt werden, wenngleich sie im Sonagramm ähnlich aussehen. Im Frequenzbereich der Formanten sind die Harmonischen besonders gut zu erkennen durch ihren hohen Schwärzungsgrad.

    Als Regel gemäß der Heisenberg'schen Unschärferelation gilt: Je genauer die Auflösung im Zeitbereich, desto ungenauer ist sie im Frequenzbereich, und umgekehrt. Eine hohe Frequenz- und Zeitauflösung zu erreichen, ist schwierig, da der Analysefilter entweder eine hohe Frequenz- oder eine hohe Zeitauflösung ermöglicht.

    Das Sonagramm in Abbildung 1.2 zeigt das Sonagramm der Frage "Heute ist frei?". Im Schmalband-Sonagramm ist eine steigende Tonhöhe anhand der steigenden Obertöne auf der ersten Silbe /Heu-/ sowie am Äußerungsende auf dem Diphthong /ei/ zu erkennen.

    Abb. 1.2: Schmalband- und Breitband-Sonagramm mit Frageintonation und Markierung von stimmhaften Segmenten

    Zur Stimmhaftigkeit

    Stimmhafte Laute sind im Sonagramm erkennbar an den Glottisschlägen. Fehlen sie, handelt es sich um einen stimmlosen oder entstimmten Laut. Die Glottisschläge können annähernd über den gesamten Frequenzbereich als durchgehende Linien sichtbar sein wie bei den Vokalen, oder aber nur im untersten Frequenzbereich unterhalb von etwa 500 Hz wie beispielsweise bei stimmhaften Plosiven.

    Bei den Plosiven ist Stimmhaftigkeit im Sonagramm erkennbar am sog. 'voice bar', einem schwarzen Balken im untersten Frequenzbereich. (Nicht zu verwechseln mit dem Grundrauschen. Dies ist bedingt durch Hintergrundgeräusche bei der Aufnahme, die auch von der Analyse-Workstation selbst, z.B. dem Bildschirm, stammen können.)

    In obiger Abbildung sind stimmhafte und stimmlose Segmente entsprechend gekennzeichnet.

    Grundfrequenz und zeitliche Orientierung im Sonagramm

    Bei einer Grundfrequenz F0 von 100 Hz beträgt der Abstand der im Sonagramm sichtbaren Glottisschläge 10 ms. Somit beträgt die Dauer der größten, im Zeitsignal erkennbaren Schwingungsperiode 10 ms. Die Schwingungsperiodendauern und damit der Abstand der Glottisschläge bei verschiedenen Grundfrequenzen können der folgenden Tabelle entnommen werden. Die Periodendauer T errechnet sich aus dem Kehrwert der Grundfrequenz F0:
    T = 1/F0

    
            Grundfrequenz F0       Abstand der Glottisschläge
                                       Periodendauer T
    
    		 80 Hz                  12,5 ms
    		100 Hz                  10,0 ms
    		150 Hz                   6,7 ms
    		200 Hz                   5,0 ms
    		250 Hz                   4,0 ms
    
             Tabelle: Grundfrequenz und Periodendauer
    
    

    Im Schmalband-Sonagramm kann mit Hilfe der Harmonischen die Grundfrequenz ermittelt werden:
    Man zählt die Anzahl der Harmonischen in einem bestimmten Frequenzbereich, z.B. von 0 bis 1000 Hz. Dann dividiert man den Frequenzbereich, hier: 1000 Hz durch die Anzahl der gefundenen Harmonischen in diesem Bereich und erhält die Grundfrequenz in Hz.

    Beispiel:
    Betrachten wir in Abbildung 1.2a den ersten Abschnitt (A). Im Bereich von 0 - 1000 Hz finden wir sechs Harmonische (mit Punkten markiert). Dividieren wir 1000 Hz : 6, erhalten wir eine Grundfrequenz von 167 Hz im Bereich (A). Im letzten Abschnitt (B) finden wir im Bereich von 0 - 1000 Hz zwei Harmonische (mit Punkten markiert) und erhalten so eine Grundfrequenz von 500 Hz.
    Wir sehen, daß im Abschnitt (A) der Abbildung die Harmonischen wesentlich enger zusammen liegen, d.h. die Grundfrequenz ist dort deutlich tiefer. Parallel dazu entdecken wir im Breitband-Sonagramm, daß die Glottischläge in Abschnitt (B) näher beieinander liegen, was unsere Beobachtung im Schmalband-Sonagramm bestätigt.

    Abb. 1.2a: Schmalband- und Breitband-Sonagramm von "Baum" mit Frageintonation zur Berechnung der Grundfrequenz. Die für die Berechnung der Grundfrequenz relevanten Harmonischen sind mit Punkten markiert.

    Bei einer typischen mittleren Silbenfrequenz von 3 Hz, d.h. drei Silben pro Sekunde, beträgt die Silbendauer ca. 330 ms. Die Dauer eines Sprachlauts liegt in der Regel zwischen 30 ms und 150 ms.

    Zur Orientierung auf der Frequenzachse

    Der im Sonagramm dargestellte Frequenzbereich geht üblicherweise von 0-8000 Hz, die Skalierung der Frequenzachse erfolgt in 1000 Hz-Schritten (in Ausnahmefällen in 500 Hz-Schritten). Bei Betrachtung der Vokale genügt in der Regel der Frequenzbereich von 0-4000 Hz, da die relevanten Vokalformanten F1 bis F3 bei erwachsenen Sprechern meist darunter liegen. Hierbei wird eine Skalierung in 500-Hz-Schritten vorgenommen. Um Irrtümer zu vermeiden, ist die Frequenzachse jedes der hier verwendeten Sonagramme eindeutig beschriftet.

  5. Der Prozeß des Sprechens und Koartikulation
  6. Grundsätzlich ist es notwendig, den Artikulationsvorgang bei der Produktion einer Lautfolge immer als kontinuierlichen Prozeß zu begreifen. Es gibt zwar bestimmte Artikulationsstellen bzw. Artikulationsregionen für die Bildung eines jeden Lautes, jedoch werden sie beim Sprechen nur in Bewegung durchlaufen. Artikulatorisch-konstante Laute gibt es nicht. Es gibt im allgemeinen auch keine akustisch-konstanten Laute im normalen Sprechen. Das Oszillogramm wechselt von Periode zu Periode.

    Das Bewußtsein, daß artikulatorische Prozesse nie abrupt, sondern immer kontinuierlich ablaufen, ist daher eine wichtige Voraussetzung für das erfolgreiche Lesen von Sonagrammen. Nicht Einzellaute werden produziert, sondern ein Lautstrom, in dem die Laute koartikulatorisch miteinander verbunden sind. Die Artikulationsorgane sind dabei ständig in Bewegung. Sie verharren nicht oder nur sehr kurz in der definierten Artikulationsposition, sondern bewegen sich zu dieser Position hin, um dann bereits die nächste Position anzusteuern. Dabei können die Übergangsphasen im Sonagramm den Hauptbestandteil des Lautes ausmachen. Auch kann ein Laut - in unterschiedlichen Lautkontexten oder von verschiedenen Sprechern produziert - immer wieder etwas anders aussehen.

    Bei der Artikulation kurzer Vokale in entsprechender Umgebung kann es zum sog. 'duration dependent undershoot' (vgl. Lindblom, 1963) kommen. Die Vokalphase ist dabei so kurz, daß die Artikulationsendposition des Vokals nicht erreicht wird, da die Artikulationsorgane bereits die Position des nächsten, artikulatorisch weit entfernten Lautes ansteuern.

    Die Artikulationsorgane sind beim Sprechen nicht nur ständig in Bewegung, sondern ihre Bewegungen überlagern sich. Während ein Laut artikuliert wird, zeigt er möglicherweise noch Eigenschaften des vorausgehenden Lautes, stellt sich aber bereits auf die Artikulation des folgenden ein. Demzufolge finden sich auch im akustischen Resultat dieser Äußerung in jedem Laut - mehr oder weniger stark ausgeprägt - gewisse Merkmale der angrenzenden Laute.

    Beispiele:

    Man stelle sich dazu nur die Aktivität der Zunge bei einem bilabialen Plosiv /b, p/, gefolgt von einem Vokal vor: noch während der Verschlußphase des Plosivs kann die Zunge bereits die Vokalposition des Folgevokals einnehmen.
    Weitere Beispiele dafür sind der Frikativ /h/, der seine spektralen Eigenschaften weitgehend aus den angrenzenden Vokalen bezieht oder aber die variable Artikulationsstelle des velaren Plosivs /k, g/ in Abhängigkeit vom Vokalkontext.

    Wie aber gehen wir nun mit dem komplexen Bündel von akustischen Eigenschaften um, die jedem koartikulierten Laut zu eigen sind? Welche Strategien sind notwendig, um sich sowohl die für den Laut typischen als auch die durch Koartikulation bedingten Eigenschaften anzueignen und, was noch wichtiger ist, sie unterscheiden zu können?

    So wenig, wie die Lautfolge [z o n a], die beiden ersten Silben des Wortes "Sonagramm", perzeptiv der Aneinanderreihung von Einzellauten [z], [o], [n], [a] entspricht (vgl. Abb. 1.3), werden wir das Sonagramm einer natürlichsprachlichen Äußerung mit einer Folge isoliert gesprochener Einzellaute vergleichen können. Dennoch vermögen wir, aufgrund der Kenntnis dieser Einzellaute, die Lautfolge perzeptiv in ihre Einzellaute zu zerlegen. Dieser Vorgang ist uns aus der Transkription bekannt. Analog wollen wir nun hier vorgehen.

    Abb. 1.3: [z], [o], [n], [a] vs. [zona]

  7. Die Frage nach der Segmentierbarkeit
  8. In der Geschichte der Phonetik diskutierte man immer wieder darüber, ob eine Lautfolge akustisch überhaupt segmentierbar ist, und falls ja, in welchen Einheiten die Segmentierung erfolgen sollte.

    Wenn wir Sonagramme lesen wollen, müssen wir uns natürlich fragen, ob das aus den artikulatorischen Bewegungen resultierende akustische Signal erkenn- und isolierbare Segmente möglichst phonemischen Charakters enthält, die wir mit entsprechenden Labeln versehen können.

    Wir versuchen, diese Frage pragmatisch zu beantworten, indem wir einen kleinen Test machen.

    Test:

    Versuchen Sie das folgende Sonagramm nach rein äußerlichen Kriterien intuitiv in Segmente zu unterteilen.

    Abb. 1.4: Nicht segmentiertes Sonagramm mit segmentierbarer Lautsequenz

    Lösung

    Für die Sonagramm-Darstellung können wir die Frage offensichtlich bejahen. Ob die Grenzen nun exakt oder nur ungefähr bestimmbar sind, ist ein zweitrangiges Problem, das uns als Sonagramm-Leser nur begrenzt interessieren muß.

    Das oben abgebildete Sonagramm zeigt eine Sequenz von diskreten, segmentierbaren Zuständen, die zudem noch phonologischen Einheiten entsprechen.

    Auch wenn die Vokalsegmente starke Transitionen (die beiden Vokalteile eines Diphthongs werden üblicherweise nicht getrennt) aufweisen, sind doch deutliche Segmentgrenzen zu ziehen zwischen Vokal, Nasal, Frikativ und Plosiv. Zweifellos haben einige Lauttypen von Natur aus Transitionscharakter wie z.B. Aspiration, Approximanten oder Diphthonge. Dennoch sind ihre ungefähren Anfangs- und Endgrenzen erfahrungsgemäß bestimmbar.

    Für uns genügt es vollkommen, die Anzahl der Segmente bestimmen zu können und die gefundenen Segmente zu klassifizieren. Zur Kennzeichnung der Segmente verwenden wir die aus der Transkription bekannten artikulatorischen Label. Konsonanten werden durch Artikulationsmodus und -stelle beschrieben und Vokale anhand ihrer Zungenhöhe (hoch-tief) und -position (vorn, zentral, hinten) und eventueller Lippenrundung klassifiziert.

    Vertiefung zur Segmentation

  9. Fragen
    1. Welches sind die drei Parameter des Sprachsignals, die im Sonagramm dargestellt werden?

    2. Woran erkennen wir Stimmhaftigkeit im Sonagramm?

    3. Nennen Sie die beiden klassischen Sonagrammtypen und ihre typischen Eigenschaften!

    4. Was unterscheidet Formanten von Obertönen im Sonagramm, wenngleich beide als schwarze "Bänder" zu erkennen sind?

    Antworten


Weiter zu KAPITEL II


Copyright © 1996 Institut für Phonetik und Sprachliche Kommunikation, Universität München
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'SGL' im Filenamen dürfen kopiert, gedruckt und an Dritte weitergegeben werden, unter der Bedingung, daß jede Seite vollständig bleibt. Weitergabe von Auszügen nur mit Erlaubnis der Urheber.


Kirsten Machelett