DFG SCHWERPUNKT SPRACHPRODUKTION
Kompensatorisches Artikulationsverhalten und phonetische Zielrepräsentation im Prozeß der menschlichen Sprachproduktion

Compensatory articulation and the nature of phonetic goals

 
 
RESEARCH PROGRAM (only in German)
STAFF
PUBLICATIONS
Links

Areas of Research (only in German)

Zusammenfassung

Zwei Experimentreihen sollen ein besseres Verständnis der bei der Planung und Produktion lautsprachlicher Äußerungen wirksamen Zielrepräsentationen ermöglichen. Dies soll über eine Analyse der kompensatorischen Artikulation erreicht werden. Um kompensatorisches Verhalten in natürlichen Äußerungen zu erhalten, werden koartikulatorische Einflüsse sowie Sprechen in unterschiedlicher Lautstärke als "natürliche" Perturbation eingesetzt. Die Bewegungen jeweils eines Artikulatorpaares werden gemessen: Zungenblatt und Kiefer (Exp. 1) bzw. Zungenrücken und Lippen (Exp. 2). Dabei wird die Stärke der komplementären Kovariation innerhalb eines Artikulatorpaares bestimmt. Die spezifische Ausprägung der Kovariationsmuster gibt Aufschluß darüber, ob die Planung nur auf der Ebene von Hauptkonstriktionen im Vokaltrakt geschieht, oder ob darüber hinaus die akustische Ebene involviert sein muß.

Stand der Forschung, eigene Vorarbeiten

1 Stand der Forschung

1.1 Einleitung

"Kompensatorisches Artikulationsverhalten" und "phonetische Ziele" sind zwei zentrale, eng miteinander verknüpfte Themenbereiche der phonetischen Forschung. Es war Anliegen einer Vielzahl der einflußreichsten phonetischen Untersuchungen zur Sprachproduktion, ein besseres Verständnis von gerade diesen beiden Problembereichen zu gewinnen. Es ist daher im folgenden kaum möglich, eine umfassende Übersicht über die vorliegende Forschungsliteratur zu geben. Stattdessen werden wir gezielt einige ausgewählte Themengebiete diskutieren, für die unseres Erachtens weitere empirische Arbeiten unerläßlich sind, damit unser Verständnis des Sprachproduktionsprozesses nicht auf der Stufe einer Ansammlung von in sich relativ unverbundenen Einzelerkenntnissen stehenbleibt.

Den Rahmen für unsere Diskussion bildet eine vor kurzem erschienene Arbeit von

Guenther (1995b). Darin skizziert der Autor ein als Computersimulation implementiertes Sprachproduktionsmodell. Doch sei gleich an dieser Stelle darauf hingewiesen, daß es uns bei dem im folgenden vorgeschlagenen Projekt nicht um eine einfache Verifikation oder Falsifikation genau dieses speziellen Modells geht, sondern daß die genannte Untersuchung lediglich als ein argumentativer Leitfaden für unser Vorgehen herangezogen werden soll.

Zwei Themenkomplexe müssen nach Guenthers Meinung von jedem Sprachproduktionsmodell behandelt werden. In Guenthers Terminologie sind dies:

(i) "the nature of the planning reference frame",

(ii) "the nature of the phonemic targets".

Die primäre Frage, mit der sich jedes Sprachproduktionsmodell auseinandersetzen muß, lautet: Worin besteht die relevante Planungsebene lautsprachlicher Äußerungen? Im unmittelbaren Anschluß daran stellt sich die Frage nach dem Stellenwert der kompensatorischen Artikulation und der motorischen Äquivalenz in der gesprochenen Sprache.

Zunächst erscheint es unwahrscheinlich, daß das menschliche Sprechen in seinem phonetischen Ablauf das Ergebnis einer zentralen Programmierung ist, derart, daß Positionen einzelner Artikulatoren oder die Längen einzelner Muskeln etc. zentral in allen Einzelheiten geplant würden. Eine solche Steuerungsinstanz ließe keinen Raum für motorisches Äquivalenzverhalten, d.h. das Erreichen relativ invarianter Ziele durch die reziprok variierende Beteiligung verschiedener Artikulatoren. Eine Alternative, die sich in der Literatur weitaus größerer Beliebtheit erfreut, siedelt die phonetische Planung auf einer Ebene an, auf der z.B. kritische Engebildungen im Ansatzrohr (key constrictions in der Terminologie von Guenther) in einer abstrakten Form spezifiziert werden. Das Task-Dynamics Modell von Saltzman & Munhall (1989) oder auch eine frühere Version des Guentherschen Modells (Guenther, 1995a) sind Beispiele hierfür. Die Planung auf einer solchen Ebene steht dabei in direktem Zusammenhang zum endgültigen (akustischen) Output des Sprachproduktionssystems.

Die Planung phonetischer Ziele in einer abstrakten, aufgabenspezifisch definierten Ebene (task space) erlaubt ein hohes Maß an Flexibilität. Da sich die Spezifikation nicht auf bestimmte Muskel- oder Artikulatorengruppen beschränkt, sondern aufgabenspezifisch erfolgt, weist die so definierte Planungsebene eine geringere Anzahl an Freiheitsgraden auf als die mit den Artikulatoren assoziierte Ebene (effector [articulator] space). Somit können unendlich viele Kombinationen der Positionen der beteiligten Artikulatoren zum gewünschten Ziel auf der Ebene der zentral definierten Engebildungen (im task space) führen. Auf diese Weise wird auch eine hierarchisch angeordnete, modular aufgebaute Kontrollstruktur implementierbar, bei der sich die höheren Ebenen nicht um die Details der niedrigeren Ebenen kümmern müssen.

In Abgrenzung zu Saltzman und Munhall geht Guenther (1995b) noch einen Schritt weiter und behauptet, daß auch eine Planung in Form von Konstriktionen im Ansatzrohr überspezifiziert wäre. Genau wie bei einer Spezifikation auf der Ebene der beteiligten Artikulatoren könne somit eine maximale Flexibilität nicht gewährleistet werden. Dies wäre nur der Fall, wenn die Planung phonetischer Ziele in Form akustischer Spezifikationen erfolgen würde, so daß die besagten Engebildungen durchaus an verschiedenen Stellen im Ansatzrohr flexibel kombiniert werden könnten, um den gewünschten akustischen Output zu erzeugen3.

Ein Hauptziel unseres Projekts wird darin bestehen, die empirische Grundlage für diese Annahme kritisch zu überprüfen. Nachdem wir dieses Ziel einleitend als Hintergrund unserer Fragestellung vorgestellt haben, sollen sich daran die weiteren Ausführungen zum Stand der Forschung und speziell zum Thema der kompensatorischen Artikulation orientieren.

1.2 Kompensatorische Artikulation

Kompensatorische Artikulationsmechanismen während der Produktion lautsprachlicher Äußerungen werden in der Regel in Perturbationsexperimenten verschiedenster Ausprägung untersucht.

1.1 Beißblock-Experimente

Untersuchungen, in welchen mittels eines Beißblocks eine konstante Kieferöffnung erzwungen wurde, zeigen, daß Sprecher bei der Produktion z.B. hoher Vokale selbst so ungewöhnlich große Kieferöffnung erfolgreich kompensieren können (Lindblom, Lubker & Gay, 1979). Die Kompensation findet dabei so schnell statt, daß auditorisches Feedback vermutlich keine Rolle spielt (für eine weitere Diskussion der afferenten Steuerung der Kompensationsleistung, s. Perkell (in press), Hoole (1987)).

1.2.2. Dynamische Perturbationsexperimente

Im Gegensatz zu den statischen Beißblockexperimenten wird bei den dynamischen Pertubationsexperimenten eine plötzliche Störung induziert, meist in Form einer computergesteuerten Zugkraft, die am Unterkiefer ansetzt. Im Mittelpunkt des Interesses steht bei diesen experimentellen Arbeiten der zeitliche Ablauf des Kompensationsverhaltens.

Eines der wichtigsten Ergebnisse aus diesem Forschungsbereich liegt jedoch weniger in Erkenntnissen, die über das zeitliche Verhalten der Artikulatoren per se gewonnen wurden, sondern in der Beobachtung, daß die Kompensation eine flexible Reaktion auf die Perturbation darstellt: Kelso et al. (1984) fanden, daß die spezifische Art der Kompensation vom perturbierten Laut abhing.

Zu diesen beiden Kategorien von Perturbationsexperimenten könnte selbstverständlich noch sehr viel mehr gesagt werden; wichtig für unsere Zwecke ist vor allem die ihnen gemeinsam zugrundeliegende Annahme: Obwohl die experimentell induzierten Perturbationen unnatürlich sind, sollen mit ihrer Hilfe Produktionsmechanismen aufgedeckt werden, die auch beim natürlichen Sprechvorgang zum Einsatz kommen. Mit anderen Worten, man nimmt an, daß Sprecher ein kompensatorisch ausgerichtetes Steuerungssystem benötigen, da sie die gleichen phonetischen Ziele in für sie neuen oder ungewöhnlichen Situationen erreichen müssen. In beiden Sprachproduktionsmodellen, von Saltzman & Munhall (1989) sowie von Guenther (1995b), stellt die kompensatorische Artikulation als Form der intrasegmentalen Koordination ein grundsätzliches Designkriterium dar. Auf diesem Hintergrund wäre es daher wünschenswert, über die bereits genannten Perturbationsparadigmen hinauszugehen und die Kompensation als grundlegendes Kontrollprinzip auch in Äußerungen aufzudecken, in welchen die Artikulatoren keinerlei künstlicher Pertubation ausgesetzt werden. Zu diesem Punkt gibt es einige interessante Ansätze in der Literatur, die zum Teil auch den Ausgangspunkt für unsere eigenen Untersuchungen bilden sollen.

1.2.3 Mehrfache Wiederholung der gleichen Äußerung

Hughes & Abbs (1976) untersuchten, in welchem Maße Oberlippe, Unterlippe und Kiefer zusammenwirken, d.h. komplementär variieren, um einen bestimmten, phonetisch adäquaten Grad der Lippenöffnung für die Produktion verschiedener Vokale zu erzielen. Sollte die Variabilität der Lippenöffnung (also des phonetischen Ziels) über viele Wiederholungen der gleichen Äußerung geringer ausfallen, als die Variabilität der beteiligten Artikulatoren jeweils für sich betrachtet, so würde dies nach Meinung der Autoren zeigen, daß beim Sprechen das allgemeine Prinzip der motorischen Äquivalenz wirksam ist. Die Ergebnisse haben einige Hinweise dafür geliefert, daß dies in der Tat der Fall ist, d.h. daß ein konstantes Ziel mittels kompensatorischer Kovariation der daran beteiligten Sprechorgane flexibel erreicht wird. Allerdings tritt ein schwerwiegendes methodisches Problem auf, mit dem sich diese so wie viele Arbeiten im Bereich der dynamischen Perturbation konfrontiert sehen (vgl. Folkins & Brown, 1987, Sussman, 1980). Wir wollen darauf hier kurz eingehen, damit wir weiter unten noch einmal darauf zurückkommen können.

Untersucht man beispielsweise das Lippen-Kiefersystem in Hinblick auf eine potentielle komplementäre Kompensation zwischen den Positionen der Artikulatoren, so muß die intrinsische Bewegung der Unterlippe geschätzt werden. Eine solche Schätzung erhält man jedoch nur, indem man die beobachtete Kieferbewegung von der beobachteten Unterlippenbewegung subtrahiert. Speziell bei experimentellen Daten mit einem endlichen, nicht genau bekannten Meßfehler, kann ein solches Vorgehen dazu führen, das Ausmaß der komplementären Kovariation zu überschätzen, wie zuletzt in Hoole, 1996, diskutiert wurde.

1.2.4. Koartikulation als natürliche Pertubation

Auch Koartikulation selbst, also grob gesprochen die gegenseitige Beeinflussung benachbarter Laute, kann als ein Prozeß natürlicher Perturbation aufgefaßt werden. Somit könnte möglicherweise eine Verbindung hergestellt werden zwischen der kompensatorischen Artikulation einerseits und dem Phänomen andererseits, das annähernd einstimmig als hervorragendstes Merkmal der natürlich gesprochenen Sprache angesehen wird. Eines der beiden Experimente, die weiter unten vorgeschlagen werden, soll in diesem Bereich angesiedelt werden. Einzelheiten zu diesem Ansatz, der unserer Meinung nach unbedingt verfolgt werden muß, werden wir dann unter "Eigene Vorarbeiten" ausführlich erläutern. Im vorliegenden Abschnitt sollen noch kurz einige Anmerkungen zum allgemeinen theoretischen Hintergrund gemacht werden.

Edwards (1985) untersuchte Zungen- und Kieferbewegungen bei der Artikulation von /t/ in vokalischen Kontexten mit unterschiedlicher Kieferhöhe. Ihre Grundidee läßt sich wie folgt charakterisieren: Der Konsonant sollte den aus ungezählten Koartikulationsuntersuchungen bekannten Einfluß der umliegenden Vokale aufweisen, gleichzeitig würden jedoch die kompensatorischen Möglichkeiten des sprechmotorischen Systems eingesetzt werden, um diesen Einfluß innerhalb tolerierbarer Grenzen zu halten. Zum Beispiel könnte im Kontext von tiefen Vokalen - mit potentiell tieferer Kierferposition während der Konsonantproduktion - die intrinsische, kieferunabhängige Anhebung der Zunge verstärkt werden, um zu gewährleisten, daß ein vollständiger Verschluß für /t/ wirklich auch erreicht wird. Ein ähnliches Beispiel, jedoch bezogen auf die Vokalproduktion, findet sich in Wood 1991 (Diskussion in Guenther, 1995a): Wird /E/ in Verbindung mit /p/ artikuliert, wobei die Produktion des letzteren Lauts eine hohe Kieferposition erfordert, so wird die Zunge relativ zum Kiefer aktiv abgesenkt, um zu verhindern, daß die resultierende Position für /E/ in Richtung zu /I/ hin tendiert (Vokale in SAMPA-Notation).

Wenn wir sagen, daß kompensatorische Mechanismen die Variabilität innerhalb "tolerierbarer Grenzen" halten, so ist dies noch eine sehr vage Ausdrucksweise. Deshalb werden wir weiter unten darauf zurückkommen, warum eine wichtige Aufgabe zum besseren Verständnis des Sprachproduktionsprozesses genau darin besteht, zu klären, wie diese "tolerierbaren Grenzen" denn definiert werden können. Sind phonetische Ziele als idealtypische Punkte oder vielleicht besser als Regionen in einem mehrdimensionalen Raum definiert? In Bezug auf welche Planungsebene werden sie spezifiziert? Konkret sind wir der Meinung, daß eine Erweiterung des Ansatzes von Edwards, derart, daß die Zielkonsonanten in Hinblick auf den Artikulationsmodus variiert werden, sich als eine sehr fruchtbare Forschungsstrategie erweisen könnte.

1.2.5. Lautes Sprechen als natürliche Beißblock-Bedingung

Von Lindblom (1990, Näheres in Schulman, 1989) stammt die recht einfallsreiche Idee, lautes Sprechen als ein natürliches Gegenstück zu den eher artifiziellen Beißblockexperimenten zu betrachten und einzusetzen. Denn auch lautes Sprechen (wie z.B. beim natürlichen Lombardeffekt) zwingt den Sprecher gewissermaßen dazu, ungewöhnlich große Kieferöffnungen zu produzieren. Wir möchten diese Idee aufgreifen und sie als zweite Erweiterung des im letzten Abschnitt vorgestellten Paradigmas zur Anwendung bringen.

1.2.6 Motorische Äquivalenz - akustisch definiert

Perkell et al. (1993) untersuchen eine mögliche kompensatorische Beziehung zwischen Lippenrundung einerseits und Anhebung des Zungenrückens andererseits für die Produktion des Vokals /u/. Zwei verschiedene Motivationsgründe standen bei dem Experiment im Hintergrund: Erstens erlaubte die Untersuchung den oben diskutierten methodischen Problemen, die bei gekoppelten Artikulatoren auftreten, aus dem Wege zu gehen. Zweitens (und dies ist weitaus wichtiger) war hierdurch die Möglichkeit gegeben, festzustellen, inwieweit die phonetische Planungsebene in Form kritischer Engebildungen definiert werden sollte (multiple articulators contribute to a common constriction), oder, ob darüber hinaus (im Sinne von Guenther um eine Stufe flexibler) auf der Ebene des akustischen Outputs (multiple constrictions contribute to a common formant structure). Mit äußerster Vorsicht genossen zeigen die Ergebnisse eine ganz schwache Tendenz im Sinne der "akustischen" Hypothese: Die meisten Sprecher zeigten eine negative Korrelation zwischen der Ausprägung der Lippenrundung und der Anhebung des Zungenrückens für die Produktion von /u/. Es gab jedoch keinen einzigen Fall einer wirklich hohen negativen Korrelation. Perkell et al. führen selbst einige Gründe dafür an, weshalb die Ergebnisse nicht eindeutig ausfallen. Abgesehen von einigen Details bezüglich der artikulatorischen Datenerfassung, auf die wir bei der Erläuterung der eigenen experimentellen Planung zurückkommen werden, argumentierten sie im wesentlichen, daß der Vokal /u/ im Amerikanisch-Englischen für die Zwecke des Experiments nicht gut geeignet sei. Denn dieses /u/ befindet sich im nicht sehr dicht besiedelten Gebiet des englischen Vokalraums. Die Artikulation könnte daher relativ großzügig variieren, ohne der Gefahr potentieller Verwechslungen ausgesetzt zu sein, und so könnten kompensatorische Mechanismen ganz einfach überflüssig werden. Darüberhinaus könnte die Diphthongisierung der langen englischen Vokale dazu führen, daß stabile Muster der komplementären Kovariation zwischen Artikulatoren ohnehin kaum zu erwarten sind, falls die Analyse zu einem ausgewählten Zeitpunkt im Vokal vorgenommen wird.

Das Fazit: Es wäre wichtig, Perkell et al.'s Experiment mit deutschem Material zu wiederholen. Da das Deutsche zusätzlich vordere gerundete Vokale besitzt, ist das deutsche /u/ in ein dichter belegtes Vokalsystem eingebettet. Auch die fehlende Diphthongisierung dürfte für die Analyse von Vorteil sein. Greifen wir abschließend die eingangs zitierten Anmerkungen von Guenther auf, um den Stellenwert eines solchen Experiments zu untermauern. Er schreibt (1995b, p.96): "it makes great sense for the speech production system to utilize an acoustic-like space for target specification and movement planning rather than a constriction space or an articulator space, and experimental evidence that human production systems indeed use such a frame is starting to accumulate".

Mit "starting to accumulate" dürfte die Ergiebigkeit der gegenwärtigen empirischen Lage jedoch stark überbewertet sein. Mit Ausnahme des Experiments von Perkell et al., das - wie wir gesehen haben - noch weit davon entfernt ist, solch weitreichende Schlußfolgerung zu fundieren, ist die von Guenther angeführte Evidenz eher anekdotischer Natur.

Bevor wir ausgehend von unseren eigenen Vorarbeiten zu einer detaillierteren Motivation der vorgeschlagenen Experimente kommen, möchten wir diesen selektiven Überblick über den aktuellen Forschungsstand mit einer Diskussion der nicht nur für unsere Fragestellung sehr relevanten Arbeiten von Maeda abschließen.

1.2.7 Maedas faktorenanalytischer Ansatz

Maeda (1990, 1991) beobachtete komplementäre Kovariation zwischen Kiefer und Zungenrücken bei der Vokalartikulation in einer cineradiographischen Analyse französischen Satzmaterials. Unabhängig voneinander betrachtet, zeigten die beiden Vokale /a/ und /i/ ein (überraschend) hohes Maß an positioneller Überlappung der Artikulatoren, ganz besonders in Hinblick auf den Kiefer. In einer durch die beiden Artikulatoren definierten zweidimensionalen Verteilung waren die beiden Vokale jedoch klar voneinander getrennt.

Maedas Ansatz basiert auf einem statistischen Verfahren (einer speziellen Form der Faktorenanalyse), durch das aus den cineradiographischen Rohdaten sogenannte Hauptartikulatoren (elementary articulators) extrahiert werden wie beispielsweise "Kieferposition" (jaw position), "Zungenrückenposition" (tongue dorsum position) oder "Form des Zungenrückens" (tongue dorsum shape). Es ist keineswegs von vornherein zu erwarten, daß aus einer solchen rein statistischen Analyse gerade diejenigen artikulatorischen Parameter gewonnen werden können, die sich dann auch für das kompensatorische Artikulationsverhalten als relevant erweisen. Tatsächlich aber stellt sich heraus, daß die Parameter "Kieferposition" und "Zungenrückenposition" für vordere Vokale sich in sehr ähnlicher Weise auf die Engebildung im Vokaltrakt auswirken.

Desweiteren zeigte Maeda, daß sich die beiden Parameter auch in ihren akustischen Auswirkungen gleichen und daß die empirisch erhobene Steigung der Regressionsgeraden zwischen den beiden Parametern genau an diejenige Steigung herankommt, die akustisch äquivalentes Verhalten erfaßt. Die Grundidee ist dem ursprünglichen Ansatz von Hughes & Abbs (1976) zur motorischen Äquivalenz sehr ähnlich. Der entscheidende Unterschied ist jedoch, daß Äquivalenz hier auf der akustischen Ebene definiert wird.

Sollen wir aus diesen Ergebnissen nun die Schlußfolgerung ableiten, daß die akustische Ebene die maßgebliche Planungsebene für lautsprachliche Äußerungen darstellt? Nicht unbedingt, denn weitere Ergebnisse von Maeda & Honda (1994) weisen darauf hin, daß es letztendlich eine zu starke Vereinfachung sein könnte, eine definitive Entscheidung allein zugunsten einer der beiden Ebenen, also derjenigen der festgelegten Konstriktionen oder der akustischen, herbeiführen zu wollen. Hier stehen zunächst zwei statistisch definierte artikulatorische Parameter in einer einfachen Beziehungen zueinander, sowohl in Hinblick auf die Konstriktionsbildung als auch in Hinblick auf das akustische Ergebnis. Doch haben Maeda & Honda auch elektromyographische Aufzeichnungen der Zungenmuskulatur bei der Vokalartikulation herangezogen. Während es für die Zunge auf den ersten Blick besonders kennzeichnend zu sein scheint, daß keine für die Gliedmaßenmotorik typischen Agonist-Antagonist Muskelpaare vorliegen, zeigen die Ergebnisse der EMG-Analyse jedoch, daß es sehr wohl möglich sein könnte, zwei solche Paare funktionell zu definieren, und zwar einerseits Hyoglossus vs. Genioglossus posterior sowie Styloglossus vs. Genio-glossus anterior andererseits. Diese zwei physiologisch definierten Achsen standen in einer einfachen Beziehung zu jeweils einem Parameter des Maeda'schen Artikulationsmodells, nämlich Zungenrückenposition bzw. Zungenrückenform. Trägt man die Vokale in den durch diese zwei physiologischen Parameter definierten Raum ein, zeigt sich darüberhinaus eine frappierende Ähnlichkeit mit dem traditionellen F1/F2 Vokalraum. Die Autoren fassen zusammen: "What strikes us is the simplicity of the mappings from the muscle activities to vocal-tract configurations and to the formant patterns. We speculate that the brain optimally exploits the morphology of the vocal tract and the kinematic functions of the tongue muscles so that the mappings from muscle activities (production) to the acoustic patterns (perception) are simple and robust" (Maeda & Honda, 1994, S.17).

Solch einfache Abbildungen dürfen nicht überbewertet werden. Denn sie könnten auch ein Hinweis darauf sein, daß die oben genannte, klare Entscheidung zugunsten einer bestimmten Planungsebene letzten Endes auf eine wenig fruchtbare 'Henne-oder-Ei'-Entscheidung hinausläuft, sind doch auch die hier relevanten Ebenen erstens in der Morphologie des Vokaltrakts und zweitens im Prozeß des Spracherwerbs engstens miteinander verknüpft.

Wie dem auch sei: Die beobachtbaren, relativ einfachen Beziehungen haben Maeda dazu inspiriert, in Hinblick auf die kognitive Repräsentation kompensatorischen Verhaltens zu spekulieren, daß derartige Artikulationsmuster für den Sprecher leicht erlernbar wären. Somit könnten sie im Voraus geplant werden und müßten daher als feedforward- und nicht als feedback-Prozeß charakterisiert werden.

Diese Feststellung hat methodische Implikationen, die wir bei unserer experimentellen Planung berücksichtigen möchten: Die im vorliegenden Abschnitt zuerst behandelten Untersuchungen von Hughes & Abbs (1976), Edwards (1985), Perkell et al. (1993) sowie die unter eigenen Vorarbeiten erörterte Arbeit von Kühnert et al. (1991) verwendeten im Gegensatz zu Maeda (1990) sehr einfaches, oft stark repetitives Sprachmaterial (aus dem durchaus verständlichen Bemühen heraus, ein klares experimentelles Design zu gewährleisten). Im großen und ganzen waren die Ergebnisse nicht besonders eindeutig. Es ist jedoch durchaus denkbar, daß bei einfachem Wortmaterial Sprecher sehr gut in der Lage sind, derart vorauszuplanen, daß sie ihre Artikulatoren einfach sehr präzise positionieren; kompensatorische Muster müßten gar nicht erst ins Spiel gebracht werden. Möglicherweise kommen sie erst dann zum Tragen, wenn Laute in vielfältigen phonetischen Kontexten produziert werden.

Auf alle Fälle aber kann man zum Abschluß des Abschnitts Maeda wohl beipflichten, wenn er schreibt: "a much larger body of articulatory data is required to confirm compensatory articulation for vowels" (Maeda, 1991, S.330)

2 Eigene Vorarbeiten

Die eigenen Vorarbeiten sollen unter zwei Gesichtspunkten diskutiert werden. Es handelt sich erstens um Untersuchungen, deren Ergebnisse für die im Projekt zu behandelnden Fragestellungen unmittelbar relevant sind, zweitens - und zwar deutlich knapper - um rein methodische Entwicklungsarbeiten, die für unser Vorhaben relevant sind.

2.1 Experimentelle Ergebnisse

2.1.1 Tongue-jaw interactions in lingual consonants (Kühnert et al., 1991)

Es war das Ziel dieses Experiments, das die Koordination von Kiefer und Zunge zum Gegenstand hatte, die bereits diskutierte Arbeit von Edwards (1985) zur Koartikulation als natürliche Form der Perturbation mit erweitertem Material fortzuführen. Wir möchten an dieser Stelle nicht nur über die für unser Vorhaben aufschlußreichsten Ergebnisse berichten, sondern auch über einige methodisch bedingte Unzulänglichkeiten. Denn wir glauben, daß diese Unzulänglichkeiten durch neue methodische Maßnahmen jetzt überwunden werden können. Somit bietet es sich geradezu an, dieses vielversprechende Paradigma erneut aufzugreifen.

Im Unterschied zu Edwards ursprünglichem Experiment, in dem nur der Konsonant /t/ untersucht wurde, haben wir alle alveolaren Konsonanten des Deutschen untersucht. Als erstes sehr konsistentes Ergebnis der Studie konnten wir eine systematische Abstufung der durch die verschiedenen Vokalkontexte bedingten Variabilität der untersuchten Konsonanten beobachten (in der Folge: s<t<d<n<l; vgl. auch Hoole et al., 1990). Dies ist zunächst ein einfaches Ergebnis. Doch es gewinnt einen ganz neuen Stellenwert, wenn wir darüber nachdenken, welche Relevanz es für unseren Zusammenhang hat, also für die Frage nach der Zielspezifikation von Sprachlauten. Reicht es aus, die gefundene Abstufung einfach in der Form idealtypischer Punkte zu definieren oder muß man sie vielmehr als Regionen in einem mehrdimensionalen Raum kennzeichnen?4

Wir müssen noch darauf eingehen, daß unser Sprachmaterial, bei dem die Konsonanten eben auch in Hinblick auf den Artikulationsmodus variieren, gerade deswegen mögliche Erkärungen auf der Ebene der mentalen Repräsentation erlaubt. Es ist nämlich sehr unwahrscheinlich, daß die Variabilitätsunterschiede durch einfache biomechanische low-level-Effekte zu erklären sind (während dies bei Variabilitätsunterschieden bezüglich der Artikulationsstelle sehr wohl denkbar ist), und wohl auch nicht durch relative mechanische Unterschiede im Grad der gesturalen Überlappung (hier sei an das etwas ältere Konzept der "coarticulatory resistance" von Bladon, 1979, erinnert). Es steht also außer Frage, daß erst ein vollständiges Modell der Sprachproduktion, das sich auch um eine Erfassung der mentalen Repräsentation der phonetischen Ziele bemüht, in der Lage sein muß, solche Effekte zu klären.

Wir kommen auf diese Frage noch einmal zurück, nachdem weitere Ergebnisse unseres Experiments vorgestellt wurden - und zwar die Ergebnisse zum eigentlichen Thema, d.h. dem Ausmaß komplementärer Kovariation zwischen Kiefer und Zunge bei der Bildung alveolarer Konsonanten. Kovariationsmuster waren in den Daten in der Tat zu beobachten, jedoch waren sie über die (nur) drei Sprecher hinweg betrachtet nicht sehr einheitlich. Vor allem einer der Sprecher zeigte eine sehr interessante Ausprägung der Kovariationsmuster: Reziproke Einstellungen der Kieferposition und der intrinsischen Zungenposition waren am deutlichsten bei den Lauten mit der geringsten Gesamtvariabilität der Zunge - insbesondere bei /s/. Darüberhinaus waren diese Variabilitätsmuster im Bereich des Zungenblattes am stärksten ausgeprägt, d.h in demjenigen Bereich der Zunge, der am aktivsten an der Bildung der Hauptkonstriktion beteiligt ist.

Wie läßt sich erklären, daß Laute mit sehr ähnlicher Artikulationsstelle unterschiedlich starke Variabilitätsmuster zeigen? Und wie läßt sich erklären, daß in denjenigen Fällen, in denen sich eine komplementäre Kovariation beobachten läßt, diese selektiv eingesetzt wird sowohl in Hinblick auf den Sprachlaut als auch in Hinblick auf den Artikulator? Die naheliegendste Antwort wäre, daß Laute sich in Hinblick auf die Variabilität, die sie tolerieren können, unterscheiden, bevor ihre wesentlichen akustischen Merkmale zu stark beeinträchtigt werden, und es mithin zu einem Verlust der phonemischen Identität kommt. Dies ist aber eigentlich nur eine Hypothese, die noch nicht überprüft worden ist, aber dringend überprüft werden sollte.

Diese Argumentation spricht nämlich mehr oder weniger zugunsten der akustischen Ebene als relevante Planungsebene. Dementsprechend ist gegenwärtig nicht klar, inwieweit solche Regularitäten im Task-Dynamics Modell von Saltzman & Munhall (1988) erfaßt werden können - außer ggf. durch ad-hoc Mechanismen. Im Modell von Guenther (1995a,b) sind diese Effekte zweifellos recht leicht zu behandeln, weil der Erwerbsprozeß in das Modell explizit integriert ist: während einer Lallphase (babbling phase) werden explizite Beziehungen zwischen Produktion (babbling), Akustik und Perzeption aufgebaut, die es wiederum erlauben, Repräsentationen der tolerierbaren Variabilität zu generieren.

Die Überprüfung der akustischen Erklärung der artikulatorischen Variabilität könnte erstens dadurch geschehen, daß die akustischen Auswirkungen der beobachteten artikulatorischen Variation untersucht werden, und zweitens, indem ergänzend akustische Modelle der Sprachproduktion herangezogen werden. Im Rahmen unseres Pilotexperiments konnte das nicht näher untersucht werden. Deshalb soll dies in den unten vorgeschlagenen umfangreicheren neuen Experimenten explizit thematisiert werden.

Die Tatsache, daß sich bei einem unserer drei Sprecher sehr klare Kovariationsmuster bei der Sprachproduktion zeigten, während bei einem anderen die beteiligten Artikulatoren alle sehr präzise positioniert wurden (was dann eben eine nur sehr schwache Kovariation ergibt), führt auf einen Punkt, der zwar banal scheint, dem aber doch für die weitere Forschung entscheidende Bedeutung zukommt: Bei allen bisherigen Untersuchungen war die Zahl der untersuchten Versuchspersonen viel zu klein. Allein aus diesem Grund ist es nicht möglich, zu einer ausgewogenen Einordung des Stellenwerts der kompensatorischen Artikulation in der Sprachproduktion zu kommen. Auf der einen Seite spielt die Kompensation eine zentrale Rolle in Modellen der Sprachproduktion, auf der anderen Seite ist sie in empirischen Untersuchungen nur sporadisch zu beobachten. Es besteht also immer noch die Möglichkeit, daß ihre Rolle weniger zentral ist, als bisher angenommen. Vielleicht kommt ihr lediglich der Status einer spezifischen Produktionsstrategie zu, die nicht bei allen Sprechern und nicht bei allen Lautkategorien eingesetzt wird.

Um die Lage differenzierter beurteilen zu können, muß erstens die Anzahl der Sprecher deutlich erhöht werden; zweitens sollte (wie oben bei der Besprechung der Arbeit von Maeda schon angedeutet) aber auch die Art der untersuchten Korpora entscheidend erweitert werden.

Am Ende dieses Abschnitts soll auf die im IPSK seit dem Pilotexperiment durchgeführten methodischen Entwicklungsarbeiten eingegangen werden, die es jetzt erlauben, das experimantelle Paradigma unter wesentlich verbesserten Bedingungen erneut aufzugreifen.

a) In unserem Pilotexperiment wurde die Kieferposition lediglich anhand eines einzelnen Sensors registriert. Auf dieser Basis ist es nicht möglich, die Translations- und Rotationskomponenten der Kieferbewegung auseinanderzudividieren. Eine wirklich zuverlässige Schätzung der intrinsischen Zungenbewegung (die durch Abzug des kieferbedingten Anteils von der Gesamtbewegung der Zunge erhalten wird), ist auf diese Weise nicht möglich. In der Zwischenzeit haben wir das artikulographische Meßsystem derart erweitert, daß eine vollständigere Erfassung der Kieferbewegung ohne weiteres möglich ist. Darüberhinaus können wir von unserer Kooperatiom mit dem ATR-Sprachproduktionslabor (Dr. E. Vatikiotis-Bateson) profitieren, das in den letzten Jahren große Erfahrung in der Analyse von Kieferbewegungen gesammelt hat (vgl. Ostry & Bateson, 1994).

b) Das statistische Problem bei der Analyse anatomisch gekoppelter Artikulatoren in Hinblick auf Kovariationsmuster wurde in Hoole (1996a) ausführlich analysiert. Auf dieser Grundlage wird es jetzt möglich, bei sorgfältiger Durchführung der Experimente (und dank der in den letzten Jahren erfolgten Hardware- und Softwareverbesserungen beim artikulographischen System) das Problem in den Griff zu bekommen.

2.1.2 Tongue-jaw coordination in German vowel production (Hoole & Kühnert, 1996)

Im Rahmen eines zur Zeit noch laufenden DFG-Projekts zur Vokalartikulation im Deutschen haben wir vor kurzem Ergebnisse vorgelegt, die die theoretischen Hintergründe des hier vorgestellten Projekts unmittelbar berühren. Die Untersuchung befaßt sich mit einer Analyse der Zungen- und Kieferartikulation, jedoch nicht unter dem Gesichtspunkt möglicher kompensatorischer Mechanismen, sondern in Hinblick darauf, welche Hinweise sprecherspezifische Artikulationsmuster über die sogenannte Planungsebene liefern. Eine einflußreiche Untersuchungsreihe zu diesem Thema wurde von der UCLA-Forschungsgruppe um P. Ladefoged durchgeführt. Wie bereits in der klassischen cineradiographischen Untersuchung von Ladefoged et al. (1972) erörtert und in der vor kurzem erschienenen microbeam-Studie von Johnson et al. (1993) noch einmal bekräftigt, argumentiert diese Gruppe, daß die Art und das Ausmaß sprecherspezifischer Unterschiede in der Zungen-Kieferkoordination bei der Vokalproduktion für eine auditorisch-akustische und nicht für eine artikulatorische Repräsentation phonetischer Ziele sprechen.

Dies läßt sich am deutlichsten an der Realisierung des Unterschieds zwischen gespannten und ungespannten Vokalen aufzeigen: die Sprecher unterscheiden sich ganz erheblich im Hinblick darauf, welche Beteiligung dem Kiefer an der Realisierung einer tieferen Zungenposition für die ungespannten Vokale zukommt. Trotz tieferer Zungenposition werden gelegentlich sogar Fälle einer höheren Kieferposition beim ungespannten Mitglied eines Vokalpaares gefunden. In unserer Untersuchung, die aus methodischer Sicht der Studie von Johnson et al. recht ähnlich ist, kommen wir jedoch zu einer etwas anderen Schlußfolgerung. Einerseits fanden auch wir deutliche Unterschiede zwischen unseren Versuchspersonen bezüglich der Kieferbeteiligung an der Opposition gespannt-ungespannt. Nichtdestotrotz konnten wir jedoch zeigen, daß diese Variabilität sich in sehr konsistente artikulatorische Muster einfügte, wenn man das Vokalsystem als Ganzes betrachtete. Die relative Beteiligung des Kiefers an Zungenhöhenunterschieden war für alle Sprecher am größten für die Opposition "Vokalhöhe" (z.B /i/ vs. /e/) und am schwächsten für die Rundungsopposition (z.B /i/ vs. /y/).5

Die Gespanntheitsopposition hingegen bewegte sich zwischen den beiden Extremen. Auch waren die sehr frappierenden Beispiele von Johnson et al. (wie höhere Kieferposition bei ungespanntem Vokal) in unseren Daten einfach nicht vorhanden. Unserer Meinung nach können vor allem zwei Faktoren zu dem artikulatorisch konsistenteren Muster im deutschen Material geführt haben: erstens der im Gegensatz zum Englischen dichter belegte Vokalraum im Bereich der vorderen Vokale durch das Hinzukommen der Opposition gerundet-ungerundet; zweitens könnte es sich bei der Suche nach konsistenten Mustern der Zungenkieferkoordination im amerikanischen Englisch einfach nur um die Suche nach Konsistenz 'an der falschen Stelle' handeln. Wie bereits erwähnt, sind lange ("gespannte") englische Vokale häufig diphthongisiert. Für den Sprecher des Englischen ist es vermutlich wichtiger, die adequate Diphthongbewegung konsistent auszuführen als eine konsistente Beziehung zwischen Kiefer- und Zungenposition zu einem ausgewählten Zeitpunkt im Vokal zu erreichen.

Unser Fazit ist wiederum vor allem ein warnendes: Die Annahme, daß die phonetische Planungsebene des Sprachproduktionsprozesses auditorisch-akustisch zu definieren ist, könnte sich langfristig durchaus als richtig erweisen. Zum gegenwärtigen Zeitpunkt ist die empirische Lage jedoch noch ausgesprochen dünn; und von den relevanten experimentellen Ergebnissen, die derzeit vorliegen, ist deren Interpretierbarkeit oft nicht eindeutig geklärt.

2.2 Methodologische Vorarbeiten

2.2.1 Entwicklung der artikulographischen Meßmethode

Im beantragten Projekt soll die Methode der elektromagnetischen Artikulographie eingesetzt werden, um die Bewegungen von Zunge, Lippen und Kiefer zu messen. In unserem Institut können wir inzwischen auf eine langjährige Erfahrung mit dieser Meßmethode zurückblicken, und meine Mitarbeiter haben sich während dieses Zeitraums intensiv darum bemüht, die Reliabilität und Genauigkeit des Verfahrens zu erhöhen (vgl. Hoole, 1993, 1996b, Hoole & Nguyen, in press).

2.2.2 Pilotexperiment zur motorischen Äquivalenz bei /u/

Im Rahmen des zur Zeit durchgeführten DFG-Projekts zum Vokalsystem des Deutschen ist eine Pilotaufnahme geplant, die das oben diskutierte Experiment von Perkell et al. (1993) ins Deutsche überträgt, unter Berücksichtigung der methodischen Probleme, die die Autoren bei ihrem eigenen Experiment nachträglich feststellen mußten. So stellte sich für Perkell et al heraus, daß die Interpretierbarkeit elektromagnetischer Aufnahmen der Lippen problematisch sein können, wenn synchrone Videofilme der Lippen nicht vorliegen. (Die notwendige Hardware und Software, um Videofilme mit elektromagnetischen Aufnahmen genau synchronisieren zu können, haben wir in unserem Labor bereits implementiert.) Darüberhinaus wollen wir versuchen, den Informationsgehalt der elektromagnetischen Aufnahmen der Lippen zu steigern, indem wir jeweils 2 Sensoren an Ober- und Unterlippe befestigen. Auf alle Fälle wäre bis zum Anfang des beantragten Projekts die Basis geschaffen, um mit der oben begründeten umfangreichen Überprüfung ihrer Ergebnisse an deutschem Material unter methodisch guten Voraussetzungen zu beginnen.

2.2.3 Automatisches Segmentieren großer Datenmengen

Unter den eigenen Vorarbeiten sei speziell zum Stichwort der technischen Entwicklungsarbeiten noch das im IPSK entwickelte automatische Segmentations- und Ettiketierungsprogramm MAUS6 genannt, das auf akustische Sprachsignale angewendet werden kann, bei denen der orthographische Text der Äußerung vorliegt. Dieser wird in eine phonematisch explizite kanonische Form übersetzt, die dann am gegebenen Signal überprüft, dabei im Hinblick auf die tatsächlich realisierte Lautform korrigiert und in eine enge phonetische Transkription überführt wird. Das im Rahmen des Verbmobil-Projekts entwickelte MAUS-System, das inzwischen sogar bei Spontansprache ausgezeichnete Ergebnisse liefert, soll eingesetzt werden, um relativ große Datenmengen bewältigen zu können. Mit dem akustischen Sprachsignal werden dann ja zugleich auch alle damit synchronisierten artikulatorischen EMA-Zeitfunktionen segmentiert und ihren lautlichen Kategorien zugeordnet.

2.2.4 Dreidimensionale Artikulographie

Wir rechnen damit, daß in etwa zwei Jahren das von Andreas Zierdt am IPSK entwickelte Verfahren zur dreidimensionalen Artikulographie auch für Fragestellungen des vorliegenden Vorhabens eingesetzt werden kann (vgl. Tillmann et al., 1996)

Publications

Hoole P. (1987). "Bite-block speech in the absence of oral sensibility". Proc. 11th Int. Cong. Phonetic Sciences, 4, 16-19.

Hoole, P., Gfroerer, S. & Tillmann, H.G. (1990). "Electromagnetic articulography as a tool in the study of lingual coarticulation". Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation, Munich, 28: 107-122.

Kühnert, B., Ledl, C., Hoole, P. & Tillmann, H.G. (1991). "Tongue-jaw interactions in lingual consonants". PERILUS 14, 21-25.

Hoole, P. & Nguyen-Trong, N. (1992) "Reduction and parameterization of electropalatographic and electromagnetic data for the investigation of articulatory-acoustic correlations". FIPKM 30:37-64.

Hoole, P.; Nguyen-Trong, N. & Hardcastle, W. (1993) "A comparative investigation of coarticulation in fricatives: electropalatographic, elctromagnetic and acoustic data". Language and Speech, 36:235-260.

Hoole, P. (1993). "Methodological considerations in the use of electromagnetic articulography in phonetic research". FIPKM 31: 43-64.

Nguyen-Trong, N.; Hoole, P. & Marchal, A. (1994) "Regenerating the spectral shapes of [s] and [S] from a limited set of articulatory parameters". J. Acoustical Soc. America, 96:33-39.

Hoole, P., Mooshammer, C. & Tillmann, H.G. (1994) "Kinematic analysis of vowel production in German". Proc. ICSLP 94, Yokohama, 1:53-56.

Mooshammer, C., Hoole, P. & Kühnert, B. (1995). "On loops". J. Phonetics, 23: 3-21.

Hoole, P. & Kühnert, B. (1995) "Patterns of lingual variability in German vowel production", Proceedings XIIIth Int. Conf. Phon. Sci., Stockholm, 2:442-445.

Kroos, C. (1995) "Gezielte Veränderung der Sprechgeschwindigkeit und deren Auswirkung auf die Vokaldauer". Zwischenbericht DFG-Projekt zum Vokalsystem des Deutschen

Hoole, P. (1996a). "Theoretische und methodische Grundlagen der Artikulationsanalyse in der experimentellen Phonetik", FIPKM, 34, 3-156.

Hoole, P. (1996b). "Issues in the acquisition, processing, reduction and parameterization of articulographic data", FIPKM, 34, 158-173.

Hoole, P. & Nguyen, N. "Electromagnetic articulography in coarticulation research". In: W.H Hardcastle and N. Hewlett (eds.), Instrumental Studies of Coarticulation. Cambridge University Press (in press).

Hoole, P. & Kühnert, B. (1996) "Tongue-jaw coordination in German vowel production". Proceedings of the ESCA workshop on Speech Production Modelling, Autrans, 1996, pp. 97-100

Tillmann, H.-G., Zierdt, A. & Hoole, P. (1996) "Towards a three-dimensional articulographic system". JASA, 100: 2662

Wesenick M.-B.(1996) "Automatic Generation of German Pronunciation Variants". Proceedings of the ICSLP 1996. Philadelphia, pp. 125-128,

Kipp, A., Wesenick M.-B. & Schiel, F. (1996) "Automatic Detection and Segmentation of Pronunciation Variants in German Speech Corpora". Proceedings of the ICSLP 1996. Philadelphia, pp. 106-109

 


IPSK, LMU Munich
RESEARCH PROGRAM (only in German)
STAFF
PUBLICATIONS
Links