PIASS - ein Programm zur interaktiven Analyse von Sprachsignalen
38. Kongreß der Deutschen Gesellschaft für Psychologie 1992 in Trier
Bente, Gary
1. Problemstellung
Die Bedeutung, die zeitstrukturellen Aspekten des Sprechverhaltens (Sprechtempo, Beschleunigung, Pausendauer) für das Verstehen und die Interpretation verbaler Botschaften zukommt, wird in der Literatur immer wieder hervorgehoben (Krüger, 1989). Gleichzeitig werden jedoch auch die verfügbaren methodischen Lösungen problematisiert, die einer detailgenauen und zuverlässigen Analyse dieser Merkmale bisher enge Grenzen setzten. Die zeitliche Segmentierung von Sprachsignalen, d.h. die Registrierung und das Vermessen von Pausen, Phrasen, Worten, Silben oder gar einzelnen Lauten sowie die zuverlässige Übertragung der sprachlichen Zeitstruktur in Rohdatenprotokolle blieb bis in die neuere Zeit trotz enormer Fortschritte im Bereich der elektronischen Aufzeichnungs- und Meßverfahren ein Forschungsproblem ersten Ranges.
Die hier vorgestellte methodische Entwicklung nimmt Bezug auf diese Problemstellung. Sie zielt ab auf die Bereitstellung eines flexiblen computergestützten Analysesystems, das es erlaubt, Sprachsignale mit hoher zeitlicher Auflösung zu vermessen und darüber hinaus experimentell in die Zeitstruktur des Sprechverhaltens einzugreifen. PIASS nutzt dabei eine als "Sequel-Analyse" bezeichnete Visualisierungstechnik, die bereits 1980 von Hirsbrunner eingeführt wurde. Ursprünglich zum Zweck der zeitlichen Integration von Bewegungs- und Sprachprotokollen konzipiert (Frey et a. 1983), hat dieses Verfahren in den letzten Jahren auch dazu beigetragen, bei der Untersuchung des Sprechverhaltens neue Horizonte zu erschließen. Abbildung 1 zeigt ein Ergebnisbeispiel (aus: Bente, Frey & Treeck, 1989).

In einer kulturvergleichenden Studie wurde mit Hilfe der Sequel-Analyse-Technik das Sprechverhalten von Nachrichtenmoderatoren aus Deutschland, Frankreich und den USA untersucht (Bente, Frey & Treeck, 1989). Es zeigten sich dabei signifikante interkulturelle Unterschiede sowohl in der zeitlichen Binnenstruktur von Sprechphasen als auch im Pausenverhalten. Interessanterweise bewegen sich diese Differenzen zum Teil in zeitlichen Größenordnungen, die bisher wenig empirische Beachtung fanden. Die Abbildung zeigt ein Ergebnisbeispiel aus dem Bereich des Pausenverhaltens. Dargestellt ist die Häufigkeitsverteilung von Sprechpausen unterschiedlicher Dauer. In einer Stichprobe von deutschen (N=4), französischen (N=4) und amerikanischen (N=5) Fernsehmoderatoren.
Wie die Grafik veranschaulicht, findet etwa 50% der Verhaltensvariation unterhalb der Schwelle von 250 msec statt, die in der Pausenforschung lange Zeit als "magische Grenze" galt. Gerade jenseits dieser Grenze traten in dieser Untersuchung auch die nationalen Unterschiede zutage. Wie ebenfalls deutlich wird, sind auch nahe der Meßauflösung von 40 msec, insbesondere bei den französischen und amerikanischen Sprechern noch beachtliche Auftretenshäufigkeiten zu verzeichnen. Nicht zuletzt aus dieser Beobachtung ergibt sich die Forderung nach einer weiteren Verbesserung der zeitlichen Meßauflösung.
2. Sequel-Analyse
Seit langem hat sich die Überzeugung durchgesetzt, daß es zur zeitlichen Vermessung von Sprachsignalen leistungsfähiger Visualisierungstechniken bedarf. Es zeigte sich allerdings sehr rasch, daß das wesentliche Problem nicht so sehr in der Sichtbarmachung des Sprachsignals liegt, sondern vielmehr in der Wahl einer informationshaltigen Visualisierungsform. Das Visualisierungsprinzip der Sequel-Analyse beruht auf der Beobachtung, daß jeder Laut aus einer Sequenz sich wiederholender Signale besteht. Das akkustische Erkennen unterschiedlicher Laute vollzieht sich demnach als Reaktion auf die Veränderung in der Periodizität des empfangenen Signals. Soll eine Visualisierung des Sprachsignals Ähnliches leisten, so muß sie also auf das Regelhafte im Signal, auf seine Periodizität, Bezug nehmen. Dies wird in der Sequel-Analyse dadurch erreicht, daß das Sprachsignal nicht mehr entlang der Zeitachse abgetragen wird, sondern in einem zweidimensionalen Koordinatensystem, wobei die Achsen die Höhe der ersten beiden Formantfrequenzen des Signals repräsentieren. Das Sprachsignal wird zu diesem Zweck mittels verschiedener Filter in beide Komponenten zerlegt, wobei eine 90°-Phasenverschiebung zwischen den Kanälen eintritt. Ähnlich dem Prinzip der Lissajou-Figuren werden die beiden Komponenten in einer X/Y-Darstellung auf einem Osziloskop visualisiert.
Das zeitliche Auflösungsvermögen der Sequel-Analyse-Technik fand in bisherigen Untersuchungen lediglich eine Limitierung durch das verwendete Aufzeichnungsverfahren. Zum Zweck der interaktiven Auswertung der visuellen Verlaufsmuster wurde nämlich die Sequeldarstellung zeitsynchron mit dem Originalton - z.T. auch mit der Videoaufnahme des Sprechers - auf Videoband festgehalten. Mit Hilfe spezieller Rekorder konnte dann anschließend die Sprache im Einzelbildschritt visualisiert und so Zerfall und Neuaufbau der Lautmuster Bild für Bild verfolgt werden. Bei einer Videobildfrequenz von 50 Bildern/Sekunde ergab sich damit ein zeitliches Auflösungsvermögen von 20 msec bzw. durch Restriktionen der Analyserekorder von 40 msec. Diese Limitierungen sollten durch PIASS mit Hilfe digitaler Aufbereitungstechniken überwunden werden. Angestrebt wurde dabei eine Meßgenauigkeit von 1/10000 Sekunde.
3. Sprachprozeßanalyse mit PIASS
PIASS ist eine Kombination aus Hardware und Software und wurde für den Einsatz auf kostengünstigen Rechnern der Typenreihe ATARI ST entwickelt. Als Hardwarekomponente wird ein Soundsampler-Modul der Firma GDATA eingesetzt. Diese AD/DA-Wandlereinheit wird am ROM-Port des Rechners betrieben und kann sowohl zur Aufzeichnung wie auch zur Wiedergabe des Sprechverhaltens eingesetzt werden. Die Wandlungstiefe des Moduls beträgt 8 bit, die Wandlungsrate ist variabel. Die Software kann auf die gewählte Wandlerrate angepaßt werden. Je nach Rechnertyp (Atari ST oder Atari TT) sind hier im Hinblick auf die spätere Wiedergabe Begrenzungen in Kauf zu nehmen. In eigenen Untersuchungen wird mit einer Wandlerrate von 20kHz gearbeitet, die auf allen Rechnertypen möglich ist. Die digitalen Sound-Samples können auch anderen 8bit-AD-Wandlern erstellt oder aus entsprechenden Binär-Dateien übernommen werden.
Empfehlenswert für den Einsatz des Systems ist ein Rechner der ST-Serie mit Bit-Blitter zur Grafikbeschleunigung und Festplatte, da die digitalisierten Sprechproben hohe Anforderungen an die Massenspeicherkapazität stellen (1 Minute Laufzeit entspricht 1.2Mb Plattenkapazität). Auch die Kernspeicherkapazität des Rechners sollte großzügig bemessen sein (4Mb), um das Einladen umfangreicherer Zeitstichproben zu ermöglichen. Allerdings können die Sprechproben auch segmentiert und nacheinander eingeladen werden. Für diesen Fall stellt das Progamm besondere Routinen bereit, um eine exakte Verknüpfung der Datenprotokolle in der Zeitachse sicherzustellen.
Die Software stellt eine grafische Benutzeroberfläche zur interaktiven Vermessung von Sprachsignalen bereit. Das Programm wurde zu großen Teilen in GFA-Basic geschrieben. Zeitkritische Aufgaben, wie akustische und grafische Ausgaben, werden von Maschinensprache-Modulen übernommen. Das Programm stellt dem Untersucher zur zeitlichen Gliederung des Sprechverhaltens drei verschiedene Rückmeldungen zur Verfügung: (1) die akkustische Wiedergabe der Sprechprobe, (2) eine visuelle Rückmeldung in Form einer Laufanzeige und (3) die Visualisierung des Sprachsignals nach dem Sequel-Verfahren (siehe Abbildung 2).
Jeweils eine der visuellen Rückmeldungen kann zeitsynchron zur akustischen Wiedergabe erfolgen. Die Zeigerdarstellung empfiehlt sich zur Grobstrukturanalyse (etwa Ausgrenzung eines Satzteils oder eines Wortes), die Sequel-Darstellung ermöglicht dann die hochauflösende Vermessung von Silbengrenzen, Lautgrenzen, Pausen etc.
Nach Markierung eines Zeitfensters innerhalb einer Verlaufsgrafik kann das jeweilige Sample akustisch wiedergegeben werden. Simultan zur Sprachausgabe wird in einem der beiden Grafikfenster die Animation der Sequel-Darstellung oder die Laufanzeige gestartet. Die mit Hilfe der optischen und akustischen Rückmeldung ermittelten Zeitgrenzen können durch Anklicken einer Zeile im integrierten Texteditor als Marken für Worte, Silben oder Laute in das alphabetische Transkript des Samples übernommen werden. Zusätzlich stellt die Software diverse Editierfunktionen bereit, wie etwa die automatische Pausenextraktion oder die Synthetisierung verschiedener Sprachsegmente zu neuen Einheiten. Eine detailliertere Funktionsübersicht der grafischen Benutzeroberfläche von PIASS ist in Abbildung 3 dargestellt.

Das Sequel-Fenster
Ist der Sequel-Modus eingeschaltet, so wird in diesem Fenster zeitsynchron zur akustischen Wiedergabe des Samples, die Sequel-DarstelIung als Animation eingeblendet. Der Endzustand der Sequeldarstellung bleibt nach Ende des Abspielvorganges sichtbar. Wird also die Blockmarkierung über die "Pick"-Funktion (siehe Kontroll-Fenster) schrittweise (1/20000 sec) vor- oder zurückverlagert, wodurch sowohl eine akustische wie auch grafische Wiedergabe ausgelöst wird, so zeigt die Veränderung des jeweiligen Endzustandes im Sequel-Fenster an, ob sich ein spezifisches Lautmuster weiter aufbaut, kollabiert oder in ein anderes Muster übergeht.
Das Kontroll-Fenster
PLAY - Abspielen des Samples, oder Blockes
| -PICK - Verschieben der vorderen Blockmarkierung, und Abspielen des Samples
- | PICK - Verschieben der hinteren Blockmarkierung, und Abspielen des Samples
ZOOM - Zoomfaktor der Zeitgrafik verändern
SCROLL - Sampleausschnitt im Zeitfenster verschieben
SOUND - akkustische Wiedergabe einschalten
SEQUEL - Sequelmodus einschalten
FULL - kontinuierliche Ausgabe des gesamten Blockes/Samples bei einmaliger Betätigung der PLAY-Taste.
STEP - schrittweise Ausgabe eines Blockes/Samples solange die PLAY-Taste betätigt ist
Das Funktionstasten-Fenster
F1 - Sample oder Block abspielen, solange die Taste gedrückt bleibt
F2 - Marker umschalten: je nach Einstellung bewirkt ein Mausklick in das Zeitreihenfenster das Springen des Blockanfanges bzw. des Blockendezeigers
F3 - Timer umschalten: je nach Einstellung bewirkt ein Mausklick in das Editorfenster die Übernahme des Timerstandes des Blockanfangs bzw. des Blockendes in das Transkript
F4 - Ausgangszustand herstellen
F5 - markierten Block auf die gesamte Fenstergröße zoomen
F6 - Sprachsample laden
F7 - editiertes Sprachsample speichern
F9 - bearbeitetes Transkript speichern
F10 - Hintergrundparameter einstellen (in einem gesonderten Fenster können Wandlerraten, Schrittweiten für die "Pick"-Funktionen, Delays, Wiedergabegeschwindigkeiten eingestellt werden)
Das Zeitreihen-Fenster
In diesem Fenster werden die Meßdaten in ihrem zeitlichen Verlauf visualisiert. Das Fenster kann über das gesamte Sample verschoben (Scroll-Funktion) und die Skalierung (Zoom-Funktion) verändert werden. Mit der Maus können zwei Zeiger gesetzt werden, die Anfang und Ende des aktiven, d.h. beim Abspielen wiederzugebenden, Blockes markieren. Anfang, Ende und Länge des sichtbaren Sampleausschnittes, sowie des Blockes werden kontinuierlich am unteren Rand der Zeitgrafik angezeigt. Beim Abspielen des Blockes läuft zeitsynchron eine grafische Anzeige am oberen Rand des Fensters mit, um eine Grobzuordnung von Zeitgrafik und akustischem Output zu ermöglichen.
Das Editor-Fenster
Dieses Fenster dient zur Erstellung, Bearbeitung und Zeitkodierung des alphabetischen Transkripts. Hier können auch vorbereitete ASCII-Textdateien aus anderen Programmen übernommen werden. Durch Anklicken des vorderen bzw. hinteren Spaltenbereiches wird der Timerstand einer Blockmarkierung (je nach Einstellung der Marker-Option, siehe Funktionstasten-Fenster) in den entsprechenden Textbereich der jeweiligen Zeile des Editors übernommen.
4. Anwendungsperspektiven
Abbildung 4 verdeutlicht den Informationsgehalt der Datenprotokolle, die mit Hilfe von PIASS generiert werden können. Sie zeigt das Ergebnis einer Sprachprozeßanalyse mit PIASS am Beispiel einer Sprechermeldung- in einer amerikanischen Nachrichtensendung.

Das als ASCII-Datei abgelegte Datenprotokoll wurde hier mit einem Zusatzprogramm strukturiert, so daß Merkmale der zeitlichen Gliederung des Redeflusses bereits bei der Rohdateninspektion deutlicher hervortreten. Wie aus dem Beispiel zu ersehen ist, können nun auf der Grundlage dieses hochauflösenden Zeitreihenprotokolls eine Vielzahl zeitstruktureller Parameter des Sprechverhaltens bestimmt werden, die nicht nur im Hinblick auf ihre Genauigkeit über die gängigen Kennwerte hinausgehen. So ist es durch den Zugriff auf Silben- oder gar Lautgrenzen insbesondere auch möglich, die zeitliche Binnenstruktur von Sprachäußerungen einer differenzierteren Analyse, etwa im Hinblick auf Variationen des Sprechtempos oder des Sprechrhythmus, zu unterziehen.
Wie aus der Funktionsübersicht von PIASS hervorgeht, bietet das System jedoch nicht nur äußerst flexible Möglichkeiten für die Vermessung des Sprachsignals sondern auch eine Reihe leistungsfähiger Optionen für dessen experimentelle Manipulation. So werden bei der Pausenextraktion auf Knopfdruck die im Editor als "Pause" markierten Zeitsegmente aus dem digitalen Sprachsample ausgeblendet. Anschließend kann das neue Sample akustisch und optisch wiedergegeben und aufgezeichnet werden. Durch Eintrag von Laufnummern im Editor können auch einzelne Sprachsegmente gekennzeichnet und dann in der angegebenen Reihenfolge zu neuen Sequenzen zusammengefügt werden. Damit eröffnen sich neue Möglichkeiten der experimentellen Simulation, auf deren Basis sowohl zeitliche Einflußgrößen im Sprachverstehen als auch kommunikative Wirkungen unterschiedlicher verbaler Darbietungsweisen genauer untersucht werden können.
Literatur
Bente, G., Frey, S. & Treeck, J. 1989. Taktgeber der Informationsverarbeitung: Kulturspezifische Rhythmen in der Nachrichtensprache. Medienpsychologie.
Zeitschrift für Individual-und Massenkommunikation, 2,136-160.
Frey, S., Hirsbrunner, H.-P., Florin, A., Daw, W. & Crawford, R. 1983. A unified approach to the investigation of nonverbal and verbal behavior in communication research.
In: W. Doise & S. Moscovici (Eds.). Current issues in European Social Psychology. Cambridge: Cambridge University Press. S. 143-199.
Hirsbrunner, H.-P. 1980. Sequel-Analysis. Ein zeitgenaues Verfahren zur visuellen Verlaufsanalyse des Sprachsignals.
Dissertationsschrift: Universität Bern.
Krüger, H.P. 1989. Speech chronemics - A hidden dimension of speech. Theoretical background, measurement, and clinical validity.
Pharmacopsychiatry 22, 5-12.
