Akustische Merkmale von Sprachlauten (Eigenschaften & "physical modeling")

 

1. Rohschallerzeugung

 

1.1 Phonation (stimmhafte Laute)

Als Phonation bezeichnet man die Rohschallerzeugung durch die schwingenden Stimmlippen (Glottisschwingung). Sie entsteht durch aerodynamische Kräfte des transglottalen Luftstroms, der zur Spannung der Stimmlippen führt. Bei geöffneter Glottis strömt Luft aus der Lunge, die durch den Verschluß wieder abgeschnitten wird. Dabei ist Verschiedenes im Spiel: subglottaler Druck, Bernoullikräfte, Dicke und Spannung (Rückstellkraft) der Stimmlippen. Dies führt zu einer periodenähnlichen Druckänderung mit negativem Druckimpuls bei Verschluß.

Die Stimmtonfrequenz F0 (Rate der Stimmlippenschwankungen) und Form der Schwingungen (Stimmqualität) ist durch muskuläre Einstellungen und Stärke des Ausatemdrucks im Rahmen des individuellen Stimmumfangs veränderbar (bis über zwei Oktaven bei Sängern).

  Stimmton Stimmlippenlänge
Frauen/Kinder » 230 - 330 Hz 13 bis 17 mm
Männer » 120 - 160 Hz 17 bis 24 mm
Säugling » 400 Hz 5 mm

Variationen bei Sängern: Baß 80-320Hz; Tenor 120-440Hz; Alt 170-640Hz; Sopran 250-850Hz; Koloratur-Sopran bis 1100Hz.

Die "Kopfstimme" entsteht dadurch, daß sich die schwingenden Stimmlippen  nicht mehr berühren, es schwingen nur die äußeren Ränder (höhere Eigenfrequenz)

Der Anteil höherer harmonischer Komponenten ist besonders abhängig von der Lautstärke: leises Sprechen hat eine längere Öffnungsphase der Glottis zur Folge, was sich "glättend" sowohl auf den Druckverlauf, als auch auf die spektrale Zusammensetzung auswirkt (Impulsformung).

Bemerkung zum Sängerformant (frei nach Sundberg): dieser entsteht bei ca. 2500Hz bis 3800Hz durch die teilweise Entkopplung des Kehlkopfes vom Rachenraum. Sänger, die einen ausgeprägten Sängerformanten haben, können sich z.B. gegen ein Orchester gut durchsetzen (partielle Verdeckung und Verschmelzung)

 

1.2 Frikativbildung

Die Erzeugung des geräuschhaften Rohschalls entsteht durch eine Verengung irgendwo entlang des Ansatzrohres. Hinter der Verengung kommt es ab einem kritischen Wert zu einer turbulenten Strömung, es entsteht Rauschen. Derartige Geräuschquellen sind artikulatorisch prinzipiell entlang der gesamten Länge des Ansatzrohres möglich, von der Glottis [h] (Hauchen; auch beim Flüstern ist dies die Rohschallerzeugung) bis zu den Mundlippen [Ø] (Pusten).

 

2. Artikulation

Akustisch gesehen ist Artikulation die Veränderung des Rohschalls durch die Filterwirkung des durch den Mund einseitig offenen, geometrisch variablen Ansatzrohres, in dem sich bei Anregung vom Rohschall eine unendlichen Folge von ungradzahligen und breitbandigen Eigenschwingungen ausbilden.

Das "neutrale" Rohr (theoretisches Konstrukt) mit einem gleichförmigen Querschnittsverlauf und 17cm Länge ergibt dann den "akustischen Schwa" mit den harmonischen Eigenresonanzen (1:3:5) F1=500Hz, F2=1500Hz und F3=2500Hz. Die Absolutfrequenzen geben zudem eine Aussage über die Länge des Ansatzrohres. So liegen grundsätzlich die Eigenresonanzen bei Frauen und Kindern leicht höher als bei Männern (bis zu einer Terz). Das natürliche menschliche Ansatzrohr reflektiert allerdings nicht verlustfrei, und auch das glottale Ende ist nicht ständig geschlossen, sondern eher häufiger offen. Daher existieren keine diskreten Resonanzfrequenzen, sondern Frequenzbänder höherer Amplitude. Damit ist der Formantbegriff für den Sprachapparat definiert.

Formantverschiebungen ergeben sich durch dynamische Querschnittsveränderung des Ansatzrohres bei der Artikulation.

Erweiterung der vorderen Hälfte bzw. Verengung der hinteren Hälfte des Ansatzrohres führt zu einer spektralen Anhebung des ersten Formanten, entsprechend umgekehrte Veränderungen zu einer Absenkung. Eine Erweiterung im vorderen Sechstel bzw. eine Verengung im hinteren Sechstel des Ansatzrohres führt zu einer Anhebung des zweiten Formanten, entsprechend umgekehrte Veränderungen zu einer Absenkung. Die Beeinflussung des dritten Formanten ist bereits an kleinräumige feinmotorische Veränderungen des Ansatzrohres gebunden und eher willkürlich, weshalb eine Beschränkung der phonetisch-akustischen Formantanalyse auf die ersten Drei sinnvoll erscheint.

Hieraus ergeben sich die Transitionen (Formantbewegungsmuster, nicht verwechseln mit Transienten, das sind kurze Signalspitzenwertamplituden) bei einer neutraleren Stellung (z.B. bei Vokalen) vorausgehenden labialen, alveolaren und velaren Ansatzrohrverengungen.

 

3. Einzelne Sprachlautmerkmale

3.1 Vokale

Vokale zeichnen sich akustisch durch eine ausgeprägte auditiv relevante Formantstruktur hoher Amplitude (in der Regel höher als konsonantische Umgebung) aus, mit variabler Dauer und ausgeprägte Periodizitätsähnlichkeit.

Sie sind durch die Lage ihrer Formanten gekennzeichnet. Dauer: mit beginnenden Transitionen bis Wegfall der höheren Frequenzbereiche.

Vokal

Mittenfrequenz Formant 1
Mittenfrequenz Formant 2
Bemerkung

[u]

250 Hz
(genauer: 200-400 Hz)
700 Hz ger. geschl. HZV
[o] 400 Hz
(genauer: 350-600 Hz)
750 Hz ger. halb-geschl. HZV
[a] 800 Hz
(genauer: 800-1250 Hz)
1300 Hz unger. offener ZV
[e] 350 Hz 2200 Hz
(genauer: 1800-2600 Hz)
unger. halb-geschl. VZV
[i] 250 Hz 3000 Hz
(genauer: 2600-4000 Hz)
unger. geschl. VZV

Es ergeben sich arktikulatorisch bedingten (nennt man auch "intrinsisch") Amplitudenunterscheide: HZV haben eine höhere Gesamtamplitude als VZV sowie die Abbildung der artikulatorischen Tiefe: der erste Formant bildet in seiner spektralen Lage (tief«hoch) gewissermaßen den Öffnungsgrad bzw. reziprok die Zungenhöhe ab, der zweite Formant korreliert mit der Zungenhöhe.

 

Image9.gif (5524 Byte)

 

Bei Gesang liegen die Vokalformanten durch den abgesenkten Kehlkopf häufig tiefer (Verlängerung des Rachens). [i, e] klingt wie [Y].

Für die auditive Erkennung von Vokalen ist bei HZV der erste Formant wichtiger als der zweite, bei VZV der zweite wichtiger als der erste.

 

3.2 Diphtonge

Für Diphtonge gilt prinzipiell dasselbe wie für Vokale, hier zeigt sich zusätzlich eine relativ grobe Formantbewegung. Es zeigt sich die ineinanderfließende Abfolge der vokalcharakteristischen Formanten.

 

3.3 Nasale

Nasale sind stets stimmhaft. Durch eine Senkung des Velums erfolgt die Zuschaltung des Nasenraumes, es existiert neben dem Mundraum also ein zweiter Resonanzraum. Als Hauptansatzrohr fungiert der Rachen- und Nasaltrakt, der eine Resonanz bei ca. 250 Hz aufweist (Formant). Die höheren Frequenzen werden durch Interferenz der beiden schwingungsfähigen Systeme bedämpft, so daß sich Amplitudeneinbrüche im Spektrum ergeben ("Antiresonanzen"). Die spektrale Lage dieser "Antiresonanzen" ist von der individuellen geometrischen Gestalt des Seitenrohres (Mundraum) abhängig. Also wenig ausgeprägte Formantstruktur bei Konzentration bei Konzentration der Spektralkomponenten im unteren Frequenzbereich. Die Gesamtamplitude ist geringer als bei Liquiden. Die Dauer im Sprachfluß ist wenig variabel.

Nasal

Antiresonanz / Hz

Bemerkung
[m]
750 bis 1250
bilabial
[n]
1450 bis 2200
alveolar
[nj]
über 300
velar

 

Bem: Musiksignale oder Klänge von Musikinstrumente wirken häufig dann näselnd, wenn spektrale Anteile um ca. 1200Hz bis 1800Hz besonders stark vorhanden sind und gleichzeitig der tiefe Grundtonbereich schwach ausgeprägt sind. Allgemein gilt:

Hohe Spektralamplitude bei

klangliche Eigenschaft

Bemerkung
200 - 400 Hz sonor 1. Formant [u]
400 - 600 Hz voll 1. Formant [o]
800 - 1250 Hz markant 1. Formant [a]
1200 - 1800 Hz näselnd » 2. Formant [y; ø; æ]
1800 - 2600 Hz hell 2. Formant [e]
2600 - 4000 Hz brillant 2. Formant [i]
um 8000 Hz (Quinte) spitz
> 10000 Hz brillant / scharf

 

3.4 Frikative

Frikative sind an der spektralen Lage des unregelmäßig strukturierten Rauschens (vertikalen Schwärzung) erkennbar mit hohen Spektralamplituden über 5kHz, häufig auch über 10kHz. Die untere Grenzfrequenz des Rauschen ist um so tiefer, je weiter hinten der Frikativ gebildet wird. Bei stimmhaften Frikativen kann zusätzlich eine voice bar der Glottisschwingung erkennbar sein, die durch das Rauschen jedoch häufig in der Abbildung verdeckt wird bzw. die Stimmhaftigkeit kann zu einer Modulation des Rauschsignals führen.

 

3.5 Plosive

Plosive werden durch den Verschluß zweier Organteile im Ansatzrohr gebildet. In zeitlicher Abfolge:

  1. (sofern intervokalisch) die durch artikulatorische Verschlußbildung hervorgerufenen implosiven Transitionen, also ca. 40ms dauernde schnelle Formantbewegungen. F1 geht immer nach unten.

  2. die Verschlußphase: bei stimmlosen Plosiven Signalpause (gänzlich fehlende Schwärzung im Sonagramm), bei Stimmhaften isolierte voice bar

  3. die Verschlußlösung: Verschlußlösungsgeräusch, transientes Geräusch hoher Amplitude (meist höchste Amplitude der akustischen Plosivelemente) mit unterschiedlicher spektraler Zusammensetzung (vertikaler burst)

  4. bei aspirierten Plosiven die Aspirationsphase (20ms-100ms) als geräuschhafte Anregung (höhere Spekralkomponenten) bzw. voice onset time (VOT) bis zum Einsatz des Stimmtons bei nachfolgenden Vokalen. Ab 20ms-30ms VOT wird im Deutschen ein Plosiv i.d.R. als aspiriert wahrgenommen.

  5. Bei nachfolgenden Vokalen: Formantbewegungen, explosive Transitionen (40ms bis 50ms). F1 geht immer nach oben.

 

3.6 Approximanten

Approximanten entstehen durch eine Engbildung, durch die der Luftstrom fast geräuschfrei strömen kann. Stets stimmhaft (voice bar). Mehr Luft als bei Vokalen, akustisch ähnlich. Zeigen sich im Sonagramm bei nachfolgenden Vokalen gegenüber den Transitionen der Plosive langsameren Formantbewegungen.

 

3.7 Laterale

Laterale sind durch einen zentralen teilweisen Verschluß des Ansatzrohres bei nicht geräuschbildender, seitlicher Verengung gekennzeichnet, Stets stimmhaft. Haben spektral starke, Bewegungen der Formanten ähnlich denen der Approximanten (besonders 3. Formant). Abhängig vom Kontext. Formanten etwas weniger ausgeprägt als bei Vokalen, leicht geringere Gesamtamplitude.

 

3.8 Trills (Vibranten)

Trills zeichnen sich durch eine niederfrequente Amplitudenmodulaton des Stimmtons durch sich überlagernde Schwingungen der Zunge bzw. des Zäpfchens aus (besonders beim [r]).

 

3.9 Affrikaten

Affrikaten sind die an einer gleichen oder eng benachbarten Artikulationsstelle artikulatorische Verbindung eines Plosivs mit einem Frikativ, die sich auch akustisch zeigt. Durch den Übergang erfolgt bei den Affrikaten keine Aspiration nach der Verschlußlösung.

A.Gernemann Juni 1999