Michael Pucher mit einem (Philips) Sprachcomputer älterer Generation, ein Erbstück des Instituts für Nachrichtentechnik der TU Wien. Heute sind die meisten Synthesizer Software-Programme.

Foto: derStandard.at

Pucher vor einem "Entscheidungsbaum" zur Klassifikation der wienerischen und österreichischen Laute.

 

Zur Person:
Michael Pucher hat Philosophie, Logik und Mathematik an der Universität Wien und der TU Wien studiert. 2007 hat er ein Doktorat in Elektrotechnik am Institut für Signalverarbeitung und Sprachkommunikation der TU Graz zum Thema "Semantische Ähnlichkeit in der automatischen Spracherkennung von Meetings" abgeschlossen. Er arbeitet seit 2001 im Forschungszentrum Telekommunikation Wien (FTW) im Bereich Speech Processing.

Foto: FTW

Eine künstliche Stimme, die im eigenen Soziolekt spricht. Das könnte künftig in Mensch-Maschine Interaktionen Usus werden. Eine Software wurde mit dem Projekt "Wiener Soziolekt und Dialektsynthese" ermöglicht, die, wie auch im natürlichen Sprachgebrauch, zwischen Hochsprache und Dialekten bzw. Soziolekten wechseln kann. Das innovative Sprachsyntheseprojekt wandelte somit nicht nur Text in gesprochene Sprache um, darüber hinaus wurden Sprachvarietäten, die keine Standard-Orthographie haben, synthetisiert.

Das Projekt wurde seit 2006 im Rahmen des "Fünf Sinne Calls" vom WWTF finanziert und wurde Ende April abgeschlossen. Um Computerstimmen mehr "Natürlichkeit" einzuhauchen arbeiteten Forscher und Forscherinnen aus der Informatik, Phonetik, Soziolinguistik, Signalverarbeitung und Computerlinguistik an dem Projekt. Projektleiter Michael Pucher vom "Forschungszentrum Telekommunikation Wien" (FTW) sprach mit derStandard.at unter anderem über mögliche Irritationen bei Dialogsystemen und schnelle Urteile aufgrund von Sprachvarietäten.

derStandard.at: Wie unterscheidet sich das Trainieren von künstlichen Stimmen, die Hochdeutsch sprechen sollen von jenen, die Dialekt sprechen sollen?

Michael Pucher: Die größte Schwierigkeit liegt dabei bei den Ressourcen. Es gibt für den Dialekt ja kein phonetisches Lexikon, wie es für das Hochdeutsch zur Verfügung steht. Auch gibt es wenige Sprachaufnahmen im Dialekt.
Einige ForscherInnen haben daher ein so genanntes BLARK vorgeschlagen (Basic Language Ressurce Kit), bei dem definiert wird, welche elektronischen Ressourcen es für eine Sprache geben sollte. Die Überlegung dahinter ist Folgende: Wenn eine Sprache im 21. Jahrhundert überleben soll, muss es auch elektronische Ressourcen geben, ansonsten ist die Gefahr größer, dass eine Sprachvarietät verschwindet.
Die Ressourcen-Verteilung ist sehr unterschiedlich. So gibt es z.B. für Englisch sehr viele verschiedene elektronische Ressourcen für die unterschiedlichsten Varietäten. Kleinere Sprachen und Sprachvarietäten wie Dialekte, Soziolekte oder etwa auch Roma-Sprachen haben wenige elektronische Ressourcen. Diese Korpora fehlen uns in der Sprachsynthese natürlich. Das zweite Problem liegt darin, dass es vom Dialekt keine Standardverschriftung bzw. keine Standard-Orthographie gibt. Wenn diese Basisressourcen fehlen kann man keinen Synthesizer oder keine Spracherkennung für die jeweilige Sprache bauen.

derStandard.at: Wieso brauchen wir künstliche Sprachen in verschiedenen Sprachvarietäten?

Pucher: Künstliche Stimmen werden in der Mensch-Maschine Interaktion verwendet. Sie werden immer wichtiger, z.B. für Navigationssysteme oder Sprachdialogsysteme. Je natürlicher diese Sprachen sind, desto natürlicher ist auch die Interaktion, außerdem werden solche Systeme mit ihrer "Natürlichkeit" glaubwürdiger.
Beispielsweise hat ein Taxireservierungssystem, das in Wien angesiedelt war, Auskünfte für die Region Salzburg gegeben. Die Leute wunderten sich, warum sich ein Wiener in Salzburg auskennt, so etwas kann zu Irritationen führen.
Bei Dialogsystemen muss eine bestimmte Persona realisiert werden, das ist das Gesamtbild, das man bei einem Dialogsystem von der sprechenden Person vermittelt bekommt: Ist es ein Mann oder eine Frau, ist er/sie freundlich, welche Wörter werden verwendet, welcher Soziolekt usw., all das ist die Persona. Ein Dialekt oder Akzent kann sehr stark zur Persona beitragen, so hat zum Beispiel eine Untersuchung von Barbara Soukup gezeigt, dass in den USA Menschen, die einen Südstaatenakzent sprechen, als weniger kompetent wahrgenommen werden.

derStandard.at: Die Stimmen bei der Sprachsynthese wurden ja aufgenommen, somit ist doch nur die Synthetisierung künstlich. Ist das richtig?

Pucher: In beiden Methoden, die wir angewandt haben, haben wir versucht, die Stimme von Menschen zu modellieren. Bei Interpolationen, die wir gemacht haben, werden zwei Stimmen trainiert. Daraus werden Zwischenvarianten erzeugt und diese Zwischenvariante ist dann schon eine künstliche Stimme, die es so "natürlich" nicht gibt.

derStandard.at: Warum wird das "Wienerische" in Ihrem Projekt als Soziolekt beschrieben?

Pucher: Soziolekt bedeutet, dass die Unterschiede nicht regional sind, sondern dass es verschiedenen Sprachen für verschiedene soziale Gruppen gibt. Wir haben in unserem Projekt zum Beispiel als eine soziale Dimension das Alter gewählt.

derStandard.at: "Wienerisch" wird ja immer wieder als Sprache von "unteren" sozialen Schichten oder bildungsfernen Schichten definiert.

Pucher: Wir haben uns auf soziolinguistische Studien zum Thema "Wienerisch" gestützt. Untersuchungen von der Soziolinguistin Silvia Moosmüller weisen nach, dass Alter und Bildung wesentliche Koordinaten der Wiener Soziolekte sind.

derStandard.at: Inwiefern werden von Ihnen Erkenntnisse über die menschliche Sprachproduktion und das Sprachlernen verwendet?

Pucher: Wie die menschliche, physische Sprachproduktion funktioniert weiß man schon sehr genau. Mit unserer Arbeit hatte das menschliche Sprachlernen wenig zu tun. Beim menschlichen Sprachlernen ist die Information multimodal, wenn wir hingegen einen Synthesizer trainieren, haben wir ja nur akustische Daten.
Wir haben mit zwei Methoden gearbeitet: Bei der Unit-Selection hängen wir die aufgenommenen Einheiten zusammen, das hat mit menschlichem Sprachlernen nichts zu tun.
Bei der zweiten Methode, die auf Hidden_Markov_Modellen basiert, wird ein Modell trainiert mit dem Parameter erzeugt werden, die nachahmen, wie wir Sprache erzeugen. Generell ist aber bei vielen Technologien die Orientierung am Menschen nicht unbedingt vorteilhaft. Solange die Leute versucht haben, wie Vögel zu fliegen, hat es nicht funktioniert. Solche Ausrichtungen bringen nicht immer die besten Ergebnisse, im Falle der Sprachsynthese ist es zum Beispiel so.
Bei den meisten datengetriebenen Verfahren versucht man einfach möglichst viele Daten zu sammeln um daraus etwas zu lernen, was auch ziemlich schwierig ist.

derStandard.at: Welche Rolle spielt dann Artificial Intelligence noch?

Pucher: Viele Themen, die wir bearbeiten – Dialogsysteme, Spracherkennung, Sprachverstehen – sind von der AI inspiriert. Die Methoden haben sich aber immer stärker in diese datengetriebene Richtung entwickelt. Es gibt natürlich auch regelbasierte Ansätze, man ist aber draufgekommen, dass es oft besser funktioniert, wenn man die Daten entscheiden lässt. Die datenbasierten Methoden haben sich auch in der AI durchgesetzt.
Dass datenbasierte Methoden so gut funktionieren hat auch die Debatte zwischen rationalistischen versus empiristischen Ansätzen wieder angeregt. Der Linguist Noam Chomsky vertritt die These, dass Menschen über eine Universalgrammatik – die sozusagen im Gehirn sitzt – verfügen und die es uns ermöglicht, jede mögliche Sprache zu lernen. Wenn datenbasierte Systeme immer besser werden, stellt sich die Frage, wie viel lernbar und wie viel "angeboren" ist.
Diese Fragen haben aber auch oft fast religiösen Charakter, was ein Kollege in Edinburgh einmal auf den Punkt brachte, als er zu mir sagte: "We don't believe in n-grams" (n-grams sind eine datenbasierte Methode der Sprachmodellierung).

derStandard.at: Wenn datenbasierte Ansätze irgendwann perfekt funktionieren, würde das dann Chomskys These vom "Sprachorgan" widerlegen?

Pucher: Das kann man insofern nicht sagen, da datenbasierte Ansätze sich oft überhaupt nicht daran orientieren, wie das Lernen von Menschen bewerkstelligt wird. Man müsste die technischen Ansätze mit den Ansätzen, wie Menschen lernen, kombinieren, was zum Beispiel in der Hirnfoschung teilweise gemacht wird, wenn versucht wird sprachliche Fähigkeiten zu simulieren. Aber die Erkenntnis, dass man aus Daten extrem viel lernen kann, fordert diese Theorie sicher heraus.

derStandard.at: Noch mal zurück zu den kleinen Datenmengen, die Sie zur Verfügung hatten: Liegen die kleinen "Holprigkeiten" bei der Sprachsynthese nicht am Wienerisch, sondern an den mangelnden Daten?

Pucher: Ja. Wenn wir genügend Daten hätten, würde die Sprachsynthese für "Wienerisch" oder jedem anderen Dialekt genauso gut klingen wie für Hochdeutsch. (Die Fragen stellte Beate Hausbichler, derStandard.at. 6.5.2009)