Bald wird man zwischen Mensch und Maschine wohl keine Unterschiede mehr hören können.
Getty Images/imaginima

Eine neue Anwendung des Forschungsteams des US-Konzerns Amazon soll jene Sätze und Texte, mit denen sich bisherige Sprachmodelle schwergetan haben, realistisch und emotional glaubwürdig vorlesen. Dies wurde nun in einer neuen Forschungsarbeit dargelegt. Nach Aussage der Forscher bedarf es dafür fast einer Milliarde Parameter, die das Timbre und andere sprachliche Eigenarten einer Sprecherin oder eines Sprechers ausmachen.

Besonders in der Fähigkeit, emotionale Aussagen menschlich zu betonen, soll BASE TTS, so der Name der Anwendung, gegenüber anderen "Text to Speech"-Modellen exzellent abschneiden. Erste Hörbeispiele liefert Amazon auf seiner Website. Eine öffentlich zugängliche Version mit "custom voices" wird vorerst aufgrund von sicherheitstechnischen Bedenken nicht bereitgestellt werden. Die von den Forschern gemeldete Realitätsnähe des Programms soll nicht für Fake News und Ähnliches missbraucht werden.

100.000 Stunden an Sprachmaterial

Nach Informationen des Papers, verfügbar unter dieser Webadresse, wurden etwa 100.000 Stunden an Copyright-freien Sprachaufnahmen in vier verschiedenen Sprachen zum Training des bisher größten Sprachmodells dieser Art verwendet. Etwa 90 Prozent dieser Sprachdaten waren in englischer Sprache vorhanden, während sich die restlichen zehn auf Deutsch, Niederländisch und Spanisch aufteilen. Selbst kann sich das Modell auf Englisch und Spanisch verständlich machen.

Eine weitere Aufgabe der Arbeit war herauszufinden, was der Grenzwert an Parametern für eine natürliche Wiedergabe von komplexen Sätzen ist. Zur Beantwortung dieser Frage entwickelte Amazon abgesehen von dem bisher größten, mit 980 Millionen Parametern, mehrere weitere Modelle. Eine Applikation mit 400 Millionen und eine mit "nur" 150 Millionen sollten helfen zu erkennen, wie viele verschiedene Option für eine nicht im Uncanny Valley ansässige Leseleistung nötig sind.

Das Ergebnis: 150 Millionen sind zu wenig, um die Nuancen von menschlicher Sprache und Grammatik zu verstehen. Ab 400 Millionen beginnt das Modell, komplizierte Sätze und Satzzeichenkombinationen zu erkennen und die Emotionen und Fragestellungen naturgetreu wiederzugeben.

Die Leistungen der drei Programme wurden in einem Benchmarktest mit Beispielsätzen in sieben verschiedenen Kategorien bewertet. Etwa "Emotion" in dem Absatz: "Beth collapsed into his arms, sobbing uncontrollably, 'I failed them, I failed them all. They're all dead! Nothing we can do will ever bring them back. How can I ever live with myself again? How?'" Oder "Foreign Words": "With an ample supply of joie de vivre, Mary danced through the streets of Nice, stopping only to enjoy a nice café with a warm croissant."

Die ersten verfügbaren Hörproben zeigen, dass Amazon sehr große Schritte in dieser Thematik gemacht hat und sich auch dieser Aspekt künstlicher Intelligenz (erschreckend) schnell weiterentwickelt. (red. 17.2.2024)