Schon mit wenigen Sekunden an Vorlage kann das System eine Stimme glaubwürdig nachahmen.

Foto: DER STANDARD/Pichler

Das Phänomen der "Deepfakes", also mithilfe von künstlicher Intelligenz gefälschter Bilder, Tonaufnahmen und Videos, beschäftigt zunehmend die Politik. Denn die Technologie bringt eine Reihe von Chancen, aber auch gefährliche Implikationen mit. So wird sie bereits genutzt, um andere Personen unfreiwillig zum Teil von Pornofilmen zu machen, und immer wieder werden zur Demonstration Videos erstellt, die bekannten Politikern fremde Worte in den Mund legen. Zuletzt publizierte die BBC Clips, in denen Tory-Chef Boris Johnson und Labour-Chef Jeremy Corbyn eine Wahlempfehlung füreinander aussprachen.

Eine Hürde für die Erzeugung guter "Deepfakes" ist allerdings, dass für eine glaubwürdige Nachahmung von Gesichtszügen und Stimme eine große Menge an "Lernmaterial" der jeweiligen Person vorliegen muss, was nicht immer der Fall ist. Doch dieses Limit wird nun ins Wanken gebracht. Ein von Google betriebenes Forschungsprojekt hat es nun geschafft, eine KI zu entwickeln, die bereits mit einer wenige Sekunden langen Sprachaufnahme die Stimme eines Menschen fälschen kann.

Two Minute Papers

Fünf Sekunden reichen

Das Sprachsynthese-System "Tacotron" bringt bereits mit vier bis fünf Sekunden an Vorlagematerial Erstaunliches zustande. Nicht nur gelingt ihm eine in vielen Fällen praktisch ununterscheidbare Nachahmung der Klangfarbe einer Stimme, sondern auch eine glaubwürdige Übernahme des Akzents. Das ist umso erstaunlich, als dass die KI aufgrund der kleinen Vorlage viele Lücken – etwa die Aussprache diverser Laute – selbständig füllen muss.

Im Prinzip besteht das System aus drei Komponenten, erklärt Károly Zsolnai-Fehér in einem Video auf seinem Youtube-Kanal "Two Minute Papers". Er forscht an der TU Wien im Bereich KI und Computergrafik.

Drei Komponenten

Das vorgelegte Sprachsample wird von einem Speaker Encoder verarbeitet, einem neuralen Netzwerk, das mit Samples von rund 30.000 unterschiedlichen Sprechern trainiert wurde. Aus den dabei erfassten Daten hat es eine Art "repräsentativen Querschnitt" gebildet, quasi die "Essenz der menschlichen Sprache". Dieser Schritt ist einmalig und die Grundlage dafür, dass man für künftige Stimmnachahmungen von noch nicht gehörten Sprechern nicht mehr jeweils wieder viele Stunden an Trainingsmaterial braucht, um zu guten Ergebnissen zu kommen.

Die zweite Komponente ist eine KI für Sprachsynthese, die aus dem erzeugten Stimmmodell aus der neuen Aufnahme ein Spektrogramm für einen frei definierbaren Text erzeugt. Der dritte Teil des Systems ist ein Vocoder, der daraus schließlich ein hörbares Ergebnis macht. Er läuft auf Basis des neuralen Netzwerks "Wavenet", das von Googles KI-Experten Deepmind entwickelt wurde. Bei Tests wurden die Vorlagen und die daraus künstlich erzeugten Sprachsamples mehrheitlich als sehr ähnlich bewertet.

Auf der Github-Seite des Tacotron-Projekts lassen sich verschiedene Beispiele anhören. Das dazugehörige Paper kann auf Arxiv eingesehen werden. (gpi, 14.11.2019)