Ein Roboter spricht in ein Mikrofon
Eine Stimme mithilfe von KI-Anwendungen zu klonen dauerte im Selbstversuch rund 20 Minuten.
Bing Image Creator powered by Dall-E, Prompt: robot talking into a microphone

Vor wenigen Tagen ging ein kurzes Video viral, in dem sich der US-Regisseur Jon Finger selbst filmt und plötzlich lippensynchron Französisch und Deutsch spricht – beide Sprachen beherrscht der Filmemacher laut eigenen Angaben nicht. Möglich machte das eine KI-gestützte Video- und Tonbearbeitungssoftware namens Heygen.

Doch perfekt ist das Resultat nicht: Die Software verursacht Artefakte, also Bildfehler, rund um den Mund von Finger, und zumindest die deutsche Stimme klingt roboterhaft. Dazu kam eine Übersetzung, die an die frühen Tage von Google Translate erinnert. Doch auch das Video war ein wenig geschummelt: Um derartige Videos zu erstellen, muss man die Clips von einem Desktop-PC hochladen und bearbeiten – von der heimischen Terrasse aus, so wie Finger es darstellt, geht nichts.

Aber: Die Tech-Demo war geglückt und der Beweis erbracht, dass KI-Anwendungen selbst von Menschen ohne einschlägige Fachkenntnisse mittlerweile einigermaßen überzeugende Resultate liefern.

Doch wie hoch ist der Aufwand tatsächlich, und kann man eine Stimme überhaupt überzeugend klonen? Und wie sieht die rechtliche Situation aus?

Der KI-Podcast

Wer dieser Tage den STANDARD-Podcast "Thema des Tages" gehört hat, dürfte sich vielleicht darüber gewundert haben, dass Sprecher Tobias Holub ein wenig anders klang als üblich. Das lag aber nicht an einem Schnupfen, sondern war allein der Tatsache geschuldet, dass wir seine Stimme geklont hatten.

Um ein überzeugendes Ergebnis zu erzielen, sind möglichst viele Sprachsamples in guter Qualität nötig. Die Wahl fiel da auf STANDARD-Podcast-Host Holub. Von ihm gibt es nicht nur viele Stunden an gesprochenem Tonmaterial; es hat gleichzeitig den Vorteil, dass seine Stimme den Hörerinnen und Hörern von "Thema des Tages" bekannt sein müsste und so viele Menschen aus der STANDARD-Community selbst mit ihren Ohren den Vergleich ziehen können.

In Schritt zwei verwenden wir die Software von Elevenlabs, die wir mit Soundclips aus den Newsmeldungen mit Holubs Stimme füttern. Gleichzeitig klont auch der Autor seine Stimme. Das geht erstaunlich simpel vonstatten. Fünf Minuten an Material reichen, lädt man mehr hoch, sind keine großen Verbesserungen zu erwarten, verrät der Hersteller. Recht viel mehr ist das angepriesene Speech-Lab auch gar nicht: Es handelt sich schlicht um einen Upload-Button.

Minimaler Aufwand, minimale Kosten

Sobald die Soundfiles fertig hochgeladen sind und wir mehrfach bestätigt haben, dass wir nur die eigene Stimme klonen und ganz sicher nichts Böses damit anstellen, steht die geklonte Stimme auch schon im Text-to-Speech-Fenster zur Verfügung. Hier können wir die Stabilität der Stimme regulieren. Damit wird die Variabilität reguliert, man kann ihr also mehr Leben verleihen. Außerdem können wir einstellen, ob die Betonung dezent oder übertrieben sein soll. Wir geben einen Text ein und sind auch schon fertig.

Der ganze Spaß hat nicht einmal 20 Minuten gedauert und kostet uns übrigens einen Euro, weil Elevenlabs gerade eine Aktion gestartet hat. Ansonsten müssten wir fünf Euro hinlegen. Die Bezahlschranke wurde eingeführt, nachdem das Unternehmen in die Schlagzeilen geraten war. In Onlineforen waren Audiodateien von der angeblichen Emma Watson aufgetaucht, in denen aus Hitlers "Mein Kampf" gelesen wurde. Ein Fake. Auch die Stimme von Spieleentwickler Todd Howard wurde mit der Software gefälscht. Howard kündigte für das neue Rollenspiel "Starfield" neue Inhalte pornografischer Art an. Das Unternehmen regulierte daraufhin den Zugriff mit einer Bezahlschranke. Ob ein symbolischer Euro Betrüger von ihren Taten abhält, ist natürlich eher fraglich.

Anfangs ernüchternde Ergebnisse

Bis jemand auf unseren Fake hineinfällt, würde aber noch ein wenig Zeit vergehen, denn das erste Ergebnis ist ernüchternd. Der Klang der Stimme passt zwar, aber die Betonung ist völlig außer Kontrolle, und der Akzent hat einen sehr bundesdeutschen Einschlag. Außerdem geht die Stimme der KI am Ende einer Frage nach unten und nicht nach oben. Die KI baut sogar Atemgeräusche ein, aber leider an den falschen Stellen. Wäre unser Euro wohl eine Fehlinvestition geworden?

Nach einigen Versuchen mit den Reglern für Betonung und Stabilität lassen wir Holubs Stimme neu erstellen. Und zwar spricht er weniger mit der Stimme eines Moderators, sondern ganz gewöhnlich im Plauderton, und das auch gerne mit ein wenig Dialekt. Siehe da: Im nächsten Versuch klingt seine geklonte KI-Stimme deutlich natürlicher und auch ein wenig vertrauter für österreichische Ohren. Die Resultate unseres Experiments können Sie in den ersten Minuten von "Thema des Tages" hier nachhören.

Rechtlich schwieriges Terrain

Doch ist es in Ordnung, die Stimmen fremder Personen einfach in eine Software zu laden, um so real klingende Personen zu imitieren? Schließlich sind nicht nur Podcaster, Nachrichtensprecher und Radiomoderatoren betroffen. Bei nur fünf Minuten notwendigem Material reicht es theoretisch aus, ein Telefongespräch oder ein Onlinemeeting mitzuschneiden, um genügend Probenmaterial einer Person zu sammeln und deren Stimme zu klonen.

Rechtlich wird die Sache wie immer ein wenig kompliziert. Nikolaus Forgó ist Professor für Technologiegüterrecht an der Universität Wien. Er meint, dass die eigene Stimme nicht unter das Urheberrecht fällt. Aber: "Ihre Stimme kann als Ausdruck Ihrer Persönlichkeit im Rahmen des allgemeinen Persönlichkeitsrechts geschützt sein, aber das, was da geschützt wird, ist eben Ihre Persönlichkeit." Eine geklonte Stimmen um Nuancen zu verändern, damit sie eben nicht mehr nahezu identisch mit der ihres Inhabers ist, bringt auch nicht viel, sagt der Experte. Denn: Rechtlich wird es auf die Verwechslungsgefahr ankommen.

Ob man einen "Stimmendieb" nun gerichtlich belangen kann, hängt von praktischen Faktoren ab. Es sei zwar möglich, eine Verletzung des allgemeinen Persönlichkeitsrechts auf dem Zivilrechtsweg geltend zu machen. Das setzt aber voraus, dass man den Gegner kennt, gibt Forgó zu bedenken. (Peter Zellinger, 29.9.2023)