Das ukrainische Start-up Respeecher hat die Stimme von Schauspieler James Earl Jones bzw. Darth Vader in den neuesten "Star Wars"-Serien zum Leben erweckt.

Foto: Lucasfilm Ltd.

Das Telefonat mit Oleksandr Serdiuk dauert nur wenige Minuten, bevor ein Stromausfall das Bild einfrieren lässt – und einmal mehr den Ausnahmezustand sichtbar macht, den die ukrainische Bevölkerung seit mehr als einem Jahr erdulden muss. Als sich das Gesicht des 33-Jährigen wieder bewegt und nicht eingefroren ist, setzt er im dämmrigen Licht unbeirrt mit seinen Erzählungen fort, als sei er nie unterbrochen worden. Serdiuk ist CEO von Respeecher, einem Start-up, das sich nach Ausbruch des russischen Angriffskriegs bewusst dagegen entschieden hat, die Hauptstadt Kiew zu verlassen.

Ohne es zu wissen, waren schon Millionen Menschen mit der Arbeit von Respeecher konfrontiert. Das 2018 gegründete Unternehmen hat sich darauf spezialisiert, die Stimmen berühmter Schauspielerinnen und Schauspieler zu klonen. Sie also mithilfe künstlicher Intelligenz (KI) zu präservieren, damit auch zukünftige Generationen sich an ihrer Arbeit erfreuen können. Ein Vorhaben, das dem mittlerweile 45-köpfigen Team in der Ukraine eine Reihe von Aufträgen in Hollywood und sogar einen Emmy eingebracht hat.

Für die Ewigkeit

Das wohl prominenteste Beispiel für die Arbeit des Start-ups ist James Earl Jones, oder besser gesagt: seine legendäre Stimme, die er seit mehreren Jahrzehnten dem "Star Wars"-Bösewicht Darth Vader geliehen hat. Der 92-jährige Schauspieler hat sich längst zur Ruhe gesetzt – und damit auch sein Sprachorgan. Dennoch tritt Darth Vader in der 2022 erschienenen Disney+-Serie "Obi-Wan Kenobi" mit altbekannter Stimme auf. Zu verdanken ist das Respeecher. Statt des pensionierten Schauspielers selbst hat ein Synchronsprecher alle Dialoge eingesprochen, ihnen so den notwendigen Ausdruck verpasst. Damit Darth Vader dennoch klingt wie einst Jones, hat das ukrainischen Start-up seine Stimme synthetisiert und geklont – natürlich mit Erlaubnis von "Originalstimme" James Earl Jones.

Foto: Lucasfilm Ltd.

Ermöglicht wird all das durch sogenanntes Speech-to-Speech-Voice-Cloning. Durch ein KI-System also, das menschliche Stimmen anhand von Tonaufnahmen digitalisieren kann. Solange die Daten nicht zu alt sind, reichen für die Klonung bereits Aufzeichnungen im Umfang von 30 Minuten, sagt Serdiuk. Dabei könne es sich um Interviews, Hörbücher oder eben Filme und Musik handeln. Es sei nur wichtig, dass genau jene Emotionen abgedeckt werden, die auch im Datensatz enthalten sein sollen. Gemeint ist damit beispielsweise, ob ein Charakter brüllt, flüstert oder aber in Zimmerlautstärke spricht. Im Anschluss würden die Daten bereinigt und in das eigene System eingespeist, damit der Algorithmus lernen kann, "was an ihrer Stimme besonders ist und warum sie sich von anderen unterscheidet", sagt CEO Serdiuk. Ein einmaliger Prozess, der zwar mehrere Tage oder Wochen dauern kann, aber ermöglicht, Stimmen innerhalb weniger Minuten genau so klingen zu lassen, wie man möchte.

Falls gewünscht, kann Respeecher die eigene Stimme sogar verjüngen oder in andere Sprachen übersetzen. Wirklich schwierig wird es laut Serdiuk erst dann, wenn die Sprachaufnahmen alt und von schlechter Qualität sind. "Wenn wir mit Daten arbeiten, die vor 40 Jahren aufgezeichnet wurden, z. B. für den jungen Mark Hamill, dann ist das eine andere Dimension", sagt er.

Respeecher ist nicht bloß für die Vertonung von Darth Vader verantwortlich, sondern für die Verjüngung der Stimme des mindestens genauso bekannten Charakters Luke Skywalker in "The Mandalorian" und "Das Buch von Boba Fett". Die originale "Star Wars"-Trilogie wurde vor mehreren Jahrzehnten gedreht. Entsprechend niedrig ist die Soundqualität.

Die Stimmenklone

Bei allem Enthusiasmus ist es Serdiuk vor allem wichtig zu betonen, dass die eigenen Technologien keinen Ausschluss von Synchronsprecherinnen und Synchronsprechern bedeuten würden. Ganz im Gegenteil seien diese unentbehrlicher Grundstein in der Verwirklichung des eigenen Voice Cloning – was einen essenziellen Unterschied zwischen Respeecher und der Konkurrenz darstelle. Die meisten Unternehmen würden auf Text-to-Speech-Cloning setzen. Es wird also ein geschriebener Text hergenommen und in gesprochene Sprache verwandelt.

Das Respeecher-Team arbeitet weiterhin von der ukrainischen Hauptstadt Kyiv aus.
Foto: Respeecher

Eine Herangehensweise, bei der keine menschliche Hilfe mehr notwendig ist, die aber ein ganz offensichtliches Problem mit sich bringt: "Die winzigen Nuancen, die sie vermitteln wollen, gehen verloren. Sie können Schauspieler nicht weinen, singen oder flüstern lassen", sagt Serdiuk. Es würden also all jene Dinge verloren gehen, "die die menschliche Stimme einzigartig und natürlich machen".

Anders sieht es bei Speech-to-Speech-Technologien aus, da die Performance eines Schauspielers grundlegend von jener der Synchronsprecherinnen abhängt. Diese sind dafür verantwortlich, dass die richtigen Emotionen vermittelt werden, dass der gespielte Charakter zum Leben erweckt wird. Die KI ist nur dafür verantwortlich, die Stimmsignale einer anderen Person darüberzulegen – eine Tatsache, die mittlerweile zu breiter Unterstützung in der Branche geführt habe.

Ethische Bedenken

Eine Gefahr stellen KI-Stimmen stellen dennoch dar. Ähnlich wie Deepfakes können diese zu Betrugszwecken missbraucht werden. Ein Grundsatz von Respeecher ist deshalb, Stimmen ausschließlich dann zu verarbeiten, wenn die explizite Erlaubnis betroffener Person vorliegt. Außerdem versuche man, ein größeres Bewusstsein dafür zu schaffen, was mittlerweile alles möglich ist. Auf technischer Ebene arbeite man zudem an Systemen zur Erkennung synthetischer Sprache und der Möglichkeit, Audiospuren mit einem Wasserzeichen zu versehen.

Schauspieler James Earl Jones hat sich mittlerweile zur Ruhe gesetzt. Seine Stimme ist weiterhin zu hören.
Foto: AP / Michael Zorn

Im Jahr 2021 wurden diese Bemühungen mit einem Emmy ausgezeichnet. Gemeinsam mit einer weiteren KI-Firma und der US-Universität MIT erweckte Respeecher den früheren US-Präsidenten Richard Nixon zum Leben – um ihn jene Rede halten zu lassen, die für den Fall eines Scheiterns der Mondlandung geschrieben wurde. Das Projekt habe ermöglicht, eine alternative Geschichte zu erleben, sagt Serdiuk. Man "fängt an, darüber nachzudenken, wie synthetische Medien uns auf gute oder schlechte Weise beeinflussen können. Wie sie missbraucht werden können", führt er aus, wirkt aber zuversichtlich, dass das Positive überwiegt.

Widerstand

In der Zwischenzeit ist das Licht im Büro von Respeecher wieder angesprungen, der Stromausfall fürs Erste behoben. Die Ukraine zu verlassen, so wirkt es im Gespräch mit Serdiuk, scheint nie zur Diskussion gestanden zu haben. "Wir haben schon vor der russischen Invasion mit Filmstudios auf der ganzen Welt zusammengearbeitet. Es ist egal, wo das Team sitzt", sagt Serdiuk. Auf den Krieg sei man außerdem vorbereitet gewesen. Man habe Notfallpläne gehabt. "Wir haben am 24. Februar 2022 (Tag des Kriegsbeginns, Anm.) Dateien für "Obi-Wan Kenobi" aus dem Luftschutzbunker geliefert." Das Team von Respeecher habe verstanden, dass es einen Marathon laufen, widerstandsfähig sein muss: "Wir sind müde, aber wir sind nicht erschöpft. Und das ist das Wichtigste." (Mickey Manakas, 11.3.2023)