Ob Chatbots oder Bildgeneratoren: Generative KI sorgt immer wieder für Verblüffung. Und das aus gutem Grund: Mit riesigen Datensätzen im Hintergrund und monatelangem Training und Tuning dieser Modelle lassen sich allerlei beeindruckende Tricks vollziehen. Aktuell kommt immer stärker der Bereich Bewegtbild in den Fokus der Forschung. Bei Microsoft kann man dabei nun mit einer Neuerung aufwarten, die zwei Dinge zugleich ist: beeindruckend, aber auch irgendwie gruselig.

Ein Bild reicht

Die Vasa-1 genannte KI kann aus der Kombination eines einzelnen Porträtbildes und eines Audioclips ein Video erstellen, bei dem es so wirkt, als würde die am Foto abgebildete Person den Text sprechen. Auf der Projektseite hat Microsoft einige Beispiele veröffentlicht, die tatsächlich verblüffend echt wirken. Das KI-Modell kann nicht nur die Lippenbewegungen exakt an den Ton anpassen, sondern verbindet das auch mit allerlei Mimik und natürlich wirkenden Kopfbewegungen.

Was besonders beeindruckend ist: Laut Microsoft braucht es dafür keine riesigen Cloud-Systeme. Vasa-1 habe einen Online-Streaming-Modus, für den ein einzelner Desktop-PC mit einer Nvidia RTX 4090 GPU Clips mit 40 Bildern pro Sekunde bei 512 x 512 Pixel in Echtzeit erstellen kann – das mit einer Latenz von 170 Millisekunden.

Wozu das alles?

Genau das ist auch der Einsatzbereich, den Microsoft für diese Technologie sieht: als virtueller, aber sehr überzeugender Avatar, etwa für einen Livestream. Gleichzeitig betont das Unternehmen aber, dass man sich durchaus dessen bewusst sei, dass die Technologie allerlei Missbrauchspotenzial habe. Entsprechend gebe es vorerst keine Pläne, Vasa-1 zu veröffentlichen. Dieser Schritt soll erst folgen, wenn man sicherstellen kann, dass kein Missbrauch mehr möglich ist. Fürs Erste soll mit den Videos nur einmal der aktuelle Forschungsstand demonstriert werden.

Microsoft's VASA-1 Transforms Digital Communication with AI Facial Animations, Real-time demo
RetroFuturista

Dieser aktuelle Stand ist aber durchaus beeindruckend: So ist etwa auf der Demoseite zu sehen, wie drei Frauengesichter die gleiche Textpassage mit exakt der gleichen Mimik und Kopfbewegungen sprechen. Oder umgekehrt auch ein Gesicht mit dreimal komplett unterschiedlichen Bewegungen und Emotionen denselben Text rezitiert. Die Technik lässt sich aber auch nutzen, um künstlerische Bilder zu animieren, verdeutlicht wird das an einem Clip der Mona Lisa. (red, 19.4.2024)