Beispiele für Google Video-KI Lumiere
Google zeigt zahlreiche Beispiele dafür, wie die Video-KI Lumiere bestehende Anbieter wie Runway ML übertreffen soll.
Google

Generative künstliche Intelligenz (KI) kann inzwischen gut Texte schreiben und immer realistischer wirkende Bilder erstellen, im Videobereich hingegen besteht noch Luft nach oben. So werden in sozialen Medien immer wieder Clips geteilt, die mit Tools wie Runway ML erstellt wurden und die auf den ersten Blick beeindruckend wirken, sich bei näherem Hinsehen aber als offensichtliche Fakes entpuppen, weil die Animationen etwa nicht flüssig sind oder Artefakte erscheinen.

Forscherinnen und Forscher bei Google haben nun ein System namens "Lumiere" vorgestellt, das im Bereich der KI-generierten Videos neue Maßstäbe setzen soll. Es ermöglicht das Erstellen von Clips ebenso wie das Bearbeiten. Ausprobieren kann man Lumiere noch nicht, es könnte in Zukunft aber Einzug in bestehende Anwendungen des Konzerns finden. So hat Google auch angekündigt, Content-Creator auf Youtube mit KI unterstützen zu wollen.

Die Technik hinter Lumiere

In einem wissenschaftlichen Paper erläutern die Forscherinnen und Forscher die Technik hinter Lumiere. Demnach funktionieren bestehende KI-Videogeneratoren, indem bestimmte Keyframes als Bilder generiert werden und anschließend die Lücken zwischen diesen gefüllt werden, um eine Animation zu erstellen. Dabei kann es eben passieren, dass Fehler im Bild entstehen oder das Video nicht flüssig wirkt.

Lumiere Technik
Google

Mit Lumiere wird hingegen eine "Space-Time U-Net Architektur" vorgestellt, welche den Faktor Zeit von Anfang an in der Erstellung des Videos berücksichtigen soll: Der gesamte zeitliche Ablauf wird gleichzeitig mit einem einzigen Durchlauf durch das Modell generiert. Die KI sei entsprechend so trainiert, dass Videos mit einer Gesamtlänge von bis zu 80 Frames mit 16 Frames pro Sekunde erstellt werden können, woraus sich eine Gesamtdauer von fünf Sekunden pro Clip ergibt. Die Auflösung der quadratischen Clips liegt bei 1.024 mal 1.024 Pixeln und ist somit derzeit noch relativ niedrig.

Erstellen und bearbeiten

Die Möglichkeiten werden von Google unter anderem in dem nachfolgenden Video bildlich dargestellt. So gehört das Erstellen von Videos mit Textprompts zu den Kernfunktionen der Anwendung. Diese können auch mit hochgeladenen Standbildern kombiniert werden, welche die KI anschließend animiert. Ebenso können einzelne Teile eines Standbilds – das Schlagen von Schmetterlingsflügeln, Rauch aus einem Schornstein – gezielt animiert werden.

Lumiere
Inbar Mosseri

Weitere Möglichkeiten gibt es im Bereich der Videobearbeitung. So kann der Stil eines Bildes als Filtervorlage für Videos verwendet werden. Demonstriert wird außerdem, dass einzelne Elemente eines Videos – etwa das Kleid, das eine Protagonistin trägt – ausgetauscht werden können.

Ziel des Projekts ist laut Angabe der Forschenden im wissenschaftlichen Paper, Laien eine flexible Möglichkeit zum Erstellen von visuellen Inhalten zu bieten. Man sei sich jedoch auch der Gefahr bewusst, dass beleidigende oder irreführende Inhalte damit erstellt werden können. Demnach sei es wichtig, Tools für das Ausmerzen von Vorurteilen ("AI Bias") und das Verhindern von schädlichen Inhalten zu entwickeln.

Die Konkurrenz schläft nicht

Google ist mit seinen Bestrebungen jedenfalls nicht allein. So wird derzeit meist das eingangs erwähnte Tool Runway ML genutzt, welches ebenfalls die Erstellung von KI-Videos auf Basis von Texteingaben oder Bildvorlagen ermöglicht. Ebenso können Videos bearbeitet werden, indem etwa über die "Inpainting"-Funktion unerwünschte Objekte entfernt werden.

Der chinesische Konzern Alibaba präsentierte zudem Ende vergangenen Jahres das Tool "Animate Anyone", bei welchem Bildmaterial mit Bewegungssequenzen kombiniert wird, um Videos zu erstellen. Das Projekt ist nicht frei von Kritik, immerhin wurde für das Training des Modells Material von bekannten Tiktokerinnen ohne deren Zustimmung verwendet. (stm, 26.1.2024)

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
Hookszdp