Minecraft, von Sora animiert
Sora animierte eine Kopie von "Minecraft", inklusive realistischer Spielephysik.
Open AI

Vor gut einem Jahr hatte das Unternehmen OpenAI mit dem KI-Bot ChatGPT die Faszination für künstliche Intelligenz (KI) in die Masse gebracht. Nun ist dem Anbieter mit dem KI-Videotool Sora ein ähnliches Kunststück gelungen: Seit Tagen sind Menschen fasziniert davon, wie mit simplen Textbefehlen ganze Videos erstellt oder bestehende Clips editiert werden können. Aktuell ist Sora nur für einen sehr eingeschränkten Nutzerkreis verfügbar, weil das Team von OpenAI zunächst die Gefahr von Missbrauch – konkret: Deepfakes – evaluieren möchte.

Allerdings können nicht nur realistisch wirkende Videos, sondern ganze Computerspielwelten mit Sora erstellt werden, wie es in einem Artikel des Fachmediums "Techcrunch" mit Verweis auf ein entsprechendes Forschungspapier heißt. Demnach kann das Tool auch "digitale Welten simulieren". So habe das Team von OpenAI die Video-KI mit Prompts gefüttert, die das Wort "Minecraft" enthielten, und anschließend das Video einer überzeugend wirkenden Minecraft-Kopie erhalten, inklusive diverser Physikelemente, in denen die KI die Spielfigur steuerte.

Wie dies funktioniert, erklärt Nvidia-Forscher Jim Fian. Denn Sora ist ohnehin in erster Linie eine "datengetriebene Physik-Engine", bei der nicht einzelne Fotos oder Videos animiert werden, sondern die physikalischen Eigenschaften eines jeden Objekts in einer Umgebung berechnet werden und basierend auf diesen Berechnungen das Video oder eben eine dreidimensionale Videospielwelt erstellt wird.

Dennoch gibt es Einschränkungen. So kann etwa zerbrechendes Glas nicht korrekt dargestellt werden, an anderer Stelle ist das Video-Storytelling inkonsistent: So ist eine Person zu sehen, die in einen Burger beißt, ohne dass anschließend die abgebissene Stelle sichtbar ist. Dennoch könnte dieses oder andere Tools künftig das Erstellen dreidimensionaler Welten erleichtern.

Etliche Beispiele

In der Zwischenzeit werden weitere Beispiele im Netz geteilt, die das Potenzial von Sora demonstrieren. Die Videos wirken äußerst realistisch, dem Paper zufolge sing Auflösungen bis zu Full HD (1.080 p) möglich.

Audio, passend zum Video

In der Zwischenzeit hat Eleven Labs, ein weiteres KI-Unternehmen, Demo-Videos vorgestellt, in denen die passenden Hintergrundgeräusche zu den Videos zu sehen sind. Diese wurden ebenfalls zu 100 Prozent via KI generiert.

Diese Beispiele sind auf technischer Ebene beeindruckend, nähren eben deshalb aber auch Bedenken bezüglich der Verbreitung von Deepfakes. So ist gerade Eleven Labs jenes Unternehmen, mit dessen Technologie mit vergleichsweise wenig Aufwand realistisch wirkende Klone von Stimmen erstellt werden können. In der Vergangenheit hatte dies bereits zu Skandalen geführt, da die Stimmen von Schauspielerinnen und Politikern gefälscht wurden. (stm, 20.2.2024)