KIs können uns auf Kommando Bilder generieren, komplexe Texte verfassen und vieles mehr. Die Werkzeuge dazu werden aber nicht nur besser, sondern auch einfacher zugänglich. Das wirft Fragen auf, denn einige Künstler sind etwa gar nicht begeistert davon, dass Midjourney und Konsorten auch durch ihre Werke angelernt wurden, ohne dass man um Erlaubnis gefragt worden wäre.

Allerdings ist auch Kunst ein iterativer und derivativer Prozess, kaum ein Werk leiht sich – egal ob absichtlich oder nicht – keine Ideen, die es in tausenden Jahren menschlicher Kulturgeschichte nicht schon einmal gegeben hat. Inwieweit die Auswertung der urheberrechtsgeschützten Bilder rechtens war, soll nun in den USA durch eine Sammelklage festgestellt werden.

Von der KI-Idee zum 3D-Druckwerk

Doch wie "kreativ" ist eigentlich künstliche Intelligenz, und wie weit lässt sich mit ihr der Prozess von der Idee über das Motiv bis hin zu einem fertigen, plastischen, analogen Stück mit ihr automatisieren? DER STANDARD hat das Experiment gewagt und versucht, künstliche Intelligenz ein Modell erdenken, entwerfen und 3D-druckreif konstruieren zu lassen.

Im ersten Schritt wurde Chat GPT konsultiert, jenes KI-System, das in den letzten Monaten besonders für Furore gesorgt hat. Seine Fähigkeiten in Diskursführung, aber auch beim Verfassen von Texten sorgten weithin für Verzückung. Sie offenbarten aber auch schnell Missbrauchspotenzial, mehrten sich doch Berichte von Lehrkräften, die darüber klagten, dass ihre Schülerinnen und Schüler sich ganze Hausübungen von der Maschine schreiben lassen.

Der "Escher-Würfel" nach Vorstellung von Midjourney. Foto: Screenshot

Escher-Würfel und Kugelstadt

In diesem Versuch beließen wir es bei einer etwas simpleren Aufgabe. Die Software von Open AI wurde gebeten, drei Vorschläge für ein 3D-Druckmodell zu liefern. Die Vorgaben: Es sollte eher etwas "Originelles" denn ein häufig anzutreffendes Objekt sein und sich in einem Teil ausdrucken lassen können. Letzteres diente der Verringerung des zeitlichen Aufwands, den modulare Druckobjekte typischerweise mit sich bringen.

Die Antworten gewinnen zwar keinen Kreativitätspreis, erfüllen aber die gesetzten Kriterien ganz gut. Sie zeigen aber auch, dass diese KIs eben auch noch limitiert und nicht in der Lage sind, neue Konzepte zu entwickeln. Letztlich sind sie schlicht fortgeschrittene, spezialisierte "Mustererkenner".

Wendeltreppen bereiten der KI noch Probleme. Foto: Screenshot/Midjourney

Der erste Vorschlag ist eine Wendeltreppe, die sich laut KI-Beschreibung um eine zentrale Säule windet und deren Stufen graduell nach oben hin kleiner werden. Als Zweites nominierte Chat GPT einen "Escher-Würfel", der die unmögliche Geometrie der "Lattenkiste" von M. C. Escher mit einem klassischen Würfel verbinden soll. Nummer drei ist eine "Kugelstadt", also eine Ansammlung an Gebäuden, die sich in einer Kugelform zu einer Siedlung zusammenfügt.

Die Limits der Maschine

Damit ausgestattet, ging es zu Midjourney, der derzeit wohl mächtigsten für die Allgemeinheit zugänglichen Bilder-KI. Diese wurde mit den Modellbezeichnungen und dem Zusatz, diese explizit in Form eines 3D-Modells auf einfarbigem Hintergrund abzubilden, gefüttert. Auch das deckte Defizite der noch in ihren Kinderschuhen befindlichen Technologie auf. Midjourney war partout keine Wendeltreppe zu entlocken, die nicht massiv deformiert und untauglich für klassischen FDM-3D-Druck war.



Bei diesem Verfahren, "Fuse Deposition Modelling", wird das verflüssigte Druckmaterial von einer feinen Düse schichtweise zu einem Modell aufgetragen. Dadurch ergeben sich freilich schwerkraftbedingte Limits, die sich auch durch mühsam wieder zu entfernende Stützkonstruktionen nicht vollständig beheben lassen. Diese Idee musste also verworfen werden.

Ursprünglich hätte die rechte obere Variante zu einem 3D-Modell gemacht werden sollen, was Kaedim allerdings verweigerte. Foto: Screenshot/Midjourney

Besser sieht es beim "Escher-Würfel" aus. Zwar zeigt sich, dass die Visualisierung von "unmöglicher Architektur", besonders in Zusammenspiel mit einer anderen Form, der KI eine Nummer zu groß ist. Dennoch spuckte sie auf den Begriff hin interessante und drucktaugliche Entwürfe aus.

Bei der "Kugelstadt" zeigte sie dann schließlich ihre Stärken. Hier fanden sich schon beim ersten Anlauf mehrere Varianten einer "runden" Ansiedlung, die als Deko-Objekt das Wohnzimmer schmücken könnten.

Vom flachen Bild zum plastischen Modell

Die größte Herausforderung ist allerdings die Umsetzung eines solchen zweidimensionalen Einzelbildes in ein 3D-Modell. Denn dazu gilt es für eine KI, verschiedene Lücken zu füllen. Sie muss nicht nur die Ränder eines Objekts erkennen, sondern auch korrekt aus Helligkeitswerten, Schatten und anderen Merkmalen Tiefeninformationen generieren – und je nach Modell müssen dann auch noch verdeckte Stellen glaubhaft ausgefüllt werden.

Foto: Screenshot/Kaedim

Apps wie "Polycam" sind in der Lage, aus einer Reihe von Einzelaufnahmen, die ein Objekt aus verschiedenen Perspektiven zeigen, recht gute 3D-Umsetzungen zu erzeugen. Dazu kommt bei Handyfotos auch der Vorteil von Sensordaten, die beispielsweise verraten, in welchem Winkel das Telefon bei der Aufnahme geneigt war. Und nicht umsonst nutzen manche Highend-Smartphones mittlerweile Lidar-Sensoren zur laserbasierten dreidimensionalen Erfassung der Umgebung.

Im vorliegenden Fall gab es aber nur ein einzelnes Bild für ein Modell, ganz ohne hilfreiche Zusatzdaten. Das Angebot an Lösungen, diese automatisiert in ein 3D-Modell zu verwandeln, ist dementsprechend klein. Beim Chiphersteller Nvidia arbeitet man etwa an einer KI, die Objekte aus Einzelbildern erzeugen können soll. Diese ist aber derzeit noch auf bestimmte Gegenstände, vor allem Mobiliar, limitiert und nicht für "allgemeinen" Gebrauch tauglich.

Die schließlich akzeptierte Variante einer "Kugelstadt". Foto: Screenshot

Lösung aus London

Hier kommt das Londoner Start-up Kaedim ins Spiel. Seine gleichnamige KI verspricht, auch unter solchen schwierigen Bedingungen brauchbare Ergebnisse liefern zu können. Das lässt man sich allerdings kosten. Selbst ein Probekonto, über das man ein Modell generieren kann, kostet sechs Dollar. Drei Generationen mit optional hoher Detailstufe schlagen mit 30 Dollar zu Buche, zudem steht diese Möglichkeit nur einmalig zur Verfügung.

Danach beläuft sich das günstigste Abo auf knapp 600 Dollar pro Monat. Allerdings richtet sich der Dienst auch nicht an Privatpersonen, sondern an Games-Entwickler, Animationsstudios und andere Firmen, die tagtäglich mit 3D-Modellen hantieren. Gründerin ist Konstantina Psoma.

Die gebürtige Griechin wurde nach eigenen Angaben von einer schlechten Note für eine 3D-Modelling-Aufgabe zur Entwicklung von Kaedim motiviert. Mittlerweile erfreut sich die 2020 aus der Taufe gehobene Firma der Unterstützung von Nvidia und dem Games-Riesen Epic. Zu Psomas Mentoren gehört auch Shawn Layden, der einst die Games-Sparte von Sonys Playstation-Abteilung leitete.

Stolpersteine und Ergebnisse

Immerhin, der Erstellungsprozess ist einfach gestaltet. Man lädt eines oder mehrere Bilder hoch, die idealerweise das Objekt vor weißem oder einfärbigem Hintergrund zeigen. Danach lässt sich der Bildausschnitt festlegen, die Höhe des Modells definieren und die Umsetzung starten. Optional kann eine Detailstufe für das Modell gewählt werden, dann dauert dessen Erstellung aber länger. Gut 20 bis 30 Minuten verbrachten die eingereichten Bilder in der Warteschleife und im Rechenprozess.

Allerdings nimmt Kaedim nicht jede Vorlage an. Während der Escher-Würfel anstandslos akzeptiert wurde, verweigerte die KI die Verarbeitung mehrerer Kugelstädte, da sie darin mehrere Objekte anstelle eines einzelnen erkannte. Das verlangte nach einem Feintuning der Eingaben bei Midjourney, das im nächsten Anlauf zusätzlich die Anweisung erhielt, ein "simples" Modell zu visualisieren. Das Ergebnis – es sieht eher aus wie ein Kugelhaus denn eine Siedlung – erachtete dann auch Kaedim als tauglich.

Das von Kaedim erzeugte 3D-Modell der Stadt. Foto: Screenshot/Kaedim

Die fertigen Modelle erwiesen sich als gut erkennbare, wenn auch nicht hundertprozentig exakte Reproduktion der Visualisierungen von Midjourney. Die "Lückenfüller"-Kompetenz von Kaedim ist dabei durchaus beachtlich. So ergänzte es beim Würfel glaubwürdig mehrere Seiten und den kompletten Innenraum, die auf dem Bild gar nicht zu sehen sind. Beim kugeligen Gebäude kamen zwar keine weiteren Fenster oder Türen hinzu, aber der Dachbelag wurde etwas weiter gezogen.

Wer möchte, kann Iterationen des Modells erzeugen lassen. Als Werkzeug stehen dazu Textkommandos zur Verfügung, wobei sich die zu bearbeitenden Areale auf den hochgeladenen Grafiken markieren lassen.

Finale



Zu guter Letzt gilt es nun, die Modelle zu drucken. Dafür werden sie über eine eigene Software, einen sogenannten Slicer, in Befehle übersetzt, die der 3D-Drucker schließlich umsetzt. Menschliche Intervention benötigt hier die Anpassung der Druckeinstellungen sowie die Skalierung des Modells auf die gewünschte Größe. Alles andere erledigt auch hier der Computer.

Ab dann heißt es: Warten auf das Ergebnis. Dafür muss man bei handelsüblichen FDM-Druckern ein paar Stunden Geduld mitbringen, um ein fünf Zentimeter hohes Modell in ansprechender Qualität zu erhalten.

Die ausgedruckten Modelle. Beim "Escher-Würfel" sorgten große Überhänge für ein paar Schönheitsfehler beim Ausdruck. Allerdings kein Fehler der KI, sondern der menschlichen Einschätzung der Limits von Drucker und Material. Foto: DER STANDARD/Pichler

Ausblick

Die Ergebnisse mögen noch recht rudimentär wirken, geben aber einen Einblick in die Zukunft. Und in dieser dienen Maschinen weiterhin dem Menschen, statt ihn überall zu ersetzen. Bild- und Text-KIs lassen sich zum schnellen Inspirationsgewinn und zur Vorlagenerstellung nutzen. Technologien wie Kaedim unterstützen auch künstlerisches Prototyping. Wie könnte eine nach einem bestimmten Konzept geformte Skulptur auf einem Foto aussehen? Wie in 3D? Als analoger, plastischer Gegenstand?

Natürlich bleiben Fragen zum Lernmaterial dieser Systeme zu klären, und Gefahren wie Deepfakes sollte man nicht unterschätzen. Bei aller angebrachten Skepsis sollte man aber auch nicht den Blick auf die Chancen vergessen, die in dieser Technologie schlummern. Sie sind letztlich ein Werkzeug, das erfahrene Künstler in ihrer Arbeit unterstützen kann. Sie werden es kreativen Menschen ermöglichen, ihre Ideen leichter in Werke umzusetzen. Und diese Vielfalt wird letztlich allen zugutekommen. (gpi, 29.1.2023)