Künstliche Intelligenzen, die auf Kommando Bilder malen, haben in den letzten Monaten breite Aufmerksamkeit erfahren – auch außerhalb der Tech-Welt. Zuletzt hat etwa der Sieg eines von der KI "Midjourney" generierten Gemäldes bei einem Ausstellungsbewerb auf der Colorado State Fair für einige Diskussionen darüber gesorgt, wie viel menschliche Kunst eigentlich in einem solchen Werk steckt.
Ungeachtet dessen erfreuen sich mittlerweile zigtausende Menschen an dem Werkzeug, das ihnen die Technologie bietet. Es reicht die Eingabe einer Idee – egal ob nur grob ausformuliert oder mit vielen Details –, um teils erstaunliche Resultate zu erzeugen. Während Google seinen eigenen Bildgenerator "Imagen" nicht öffentlich verfügbar macht und Open AI für sein Projekt "Dall-E 2" eine Warteliste für den öffentlichen Testlauf pflegt und die limitierte Auskopplung "Craiyon" (vormals "Dall-E Mini") wesentlich weniger leistungsfähig ist, ist Midjourney für jeden nutzbar. Neue User erhalten ein Kontingent an kostenlosen Credits für Tests und können anschließend für die Nutzung zahlen.
Bild-KI goes Open Source
Mit "Stable Diffusion" von Stability AI gibt es nun auch eine dritte Option. Diese wurde zuerst für Forscher freigegeben, steht seit Ende August aber auch der Allgemeinheit als Open Source zur Verfügung. Wer die Skills und Ressourcen dafür hat, kann damit auch direkt auf seinem eigenen Rechner Bilder erzeugen lassen. Diese Öffnung bietet daher großes Potenzial, birgt aber auch erhöhte Risiken – Stichwort: Deepfakes. Ebenso aber bessere Chancen, künftigen Fälschungen leichter auf die Schliche zu kommen.
Mit Dreamstudio gibt es ein von Stability selbst entwickeltes webbasiertes Tool, über dessen Interface verschiedene Einstellungen gesetzt und Bildbeschreibungen übermittelt werden können. Dieses befindet sich aktuell im Betatest. Interessenten können die Chance nutzen und derzeit ebenfalls kostenlos mit der KI experimentieren, ohne selbst Hand an den Code legen zu müssen.
DER STANDARD hat sie ausprobiert und einen Vergleich zu Midjourney angestellt. Dabei offenbaren beide KIs klare Unterschiede, Stärken und Schwächen.
Hinweise: Genutzt wurden die Standardeinstellungen von Dreamstudio (Bilder in der Größe von 512 x 512 Pixel, Cfg scale 7, Steps 50, Sampler kms und Version 1.5 des Stable-Diffusion-Modells). Die Anzahl der Ergebnisse für jede Eingabe wurde aber von einem Bild auf vier erhöht, um auch Varianten vergleichen zu können. Verglichen wird außerdem mit den Ergebnissen aus dem Midjourney-Probelauf im Juni. Die KI hat seitdem allerdings Updates erhalten, die Bilder geben dafür also nicht mehr zwingend den aktuellen Stand wieder.
Schnitzeltest und Tiefseequallen
Einleitend musste sich natürlich auch Stable Diffusion dem "Schnitzeltest" stellen und auf den Prompt "A Wiener Schnitzel on a plate" ein Bild erzeugen. Die Ergebnisse sind vergleichbar mit jenen von Midjourney.
Die Ergebnisse sind annähernd fotorealistisch. Während Midjourney sich recht penibel an die Vorgabe hält, allerdings in einem Resultat offenbar das Schnitzel als aufgegessen betrachtete, ergänzt Stable Diffusion Beilagen, die so manchen puristischen Anhänger des austriakischen Traditionsgerichts nicht erfreuen dürften.
Die nächste Herausforderung ist nicht nur komplexer, sondern bietet auch mehr künstlerische Elemente. Es geht um Qualle(n), die in der Tiefsee "schweben". Der Zusatz "mit Licht" lässt offen, ob dieses von der Umgebung stammt oder ausschließlich von den Quallen selbst ausgestrahlt wird. Auffällig ist hier, dass Stable Diffusion erneut Ergebnisse kreiert, die an Fotos erinnern, während Midjourney durchgängig zeichnerische Werke vorlegt.
Schön sind alle Ergebnisse auf ihre eigene Art, geht es aber um die glaubwürdige Abbildung von Quallen, so liegt Stable Diffusion klar im Vorteil. Das muss nicht unbedingt am KI-Modell selbst liegen, sondern kann auch bedeuten, dass beim Training der KI mehr Daten in Form von Text-Bild-Paaren eingeflossen sind. Oder dass diese schlicht mehr Quallen-Aufnahmen enthalten haben.
Bias-Check
Zeit, zu prüfen, welche Vorurteile und Stereotypen die KI aus dem Datenmaterial gelernt hat. Vor diesem Risiko warnten auch die Entwickler selbst, als sie ihre KI der Öffentlichkeit zugänglich machten. Ein Klassiker ist hier freilich die Abfrage ihres "Schönheitsideals". Wie also stellt sich Stable Diffusion den "schönsten Mann" bzw. die "schönste Frau der Welt" vor?
Die "Fotolastigkeit" der KI im Vergleich zur malerischen Ästhetik von Midjourney setzt sich hier fort. Beim männlichen Schönheitsideal liegen beide sehr ähnlich, nämlich mit einer klaren Tendenz zu einem schlanken, jungen Herrn mit Dreitagebart und heller Hautfarbe. Stable Diffusion gesteht diesem aber eine größere Varianz hinsichtlich der Frisur zu und erzeugt außerdem drei unterschiedlich aussehende digitale Frauen, während Midjourney mehrfach die gleiche "Person" abbildet. Stable Diffusion schlägt sich auch generell klar besser bei der Abbildung von Gesichtern, baut aber ebenfalls klar ersichtliche Fehler ein.
Dreamstudio hat allerdings zusätzlich Filter implementiert, mit denen "Not Safe for Work"-Inhalte ausgeblendet werden, weswegen hier mehrere Ergebnisse nur verwaschen dargestellt werden. Bei manchen Begriffen erscheint überhaupt nur eine Warnmeldung, die über ein Verbot informiert. In Sachen Gewalt zeigt sich der Filter deutlich weniger sensibel, ein blutiges Axtmordopfer im Wald wurde ohne Warnmeldung oder Weichzeichnung erzeugt.
Midjourney besser bei "freien" Eingaben
Geht es um Eingaben, die freie Interpretation fordern, spielt allerdings Midjourney im Vergleich seine Stärken aus. Auf die Aufforderung, eine Welt nach dem Verfehlen des Zwei-Grad-Klimaziels zu erfinden, generierte die KI eine Reihe dystopischer Visualisierungen.
Stable Diffusion hingegen legte sich beim Begriff "Welt" auf eine Karten- oder Globusdarstellung fest – in einem Fall ausschließlich auf die USA bezogen. Alle weiteren Angaben sind höchstens aus der Farbgebung oder der wenig erfolgreichen Generation von Pseudotext zu erkennen.
Nächstes Betätigungsfeld: Popkultur. Zur Erprobung, wie gewandt Stable Diffusion im Umgang mit spezifischen Referenzen und dem Erkennen bekannter, aber fiktiver Figuren ist, wurden zwei Aufgaben gestellt. Einerseits sollte der Leitspruch der Lovecraft'schen Cthulhu-Kultisten ("In seinem Haus in Rlyeh wartet der tote Cthulhu träumend") in ein Bild umgewandelt werden, andererseits der vulkanische "Enterprise"-Offizier Spock in einen Profi-Wrestler verwandelt werden.
Aus ihrem Datenschatz haben beide KIs eine gute "Vorstellung" davon entwickelt, wie das extraterrestrische Tentakelmonster aussieht. Stable Diffusion wechselt hierfür auch zu verschiedenen illustratorischen Darstellungen. Dass sich Cthulhu in einem wie auch immer gearteten Haus befindet oder träumen könnte, geht aus den Erzeugnissen aber nicht hervor. Midjourney nimmt diese Vorgabe immerhin auf, so ganz passt ein klassisches Bett mit Decke und Polster aber nicht ins Konzept.
Beim Showsport-Spock hingegen spielt Stable Diffusion seine Überlegenheit in der realistischen Abbildung von Gesichtern aus und liefert auch eine – wenn auch immer noch fehlerbehaftete – Visualisierung von Körperteilen.
Style-Transfer
Style-Transfer, also das Imitieren und Übertragen eines Zeichenstils, scheint Midjourney besser zu liegen. Bei der Erschaffung einer "fröhlichen" Szene im Stile des für seine düsteren Bilder bekannten Alfred Kubin hält sie sich besser ans Original als Stable Diffusion. Auch die "technische Zeichnung" des Brandenburger Tors sieht hier mehr aus wie aus einem Comic.
Vorteile hat Midjourney auch beim Nachahmen des Zeichenstils eines vierjährigen Kindes. Ob das auch daran liegt, dass Dreamstudio die Eingabe des Begriffs "child" gar nicht erst erlaubt und seine Schlüsse somit nur aus "4 year old" ziehen muss, sei dahin gestellt. Für die Plaza-Szene im Stil des "Matrix"-Films finden beide KIs unterschiedliche Zugangsweisen.
Midjourney ertränkt seine Ergebnisse in Grüntonen und scheint seine visuellen Clues weniger aus dem Live-Action-Film als der Cartoon-Serie "The Animatrix" zu ziehen. Stable Diffusion liefert Bilder mit stärker cineastischem Anspruch. Beim Betrachten der Ergebnisse würde man aber nicht unbedingt auf die Idee kommen, dass der vielleicht bekannteste Film mit Keanu Reeves die ästhetische Vorlage sein soll.
Bei komplexen künstlerischen Prompts zeigt sich Midjourney als fähiger. Das muss allerdings nicht zwingend am Datenbestand oder dem Erzeugungsverfahren liegen, sondern könnte auch schlicht besserem Textverständnis geschuldet sein. Die Vorgabe einen "sehr alten, faltigen Mann aus Stein als 2D-Kunst" zu erschaffen, wird noch gut erfüllt. Beim Star-Wars-Bäckerduell hingegen gehen jegliche Referenzen auf die Weltraum-Fantasy-Saga verloren.
Ausgesprochen schöne und glaubwürdige Werke liefern beide KIs ab, wenn es um Landschaftsbilder geht. Dabei lassen sich unterschiedlich gesetzte Schwerpunkte ebenfalls gut erkennen. Wo Stable Diffusion den Wunsch nach "viel Moos" sehr ernst nimmt, punktet Midjourney wiederum stark mit der Lichtstimmung.
Schier endloses Potenzial
Mit diesem Vergleich kratzt man aber nur an der Oberfläche dessen, was mit Technologie wie dieser und ihrer Offenlegung möglich wird. Obwohl der Quellcode noch nicht lange vorliegt, erwecken schon zahlreiche Enthusiasten das Potenzial von Stable Diffusion, wie Ars Technica dokumentiert.
Sie lassen die KI vollwertige Porträts aus den pixeligen Vorlagen von Computercharakteren aus Games-Klassikern wie "Monkey Island" erzeugen oder plastische, detaillierte Bilder aus Zeichnungen von Kindern. Ein Entwickler lässt die KI sogar die Blockwelt von "Minecraft" in eine realistische Landschaftsdarstellung "übersetzen". Das Ergebnis ist hier zwar noch von überschaubarer Qualität, gibt aber einen Vorgeschmack auf kommende Entwicklungen.
Die Bedeutung der Freigabe kann man kaum überschätzen. Zu diesem Schluss kommt auch der Computergrafik-Experte Karoly Szolnai-Feher. Der ehemalige Doktorand von der TU Wien gibt in einem Video auf seinem Youtube-Kanal "Two Minute Papers" eine kurze Übersicht zu den Möglichkeiten, die sich jetzt und in Zukunft eröffnen werden.
Wer Stable Diffusion selber austesten möchte, kann dies entweder mit dem Testkontingent von Dreamstudio oder auf dieser Demo-Website. Wer sich daran probieren möchte, die KI mithilfe der eigenen Grafikkarte laufen zu lassen, findet wiederum an dieser Stelle eine ausführliche Anleitung. (gpi, 11.9.22)