Mit KI-Tools wie Stable Diffusion und Midjourney erstellte Bilder haben in den vergangenen Monaten das Web geflutet, ermöglichen sie doch das Erstellen von teils fotorealistischen Werken mit simplen Sprachbefehlen ("Prompts"). In der Kreativbranche sorgt dies zunehmend für Unmut, unter anderem klagten Stockfoto-Agenturen gegen die Anbieter der Programme. Der Vorwurf lautet, dass für das Trainieren der KI widerrechtlich urheberrechtlich geschütztes Material verwendet wurde. Dieses Problem will der IT-Konzern Adobe – bekannt nicht zuletzt für die Bildbearbeitungssoftware Photoshop – gelöst haben: Dessen Bild-KI Adobe Firefly soll nur mit eigenem Bildmaterial von der Plattform Adobe Stock sowie mit Bildern, deren Urheberrecht abgelaufen ist, trainiert worden sein. Zum offiziellen Release von Firefly soll auch ein Lizenzmodell präsentiert werden, mit dem die auf Adobe Stock vertretenen Fotografinnen und Fotografen entsprechend entlohnt werden.

Eine Betaversion des Text-to-Image-Generators von Adobe Firefly wurde als Web-Version im März veröffentlicht, Interessierte können sich für eine entsprechende Warteliste anmelden. Die Web-Testversion ermöglicht es außerdem, Objekte per KI mit wenigen Klicks freizustellen oder Text zu stilisieren. Inzwischen kann außerdem eine Betaversion von Photoshop heruntergeladen werden, mit der man die Funktion namens "Generative Fill" ausprobieren kann: Dabei werden Bilder auf Wunsch mittels KI um bestimmte Inhalte erweitert. 

Der kommerzielle Launch dieser Tools dürfte bald stattfinden. So schreibt "The Verge", dass Generative Fill im zweiten Halbjahr 2023 den Weg in das reguläre Photoshop finden wird. Und Google hat im Rahmen seiner Entwicklerkonferenz Google I/O Mitte März angekündigt, dass die Bildgenerierung via Firefly auch in Googles KI-Sprachmodell Bard integriert werde. Allein aufgrund der starken Marktdurchdringung, aber auch wegen der rechtlichen Situation gehen Marktbeobachter davon aus, dass Firefly dann den bisherigen Platzhirschen der KI-Bildgenerierung den Rang ablaufen wird.

Adobe Firefly vs. Midjourney: Die Anwendung

Doch wie gut schlägt sich Firefly in der praktischen Anwendung, wenn man es direkt mit Midjourney vergleicht? Um dies herauszufinden, hat sich der STANDARD ergänzend zur bestehenden Midjourney-Lizenz einen Betazugang zu Firefly besorgt. Auffällig waren hier auch Unterschiede in der Anwendung der beiden Tools.

So wird Midjourney nach wie vor über den eigentlich auf die Zielgruppe der Gamer ausgerichteten Messenger Discord bedient. Der User oder die Userin gibt den Befehl "/imagine" ein und ergänzt diesen um den gewünschten Prompt, unter anderem werden auf diese Weise auch Bildstil, Belichtung und Seitenverhältnisse (über den Befehl "--ar") gesteuert. Wer also mit Midjourney gute Bilder erstellen möchte, muss zunächst das Prompten erlernen. 

Bereits in der Betaversion erinnert Adobe Firefly stark an die Funktionalitäten von Photoshop.
Adobe/Screenshot

Bei Adobe ist das anders. Hier wird zwar in die Befehlszeile eingetippt, welche Objekte in dem Bild zu sehen sein sollen, jegliche anderen Aspekte können aber über Icons und Menüs per Maus ausgewählt werden. Dazu gehören das Seitenverhältnis ebenso wie die Art des Bildes – Foto, Grafik oder Kunstwerk – sowie diverse Stilvorlagen und Optionen für Farbgestaltung, Belichtung und Bildkomposition. In Summe erinnert das System in seiner jetzigen Form bereits stark an die Bedienung von Photoshop. Es ist somit davon auszugehen, dass sich auch technisch weniger affine Menschen bei der Integration in die Creative Cloud rasch zurechtfinden werden. Wer will, der kann übrigens trotzdem auch Befehle, etwa zu ISO-Werten, Belichtung oder Blendenöffnung, direkt in den Prompt schreiben. 

Bilder-KIs im Vergleich: Die Ergebnisse

Im ersten Test wurde das wohl meistgenutzte Sujetbild einer jeden Tech-Redaktion verwendet: ein Hacker, der an einem Computer sitzt. Hierzu wurde in Firefly der Prompt "a hacker sitting at a computer" eingegeben, als Bildverhältnis wurde 4:3 ausgewählt, ein Fotostil sollte genutzt werden, weitere Attribute waren "Pastellfarben", "dramatische Beleuchtung" und "von unten fotografiert".

Die Ergebnisse überraschen schon einmal in einer Hinsicht: Den klischeehaften schwarzen Hoodie sucht man hier vergebens. Dafür wurde die Anweisung "von unten fotografiert" gänzlich ignoriert, und es finden sich zahlreiche Fehler, von falsch positionierten Bildschirmen bis zu Händen mit mehr als fünf Fingern.

Firefly-Prompt: "a hacker sitting at a computer"
Adobe Firefly/Stefan Mey

Bei Midjourney müssen wir die Firefly-Attribute per Textbefehl eingeben und nutzen dafür den Prompt "a hacker sitting at a computer, photo, pastel color, dramatic lighting, shot from below --ar 4:3". Hier werden unsere Erwartungen erfüllt, und wir werden mit Hoodie-tragenden jungen Männern in dunklen Räumen beglückt, so wie man sie aus Stockfoto-Bildern kennt. Auch hier sind Fehler bei den Händen sichtbar, andere Aspekte hingegen stimmen. Nota bene: Das Gender-Verhältnis ist ein gänzlich anderes. 

a hacker sitting at a computer, photo, pastel color, dramatic lighting, shot from below --ar 4:3
Midjourney-Prompt: "a hacker sitting at a computer, photo, pastel color, dramatic lighting, shot from below --ar 4:3"
Midjourney/Stefan Mey

Nun ist es aber ohnehin so, dass die Nutzung von KI-generierten fotorealistischen Bildern im kommerziellen Kontext ohnehin nicht unproblematisch ist. Stichwort: Deepfakes. Daher versuchen wir es im nächsten Schritt mit einem KI-generierten Kunstwerk unter dem Firefly-Prompt "a car driving through a beautiful landscape, blue sky, one cloud takes the form of the car, the sun is shining". Als Content-Typ wurde Kunst ausgewählt, als Stil "Graffiti".

Die Ergebnisse sind in Ordnung, würden im realen Einsatz aber wohl ein gewisses Ausmaß an Nachbearbeitung erfordern. Vor allem wurde von der KI die Anweisung ignoriert, dass die Wolke die Form des Autos annehmen soll. 

Firefly-Prompt:
Firefly-Prompt: "a car driving through a beautiful landscape, blue sky, one cloud takes the form of the car, the sun is shining"
Adobe Firefly/Stefan Mey

Nicht anders lief es bei Midjourney, wo auf den Prompt "a car driving through a beautiful landscape, blue sky, one cloud takes the form of the car, the sun is shining. Graffiti art. --ar 4:3" die Wolken-Anweisung ebenfalls ignoriert wurde. Zudem war eines der vier Bilder gar kein Graffiti-Kunstwerk, sondern erinnerte eher wieder an ein fotorealistisches Werk. 

Midjourney-Prompt:
Midjourney-Prompt: "a car driving through a beautiful landscape, blue sky, one cloud takes the form of the car, the sun is shining. Graffiti art. --ar 4:3"
Midjourney/Stefan Mey

Interessant wird es auch, wenn Fake-Fotos von berühmten Persönlichkeiten generiert werden sollen. So spuckte Firefly auf den Prompt "editorial photo of donald trump eating ice cream at the beach, taken during golden hour, iso 100, aperture 2.3." eine Warnmeldung aus und ersetzte den ehemaligen US-Präsidenten durch herkömmliche Stockfoto-Models.

Firefly-Prompt:
Firefly-Prompt: "editorial photo of donald trump eating ice cream at the beach, taken during golden hour, iso 100, aperture 2.3."
Adobe Firefly/Stefan Mey

Bei Midjourney kennt man hier bekanntermaßen keinen Genierer. Der Prompt "editorial photo of donald trump eating ice cream at the beach, taken during golden hour, iso 100, aperture 2.3. --ar 3:2" führte zum gewünschten Ergebnis, und zwar auch in fotorealistischer Qualität.

Midjourney-Prompt:
Midjourney-Prompt: "editorial photo of donald trump eating ice cream at the beach, taken during golden hour, iso 100, aperture 2.3. --ar 3:2"
Midjourney/Stefan Mey

Die Einschränkungen von Firefly finden sich aber nicht nur in Bezug auf reale Personen, sondern auch auf fiktive Charaktere. So sucht man bei den Ergebnissen zum Prompt "editorial photo of the skyline of vienna, being destroyed by godzilla, during a thunderstorm, iso 100, aperture 2.3" die japanische Riesenechse vergebens. Aber immerhin schaut Wien recht schick aus. 

Firefly-Prompt:
Firefly-Prompt: "editorial photo of the skyline of vienna, being destroyed by godzilla, during a thunderstorm, iso 100, aperture 2.3"
Adobe Firefly/Stefan Mey

Doch auch bei Midjourney läuft es mit dem Prompt "editorial photo of the skyline of vienna, being destroyed by godzilla, during a thunderstorm, iso 100, aperture 2.3 --ar 4:3" nicht deutlich besser. Immerhin zeigt eines von vier Bildern eine Echse, die entfernt an Godzilla erinnert. 

Midjourney-Prompt:
Midjourney-Prompt: "editorial photo of the skyline of vienna, being destroyed by godzilla, during a thunderstorm, iso 100, aperture 2.3 --ar 4:3"
Midjourney/Stefan Mey

Schwer tut sich Firefly auch mit bekannten westlichen Comicfiguren. Auf den Prompt "robin slapping batman, in the style of roy liechtenstein" gibt es zwar Superhelden-Futter, mit Batman und Robin hat das aber gar nichts zu tun.

Firefly-Prompt:
Firefly-Prompt: "robin slapping batman, in the style of roy liechtenstein"
Adobe Firefly/Stefan Mey

Besser läuft es hier bei Midjourney mit dem Prompt "robin slapping batman, in the style of roy liechtenstein --ar 4:3", auch wenn das Duo nicht immer perfekt dargestellt wird und die gewünschte Watschn auf keinem der Bilder zu sehen ist.

Midjourney-Prompt:
Midjourney-Prompt: "robin slapping batman, in the style of roy liechtenstein --ar 4:3"
Midjourney/Stefan Mey

Letzter Versuch: das Imitieren bekannter Maler, deren Urheberrecht längst abgelaufen ist, in diesem Fall van Gogh. Ob der Firefly-Prompt "a maple tree standing in front of a red brick house in the style of van gogh" zum gewünschten Ergebnis führt? Urteilen Sie selbst.

Firefly-Prompt:
Firefly-Prompt: "a maple tree standing in front of a red brick house in the style of van gogh"
Adobe Firefly/Stefan Mey

Und bei Midjourney? Auch nicht wirklich besser. 

Midjourney-Prompt:
Midjourney-Prompt: "a maple tree standing in front of a red brick house in the style of van gogh --ar 4:3"
Midjourney/Stefan Mey

Fazit: Potenzial und Luft nach oben

Im direkten Vergleich punkten die beiden Tools in unterschiedlichen Kategorien. Bei Firefly ist vor allem die einfache Bedienbarkeit ein Pluspunkt, und die Integration in Photoshop wird zusätzliche Möglichkeiten schaffen. Das Trainingsmaterial spiegelt sich hier auch in den Ergebnissen wider: Die Bilder erinnern eher an Stockfotos, während Midjourney oft ausgefallenere Ergebnisse liefert. 

Dass Worte wie "Donald Trump" bei Firefly unterbunden werden, ist im Grunde zu begrüßen, denn immerhin wird das Erstellen von Deepfakes damit zumindest erschwert. Andererseits spricht aber nichts dagegen, den Stil berühmter Maler imitieren zu lassen, wenn das Urheberrecht der entsprechenden Werke abgelaufen ist. (Stefan Mey, 24.5.2023)