Seit letztem Jahr gibt es mit Stable Diffusion, Midjourney und Dall.E mehrere Computerprogramme im Internet, die auf eine Texteingabe hin detaillierte Bilder produzieren. Diese zeigen scheinbar mühelos komplexe Formen, Strukturen und Texturen. Die Resultate verbessern sich fast jeden Monat, wenn man sie daran misst, wie genau sie eine scheinbare oder mögliche Realität überzeugend darstellen.

Das ist kein Wunder, denn diese Programme werden mit unzähligen bestehenden Bildern aus dem Internet gespeist. Was sie dann damit tun, wird meistens mit dem lapidaren Hinweis auf KI, künstliche Intelligenz, erklärt. Dabei geht es immer noch um Formen von "Machine-Learning" und nicht um Formen von Intelligenz, die etwas wirklich Neues generieren können, nur andere Ordnungen von Bestehendem.
Das soll nicht heißen, dass das Arbeiten mit diesen Programmen nicht viel Spaß macht, gerade wegen überraschender Kombinationen von Bekanntem und Unbekanntem – und weil man vorher nicht weiß, was passieren wird. Ich kann Ihnen dabei auch nicht weiterhelfen: Ich habe das Programmieren noch mit Algol und Lochkarten gelernt und es dann dummerweise frustriert aufgegeben. Der Reiz von Programmen wie Midjourney ist nicht zuletzt ihre scheinbare Einfachheit. Man gibt den "prompt"ein, den Text, der alles in Bewegung setzt, und es kommt etwas unglaublich Komplexes heraus, bei dem man trotzdem das Gefühl hat, dass man es selbst gemacht hat.
Stell dir vor ...
Wenn man versucht, eine Realität darzustellen, zum Beispiel ein Porträt oder eine Stadt, funktioniert das nur bis zu einem gewissen Grad und nur bei Beispielen, die in den Vereinigten Staaten berühmt sind – sagen wir, Donald Trump oder Manhattan, gesehen von der Brooklyn Bridge. Auf jedem Fall hat das Lernmaterial von Midjourney seinen Schwerpunkt eindeutig bei amerikanischen Vorbildern. Dann kommt Europa und irgendwann der Rest der Welt. Aber alle Darstellungen haben entscheidende Fehler. Nicht umsonst ist das Erste, was man beim Midjourney-Bot eintippt: /imagine: /, also: "Stell dir vor".

Ich merke bei meinen eigenen Versuchen, dass man inzwischen schon einige Menschen glauben machen kann, dass es sich bei den Resultaten um Fotos handelt. Zum Beispiel eine Serie, in der ich Midjourney beauftragte, junge Versionen berühmter Architektinnen und Architekten zu generieren, kombiniert mit bekannten Narrativen, die man mit diesen Personen verbindet. Diese Akzeptanz hat möglicherweise auch mit der Schnelligkeit und Oberflächlichkeit der sozialen Medien zu tun und mit dem, was Menschen sehen wollen und als wahr annehmen möchten.
Ein Klischeebild
Wenn man versucht, KI aufzufordern, sich etwas wirklich Neues vorzustellen, scheitert es daran, dass die Programme nur von bestehenden Bildern lernen, so viele das auch sein mögen. Wenn man etwas in der Zukunft verlangt, bekommt man also meistens ein Klischeebild von "etwas in der Zukunft".

Das ist enttäuschend für diejenigen, die die künstliche Intelligenz als Entwurfswerkzeug einsetzen wollen, wie Architekten, Designer und Künstlerinnen. Man kann bei einigen Programme selbst Datasets von Bildern hochladen, aber man kommt nie an die Milliarden von Bildern heran, die Midjourney seine Qualität verleihen.
Man kann natürlich versuchen, die Software auszutricksen, indem man gezielt unterschiedliche Objekte oder Phänomene zusammenbringt. Es entsteht dann eine seltsame Schönheit wie in Lautréamonts berühmtem Beispiel vom zufälligen Zusammentreffen einer Nähmaschine mit einem Regenschirm auf einem Seziertisch. Vielleicht kommt ein Cartoon heraus, der das Absurde einer Situation zeigt, oder es eröffnet sich trotz unmöglicher und widersprüchlicher Anforderungen eine überraschende Synthese.

Ein KI-generiertes Bild kann die Illustration einer ersten Idee sein, doch wird es immer nur ein flaches Bild bleiben. Für Architektinnen und Designer lassen sich nur über Umwege Grundrisse herstellen, die zum generierten Bild passen, noch schwieriger ist es, in umgekehrter Richtung Entwürfe aus KI-Grundrissen entstehen zu lassen. Man kann Größe und Maßstab nicht kontrollieren, und das Objekt, das man gestalten möchte, hat keinen realen Kontext, sondern steht im leeren Nichts oder in einer Fantasielandschaft.
Psychose und Kitsch
Die meisten Bilder, die von den neuen KI-Programmen generiert werden, gehören zweifellos in die Kategorien Fantasy, Science-Fiction und Horror, inklusive der furchterregenden psychedelischen Farben, die dazugehören. Bereiche also, die traditionell schon aus einer Mischung aus übertriebenem Realismus, historischen Referenzen und völligem Unsinn bestehen.

Der Philosoph Roland Barthes diagnostizierte am Beispiel der menschlichen Vorstellungen von Marsmännchen eine Psychose, die auf dem Mythos des Identischen, des Doppelgängers basiert. Diese Psychose wird von Midjourney mehr als befriedigt. Doch die unglaubliche Detailliertheit und der Reichtum an Texturen werden aufgrund des Überflusses an Klischees, Details, Texturen und Stimmungen unweigerlich zum Kitsch. Und nach Umberto Eco ist Kitsch "die ideale Nahrung für ein träges Publikum, das Zugang zu Schönheit haben und sie genießen möchte, ohne sich allzu sehr anstrengen zu müssen."
Bedeutet das, dass Midjourney grundsätzlich unbrauchbar ist? Im Gegenteil. Wir sind nur am Anfang, auch wenn wir, wie der Name suggeriert, in der Mitte der Reise sind. Und diese Reise ist faszinierend wie gefährlich. Am besten ist es, statt Marsmännchen entwerfen zu lassen, selbst als Marsmännchen diese Welt zu betreten, wie einen fremden Planeten, auf dem man in aller Unschuld versucht, zurechtzukommen. Und vielleicht können wir irgendwann damit entwerfen. (Bart Lootsma, 4.3.2023)