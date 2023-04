KI-Bildgeneratoren wie Midjourney können fast jeden erdenklichen Text in Bilder umwandeln, doch sie scheitern an Händen und Füßen

So stellen sich der KI-Bildgenerator Stable Diffusion eine menschliche Hand vor. Foto: Stable Diffusion

Es gibt Dinge, die kann künstliche Intelligenz erstaunlich gut: Sprache erkennen oder auch selbst sprechen, wissenschaftliche Paper zusammenfassen oder Bilder auf Textbefehl generieren.

Und dann gibt es Dinge, die kann künstliche Intelligenz erstaunlich schlecht: Hände zum Beispiel. Bildgeneratoren wie Dall-E, Midjourney oder Stable Diffusion schaffen es konsequent nicht, eine menschliche Hand mit fünf Fingern zu zeichnen. Auch Füße wollen den Maschinen nicht so ganz gelingen.

Franziskus in der Winterjacke

Das ist einerseits praktisch, um Fakes als solche zu enttarnen. Ein Foto, das Papst Franziskus in einer hippen weißen Daunenjacke zeigt und Ende März kursierte, sieht eigentlich ziemlich glaubhaft aus. Wäre da nicht – neben einigen kleinen anderen Unregelmäßigkeiten – die verformte Hand, die aus dem geplusterten Ärmel schaut.

Andererseits stellt sich die berechtigte Frage, wie eine solch scheinbare Kleinigkeit wie das Zeichnen einer Hand die KI-Bildgeneratoren, die praktisch alle Kunstschaffenden der Weltgeschichte imitieren können, aus dem Konzept bringen kann.

Pure Absicht?

Im Internet kursieren bereits krude Theorien: etwa dass sich die KI absichtlich dümmer stellt, damit wir Menschen uns keine Sorgen darüber machen, dass sie die Weltherrschaft übernimmt, und sie nicht beschränken.

Eine andere Theorie lautet, dass die Entwickelnden ihren künstlichen Intelligenzen das Zeichnen von Händen absichtlich "verlernt" haben, damit wir KI- Kreationen noch von menschlichen unterscheiden zu können. Ein letzter Strohhalm zusagen, an dem wir uns in einer Welt, in die Grenzen der Realität immer weiter verschwimmen. Richtig überzeugend ist keine der Deutungsversuche – vor allem, da wohl keine Entwicklungsfirma auf den Wettbewerbsvorteil echter Hände verzichten würde.

Die Software Dall-E des Unternehmens OpenAI zeichnet eine Hand mit vier Fingern. Foto: Dall-E

Auch ChatGPT kann nicht so ganz erklären, was ihre Kolleginnen da so treiben. Dreimal erklärt die KI-Software, jeweils in anderen Worten, dass Hände eben eine "Herausforderung" seien, ohne darauf einzugehen, was das Problem ist.

Hände zum Zähne ausbeißen

Da ist einerseits natürlich etwas dran. Die Extremitäten abzubilden gilt in der bildenden Kunst als besonders schwierig. Albrecht Dürer oder Leonardo da Vinci fertigten Handstudien an, bevor sie die Hände in ihre eigentlichen Werke integrierten. Unzählige Bücher, How-to-Videos und Blogs geben deshalb Tipps für das Zeichnen der perfekten Hand.

Warum es so schwierig ist, wird dort stets damit erklärt, dass Hände mit ihren vielen Knochen, Muskeln und Sehnen filigran seien. Weil Hände auch häufig dazu da sind, um Emotionen zu zeigen, fällt es uns außerdem sofort auf, wenn mit einer Hand etwas nicht stimmt.

Auf den ersten Blick nahe dran, aber doch falsch: Die Kreation, die Midjourney (Version 4) auf den Befehl "human hand" generierte. Foto: Midjourney

Sie kann nicht zählen

Doch was für den Menschen stimmt, stimmt nicht unbedingt für die Maschine. Warum Midjourney und Co bei Händen versagen, hat einen ganz anderen Grund: "Diese Bildgeneratoren können nicht bis fünf zählen", sagt Horst Bischof vom Institute of Computer Graphics and Vision an der Technischen Universität Graz. Sogenannte Transformer-Modelle funktionieren mit Statistik, versagen aber in Kombinatorik, also dem Lösen bestimmter komplexer Probleme.

Die Bildgeneratoren wissen zwar anhand der Millionen Bilder, mit denen die Programme trainiert wurden, wie eine Hand aussieht – aber nicht, was sie ist: dass sie fünf Finger in einer festen Anordnung hat, etwa.

In der aktuellen Version von Midjourney haben Hände fünf Finger – meistens. Foto: Midjourney

Handmodels können aufatmen

Noch ist nicht ganz erforscht, wie man das statistische Wissen aus Deep Learning mit symbolischem, abstraktem Wissen koppeln kann, sagt Bischof. Das auf Statistik basierende Deep Learning, mit dem Midjourney derzeit arbeitet, eigne sich jedenfalls nicht dafür.



Was tut man nun als Prompt-Designer, der auf Hände in seinen KI-Kreationen nicht verzichten will? "Weisen Sie Midjourney an, Hände in Taschen zu verstecken", rät ein auf KI-Bilder spezialisierter Blog. Für viele Fälle reicht das, für die Zahnpastawerbung wohl nicht. Das Berufsbild des Handmodels ist also nicht in Gefahr.

Zumindest vorerst. Denn mit der Mitte März veröffentlichten Version 5 hat Midjourney einen großen Sprung in Sachen Hände gemacht. Sie haben jetzt immerhin fünf Finger – meistens. (Philip Pramer, 30.4.2023)