Was man lange als Science-Fiction abgetan hat, will Google jetzt verwirklichen. Das durch künstliche Intelligenz gestützte Upscaling sieht vielversprechend aus

Weitere Tests sollen folgen. Foto: Screenshot/Google

Man kennt es aus teils unfreiwillig komischen Krimiserien. Auf einem Überwachungsbild ist ein Tatverdächtiger zu sehen, doch sein Gesicht ist verpixelt. Schnell kommt vom verantwortlichen Ermittler dann der Ruf "Enhance!", also "Vergrößern!". Wie durch Magie kann hineingezoomt werden, auf dem eigentlich unscharfen Foto werden plötzlich Details erkennbar. Was nach Science-Fiction klingt, verspricht Google mit seiner neuesten KI-gestützten Foto-Upscaling-Technologie Realität werden zu lassen. Das zeigt der US-Konzern in einem Blogbeitrag mit mehreren Beispielen.

Hinter der Funktion steht Googles Brain-Team, das die sogenannte Image Super-Resolution (SR3) entwickelt hat. Dabei handelt es sich um ein maschinelles Lernmodell, das darauf trainiert ist, ein Bild mit niedriger Auflösung ausgehend von reinem Rauschen in ein hochauflösendes Foto zu verwandeln.

Rauschen führt zu hoher Auflösung

Trainiert wird das Modell, indem einem hochauflösenden Bild nach und nach Rauschen hinzugefügt wird, bis nur noch dieses übrig bleibt. Anschließend lernt es, den Prozess umzudrehen, indem es mit reinem Rauschen beginnt, und es dann Stück für Stück entfernt.

Foto: Screenshot/Google

Insbesondere bei Porträts und natürlichen Bildern soll SR3 bisher gut funktionieren. Bei achtfacher Hochskalierung von Gesichtern soll es derzeit eine "Verwirrungsrate" von fast 50 Prozent haben. Mit dieser wird der Prozentsatz gemessen, mit dem die Probanden die Modellausgaben den Referenzbildern vorziehen, berichtet "Petapixel". Bestehende Methoden erreichten laut Google nur bis zu 34 Prozent.

Aufgrund der guten Ergebnisse, kombinierte Google die Technologie anschließend mit einem sogenannten CDM, also einem Cascaded Diffusion Model. Dabei handelt es sich um ein klassenbedingtes Diffusionsmodell, das an Imagenet-Daten trainiert wird, um hochauflösende natürliche Bilder zu erzeugen. Imagenet ist eine Bilddatenbank, die für Forschungszwecke genutzt wird. In Verbindung mit SR3 können relativ hohe Auflösungen erreicht werden.

Foto: Screenshot/Google

Weitere Tests

Zwar sind die Ergebnisse nicht immer perfekt, aber zumindest auf den ersten Blick könnten die meisten Betrachter denken, dass es sich um das Originalbild handelt. "Mit SR3 und CDM haben wir die Leistung von Diffusionsmodellen bei Super-Resolution und klassenbedingten Imagenet-Generierungsbenchmarks auf den neuesten Stand gebracht. Wir freuen uns darauf, die Grenzen von Diffusionsmodellen für eine Vielzahl von generativen Modellierungsproblemen weiter zu testen", heißt es diesbezüglich im oben genannten Blogbeitrag. (mick, 1.9.2021)