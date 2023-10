User können nun auch Bilder in die App hochladen – und sich so Gleichungen lösen lassen oder Einrichtungstipps holen. In Österreich funktioniert das bislang nur über Umwege

Elf Monate ist es bald her, dass die Softwarefirma OpenAI ihr Large Language Model (LLM) GPT in eine Chatoberfläche einbaute und dadurch einen neuen KI-Hype auslöste. Seitdem hat sich einiges getan: Eine neuere, (angeblich) bessere Version namens GPT-4 wurde vorgestellt und das Context-Window, also die maximale Länge des Textes, erhöht. Es gibt Plugins, mit denen man mathematische Gleichungen lösen oder einen Flug suchen kann – und ChatGPT darf nun auch wieder in Echtzeit im Internet nach Informationen suchen.

Nach und nach verpasst OpenAI seinem Chatprogramm nun Sinnesorgane: Wie wir vergangene Woche im Newsletter geschrieben haben, bekommt ChatGPT nun auch eine Stimme, die Antworten direkt vorliest. Direkt mit der App zu sprechen ist schon etwas länger möglich – die OpenAI-eigene Spracherkennungssoftware Whisper erkennt gesprochene Prompts beinahe fehlerfrei (selbst im leichten Dialekt, wie ich aus eigener Erfahrung berichten kann).

In der ChatGPT-App und in der Webversion lassen sich nun auch Bilder hochladen. Screenshot

Komplizierte Straßenschilder entschlüsseln

Die viel größere Neuerung ist allerdings die Möglichkeit, auch Bilder hochzuladen oder direkt in der ChatGPT-App zu fotografieren. Vor zwei Wochen wurde die Funktion von OpenAI angekündigt, nun wird sie nach und nach weltweit ausgerollt, zunächst für die Abonnentinnen und Abonnenten der kostenpflichtigen Plus-Version.

Auf der Social-Media-Plattform X zeigen Userinnen und User bereits, was möglich ist: Der Nutzer Peter Yang postete etwa ein Straßenschild, das in ziemlich komplizierter Weise angibt, wann Parken erlaubt und wann es verboten ist. Ein User postete das Bild in ChatGPT und fragte, ob er jetzt hier parken dürfe – was die Software bejahte. "Ich werde nie wieder einen Strafzettel bekommen", schreibt der User.

Auch bei der Software-Entwicklung könnte die neue Funktion helfen: So zeigen Videos auf Youtube und X, wie ChatGPT aus dem Screenshot einer Website, zum Beispiel ein Newsletter-Anmeldeformular, ebendiese in Quellcode nachbaut. Auch komplizierte Grafiken soll ChatGPT erklären können – und wer dem Chatbot ein Foto seiner Wohnung schickt, bekommt (zugegebenermaßen sehr allgemein gehaltene) Einrichtungstipps.

Pflanzenrettung per App

In Europa ist die Funktion bislang noch nicht freigeschaltet. Wer über ein VPN mit einer US-amerikanischen IP-Adresse auf die App zugreift, hat aber die Möglichkeit, das neue "ChatGPT mit Augen" zu testen. Ich habe das gleich mal hier in der STANDARD-Redaktion ausprobiert.

Zuerst frage ich ChatGPT, wie der Name der Pflanze lautet, die auf dem Regal neben mir ihr trauriges Dasein fristet – und was ich tun kann, damit es ihr besser geht. Sansevieria alias Schwiegermutterzunge, bestimmt ChatGPT die Topfpflanze richtigerweise. Die Pflegetipps: Bewässerung prüfen, düngen, Blätter abstauben, damit sie atmen können.

ChatGPT kann meine Büropflanze richtig identifizieren. Screenshot

Beim STANDARD-Kreuzworträtsel, das ich aus der aktuellen Zeitung abfotografiere, beißt sich ChatGPT hingegen die Zähne aus. Das liegt allerdings weniger an den legendär kniffligen Fragen von Phoenixen, sondern an den Zeilenumbrüchen, die das Programm nicht verarbeiten kann. Immerhin weist OpenAI sogar auf seiner eigenen Website darauf hin, dass Text in anderen Sprachen als Englisch derzeit noch nicht gut erkannt wird. Es rät sogar explizit davon ab, die Funktion für andere Sprachen als Englisch zu benutzen.

Zu guter Letzt fotografiere ich aus dem Fenster und frage, wo dieses Foto aufgenommen wurde. Nach einem Hinweis ("Schau auf die Umgebung!") mutmaßt ChatGPT zwar, dass ich mich aufgrund der Architektur wohl in Europa befinde. Und die Schilder? Die sind eindeutig deutsch, meldet die Software auf Nachfrage zurück, weshalb das Foto wahrscheinlich im deutschsprachigen Raum aufgenommen sei. Richtig hilfreich ist das nicht. Bei Fotos, auf denen wichtige Sehenswürdigkeiten oder auch Teile einer Skyline zu sehen sind, tut sich die Software hingegen deutlich leichter. Um bei der nächsten Partie GeoGuessr zu schummeln, eignet sich ChatGPT aber kaum.

Hilfe für sehbehinderte Menschen

Die neue Funktion ist auf jeden Fall eindrucksvoll, aber so richtig überzeugt ChatGPT Vision, wie es online oft genannt wird, noch nicht. Vor allem die Texterkennung auf Deutsch lässt noch zu wünschen übrig. Die in die Google-App eingebaute Lens-Funktion schafft bereits seit längerem Ähnliches – und für bestimmte Aufgaben gibt es Spezial-Apps wie etwa Plantsnap, die Pflanzenarten bestimmen kann.

Für Menschen mit Sehbehinderung kann das Feature allerdings bereits in der derzeitigen Form sinnvoll sein: Weil Bilderkennung und Sprachmodell so stark verzahnt sind, ist es ihnen möglich, mit ihrer Umgebung zu "chatten" – also etwa zu fragen, wo im Bild sich ein bestimmter Gegenstand befindet. OpenAI arbeitet dazu schon seit Anfang des Jahres mit der dänischen App "Be My Eyes" zusammen, die (noch) sehende Freiwillige mit blinden und sehbehinderten Menschen aus der ganzen Welt per Videochat verbindet.

Ob das ein sinnvollerer Einsatz von künstlicher Intelligenz ist als die smarte Katzenklappe, welche die Katze aussperrt, wenn sie Beute im Maul hat? Das darf jeder selbst entscheiden. (Philip Pramer, 7.10.2023)