Google-Boss Sundar Pichai führte wie gewohnt durch die mehr als zwei Stunden lange Keynote zur Google I/O – und hatte jede Menge Neuerungen parat.

Foto: APA/AFP/JOSH EDELSON

Künstliche Intelligenz ist für Google wahrlich kein neues Thema. Bereits im Jahr 2016 verkündete der damals gerade zum Firmenchef avancierte Sundar Pichai den Wandel von "Mobile First" zu "AI First". Tatsächlich sollten Entwicklungen aus dem Bereich Maschinenlernen in den folgenden Jahren bei so gut wie jeder Produktvorstellung des Unternehmens eine zentrale Rolle einnehmen. Galt Google damit jahrelang als die KI-Firma schlechthin, ist man zuletzt in der öffentlichen Wahrnehmung ordentlich ins Hintertreffen gelangt. Stattdessen waren es OpenAI und Microsoft, die mit ihren Chatbots und einer Überarbeitung der Suchmaschine Bing im Zentrum des Interesses standen.

Eine Konferenz im Zeichen von KI

Die einleitende Keynote zur Entwicklerkonferenz Google I/O nutzte das Unternehmen nun, um eine Fülle an Neuerungen aus dem Bereich künstliche Intelligenz anzukündigen – und ein paar davon gibt es für Google ungewohnt sogar umgehend.

Google-Suche, ganz neu

Die wichtigste Ankündigung zuerst: Google baut seine Suchmaschine grundlegend um, und das heißt wenig überraschend: Sehr viel mehr KI – aber nicht nur. "Visueller, snackbar, persönlicher und menschlicher" sind die Stichworte, unter denen das Unternehmen das Redesign entwickelt. Oder wie es Google auch nennt: "Search, supercharged".

Google

Im Kern stehen dabei – wenig überraschend – KI-Funktionen. So soll gerade bei Fragen, die nicht eindeutig zu beantworten sind, eine KI eine Zusammenfassung des Themas prominent platziert werden. Das gleich angereichert mit passenden Bildern, bei der Suche nach Produkten gibt es auch gleich Tipps zu den wichtigsten Kriterien und passende Tests.

Chatbot direkt in der Suche

Zudem werden bei all dem nicht nur Knöpfe zur weiteren Verfeinerung der Recherche angeboten, es kann auch ein KI-Bot – ähnlich wie ChatGPT oder Googles eigenes Bard – beliebige Fragen zu dem Thema beantworten und so nach und nach die Recherche verfeinern. All das sowohl am Desktop als auch mobil, wobei der Chatbot direkt in den Ergebnissen zur Verfügung steht.

Die neue Version der Suche ist derzeit noch ein Experiment, das sich offiziell "Search Generative Experiment" nennt, und zum Start nur in den USA über die Search Labs erhältlich ist, wo sich Interessierte in eine Warteliste eintragen können. Google macht aber keinen Hehl daraus, dass diese Richtung generell die Zukunft der eigenen Suchmaschine darstellt.

Ein Beispiel für die generative KI in der Google-Suche.
Grafik: Google

Hintergrund

Die aktuellen Ankündigungen sind nicht zuletzt vor dem Hintergrund einer neu erwachten Konkurrenz durch Microsofts Bing zu verstehen. Dieses hat zuletzt mit allerlei neuen KI-Features für viel Aufsehen gesorgt, Microsoft verkündete infolge ein stark gestiegenes Interesse an der eigenen Suchmaschine.

Gleichzeitig muss gesagt werden: In öffentlich verfügbaren Zahlen schlägt sich das bisher nicht im geringsten nieder. So hatte Bing etwa in Österreich einen Marktanteil von 4,61 Prozent, ein Jahr zuvor waren es 4,55 Prozent. Auch international zeigt sich in den Zahlen von Statcounter null Bewegung, in den USA ist der Marktanteil in den vergangenen Monaten gar gesunken.

PaLM 2

Mit PaLM 2 kündigt Google eine neue Generation seines großen Sprachmodells (LLM) an. Dabei handelt es sich um Googles Pendant zu GPT-4 von OpenAI, das wiederum die Basis von Services wie ChatGPT oder Bing Chat bildet. Allerdings verfolge man dabei bewusst einen anderen Ansatz, wie Google betont. Wo die wachsende Leistungsfähigkeit anderer Maschinenlernmodelle nicht zuletzt daraus resultiert, dass diese immer größer werden, ist PaLM 2 sogar kleiner als sein direkter Vorgänger – und damit auch erheblich schneller und effizienter.

PaLM 2 ist da – und es soll nicht größer, sondern besser und effizienter sein.
GrafiK: Google

Wenn man in den vergangenen Jahren eines gelernt habe, dann dass größer bei KI-Modellen nicht automatisch besser sei. Die wahren Fortschritte würden durch kreative, neue Ideen beim Aufbau solcher Modelle erfolgen. Mit FLaN, Flamingo oder Chinchilla habe man in den vergangenen Jahren viele Erfahrungen bei der Erhöhung der Effizienz sowohl im Training als auch bei der Ausgabe gesammelt. Diese Erfahrungen seien nun in PaLM 2 eingeflossen.

Technische Details

Trotz der geringeren Größe soll die Leistungsfähigkeit von PaLM 2 jene des Vorgängers deutlich übertreffen. In praktisch allen KI-Benchmarks schneide das neue Modell erheblich besser ab, versichert Google. Um das zu untermauern hat Google parallel zur Ankündigung ein Dokument mit technischen Details sowie Benchmarks veröffentlicht.

Dabei zeigt sich, dass das neue Modell gerade beim Ziehen von logischen Schlüssen aber auch bei mathematischen Aufgaben sehr gut ist, und dabei in einigen Benchmarks selbst viel größere Modelle wie GPT-4 abhängt. Auch beim Erstellen von Code sind in den Testläufen massive Fortschritte zu früheren Modellen von Google zu sehen. Das Sprachverständnis über mehr als hundert Sprachen hinweg ist demnach ebenfalls signifikant besser.

Offene Fragen

Bessere Effizienz heißt nicht zuletzt, dass das Modell weniger Strom verbrauchen sollte. Konkrete Zahlen zu diesem Punkt will Google allerdings nicht nennen. Zumindest versucht man sich aber an einer Argumentation dafür: Der Stromverbrauch hänge massiv davon ab, wie groß und komplex die jeweiligen Anfragen sind, lasse sich also nicht so einfach auf einen Wert herunterbrechen.

Ein Beispiel für das bessere Sprachverständnis von PaLM 2. Auch mit solch schwieriger Übersetzung kann es nun richtig umgehen.
GrafiK: Google

Vor allem aber sei PaLM 2 genau genommen eine Familie an Modellen, von denen jedes auch sehr unterschiedlich leistungsfähig sei. Manche PaLM-2-Modelle könnten sogar am Smartphone laufen, das leichteste Modell heißt "Gecko" und soll auf aktuellen Smartphones 20 Tokens pro Sekunde verarbeiten können. Für externe Entwickler und Entwicklerinnen will Google PaLM2 in vier unterschiedlichen Varianten – oder eigentlich: Größen – anbieten. Vom erwähnten "Gecko" über "Otter" und "Bison" bis zu "Unicorn".

Medizin und Sicherheit

Doch PaLM 2 ist nicht bloß Theorie, alleine auf der I/O werden nun 25 neue Produkte auf Basis des neuen Modells vorgestellt. Wobei dabei natürlich nicht immer das gleiche, große Modell zum Einsatz kommt sondern speziell auf den jeweiligen Einsatzbereich optimierte Varianten.

Als Beispiel für die Möglichkeiten eines solcherart getuneten Modells verweist Google auf das eigene Med-PaLM 2, das bereits vor einigen Wochen vorgestellt wurde – ohne zunächst aber zu erwähnen, dass es auf PaLM 2 aufsetzt. Auf medizinische Fragen optimiert sei Med-PaLM 2 das erste Maschinenlernmodell, das den standardisierten MedMCQA-Test auf Expertenebene bestanden habe, unterstreicht Google.

Ein weiteres Beispiel sei Sec-PaLM, das speziell auf Cybersicherheit trainiert ist, und im Rahmen der Google Cloud die Möglichkeiten der Sicherheitsanalyse auf ein neues Niveau heben soll, in dem Angriffe nicht nur früher erkannt sondern von der KI auch gleich erklärt werden können.

Bard ist da – jetzt wirklich überall

Googles direkter Konkurrent zu ChatGPT und Bing Chat nennt sich Bard, und hier gibt es ebenfalls eine Reihe an Neuerungen. Die zunächst einmal wichtigste: Bard ist ab sofort in mehr als 180 Ländern weltweit verfügbar, bisher war es auf die USA beschränkt. Auch die Warteliste wurde gestrichen.

Klingt gut, wie sich nach der Keynote herausstellte, findet sich aber kein einziges EU-Land in der Liste. Eine Anfrage des STANDARD zu den Gründen dafür, wurde bislang noch nicht beantwortet. Die Vermutung liegt aber nahe, dass das etwas mit den in der EU schärferen Privatsphärenregeln sowie der Verarbeitung von Nutzerdaten bei solchen Diensten zu tun hat – und Google hier lieber vorsichtiger agieren will. So bleibt heimischen Interessenten weiterhin nur der Umweg über einen VPN.

Eine weitere Voraussetzung für die Nutzung von Bard ist, dass man mit dem Chatbot auf Englisch, Koreanisch oder Japanisch kommuniziert. Die letzten beiden Sprachen sind neu hinzugekommen, sollen aber nicht die einzigen bleiben. Schon bald soll Bard die 40 weltweit am meisten gesprochenen Sprachen abdecken – womit also auch Deutsch hinzukommen sollte.

Bard reichert seine Antworten bald auch mit Bildern an.
GrafiK: Google

Genaugenommen könnte Bard eigentlich schon jetzt Deutsch sprechen, immerhin handelt es sich bei PaLM 2, das die Grundlage der aktuellen Versionen von Bard bildet, um ein Mehrsprachenmodell. Dass diese Funktion noch nicht verfügbar ist, hat allerdings einen guten Grund: Damit solch ein Chatbot nicht allzu großen Unsinn oder problematische Inhalte produziert, wird er von den jeweiligen Herstellern spezifischen Beschränkungen und Regeln unterworfen. Das dauert natürlich, vor allem weil man dabei mit der notwendigen Vorsicht agieren will, wie Google betont.

Kleine Schritte jetzt, große folgen

Umgehend verfügbar sind dann noch ein paar kleinere Neuerungen. So können Texte jetzt direkt in Gmail und Google Docs exportiert werden, um etwa von Bard eine Mail-Nachricht erstellen zu lassen, und diese gleich als Entwurf zu speichern. Auch eine externe Anbindung an die Programmierumgebung Replit zur Übernahme von mit Bard erstelltem Code ist neu. Und für manche sicher mindestens so wichtig: Es gibt jetzt ein Dark Theme.

Mithilfe von Google Lens können künftig Bilder als Ausgangspunkt für eine Frage an Bard genutzt werden.
GrafiK: Google

Auf den nächsten großen Schritt gilt es noch ein bisschen zu warten: Bard soll schon bald "multimodal" werden, also nicht nur mit Text, sondern auch mit Bildern umgehen können, kündigt Google an. Das geht in beide Richtungen: So sollen künftig Antworten mit passenden Bildern aus der Google Bildersuche angereichert werden. Zudem soll es aber auch möglich sein, mithilfe von Google Lens Bilder zu analysieren und zur Basis für eine Bard-Anfrage zu machen. Also etwa ein Foto von einzelnen Gegenständen zu machen, um dann Bard nach Ideen für ein Bastelprojekt zu fragen.

Erweiterungen

Ebenfalls "bald" soll sich Bard über Erweiterung mit anderen Diensten verbinden lassen – im Falle von Google selbst etwa mit Gmail, Docs, Maps oder auch Sheet. Entsprechende Inhalte sollen sich dann also direkt in Bard einbetten lassen, es ist dann auch möglich Textanfragen mit der Anzeige auf einer Karte zu verbinden, um die dort gebotenen Daten dann direkt in ein Sheet zu übernehmen. Wie Google betont, werde all das aus Privatsphärengründen optional bleiben, die Nutzer müssten diese Verbindung also selbst aktivieren.

Das Ganze soll auch mit den Diensten anderer Firmen funktionieren, so sei etwa eine Erweiterung geplant, über die Bard mithilfe von Adobe Firefly Bilder erstellen kann, die dann direkt in Adobe Express übernommen werden können. Weitere Erweiterungen sind unter anderem für Wolfram, die Khan Academy aber auch Kayak und Instacart geplant.

Dass Bard PaLM 2 benutzt, versteht sich eigentlich schon fast von selbst, ein entsprechendes Updates wurde vor einigen Wochen vorgenommen. Das erklärt dann auch, warum die Mathematik- und Logikfähigkeiten des Chatbots seit dem Start erheblich besser geworden sind.

Eine der geplanten Erweiterungen: Bilder direkt innerhalb von Bard von Adobe Firefly erstellen lassen.
GrafiK: Google

Ganz allgemein betont Google immer wieder, dass Bard – und all seine direkten Konkurrenten – sich noch in einer sehr frühen Phase befinden und es zunächst einmal darum geht, Erfahrungen zu sammeln. Also etwa zu lernen, wofür die Nutzer solche Chatbots eigentlich verwenden, um dann neue Features für passende Services anzubieten.

Workspace

Ein gutes Beispiel für den spezialisierten Einsatz von KI bilden die verschiedenen Tools aus der Google-Workspace-Suite – also die Programme von Gmail über Docs bis zu Sheets und Slides. Dass hier einige große Neuerungen auf Basis von dem, was landläufig als künstliche Intelligenz bezeichnet wird, anstehen, hat Google bereits vor einigen Wochen angekündigt. Nun gibt es weitere Details zu dieser "Duet AI for Google Workspace" genannten Initiative– und vor allem die erste breitere Verfügbarkeit.

Bereits seit einigen Wochen testet Google – wenn auch noch im eingeschränkten Maße – eine "Help me write"-Funktion in Google Docs. Diese ermöglicht es, anhand einer groben Aufgabenstellung einen Textentwurf durch eine KI erstellen zu lassen, den man dann manuell für die eigenen Zwecke anpassen kann – und sollte.

Die Text-KI innerhalb von Google Docs im Einsatz.
GrafiK: Google

Gmail

Nun gibt es etwas ähnliches auch für Gmail, vor allem aber: Dort soll es zumindest auf Englisch umgehend verfügbar sein – und noch dazu sowohl am Smartphone als auch im Web. Die ebenfalls "Help me Write" genannte Funktion bietet neben der reinen Texterstellung auch noch einige andere Optionen. So ist es möglich, zwischen verschiedenen Stilen zu wählen, also beispielsweise einen vorgegebenen Text "formell" umzuschreiben. Auch Kürzung oder Ausbau eines bestehenden Texts kann die KI automatisch übernehmen. Dazu kommt dann noch eine Funktion, um einen Text in einzelnen Punkten zusammenzufassen.

"Help me Write" in Gmail
Grafik: Google

In einer – bald – folgenden Version soll sich all dass dann noch mit Kontextinformationen kombinieren lassen, so dass die KI etwa aus dem Mail-Thread automatisch Namen und andere Informationen einfüllen kann.

Andere KI-Baustellen

Bald sollen dann noch weitere neue Features folgen. Dazu gehört die Möglichkeit, Bilder aus einer kurzen Beschreibung in Google Sildes zu erstellen. Auch die automatische Erstellung von Tabellen in Google Sheets anhand von Textbeschreibungen in Form eines Tasks soll in naher Zukunft kommen. Und dann soll generative KI auch noch genutzt werden, um personalisierte Hintergründe für Videoanrufe in Google Meet zu erzeugen.

In Google Slides lassen sich künftig direkt Bilder erstellen.
GrafiK: Google

Doch zurück zu Docs. Dort will man KI künftig auch nutzen, um mehr Tipps beim Schreiben zu geben, etwa um einen konsistenten Stil beizubehalten oder auch Wiederholungen zu vermeiden. Je nach Wunsch, kann die KI zudem einen formaleren oder direkteren Stil vorschlagen.

Wurden all diese Workspace-Features bisher nur im kleinen Rahmen getestet, werden sie nun für die breite Öffentlichkeit – zumindest in den USA – freigegeben. Allerdings muss man sich dafür weiter auf eine Warteliste eintragen, die nach und nach immer weiter geöffnet werden soll – auch für mehr Länder.

Einmal mehr bildet PaLM 2 die Grundlage für all diese Features, wobei aber viel Finetuning für den jeweiligen Anwendungsbereich vorgenommen wurde. Google verspricht zudem, dass diese Features in absehbarer Zeit auch in anderen Sprachen verfügbar sein sollen – ohne aber konkrete Details zu nennen.

Ausblick

Eine der zentralen Herausforderungen bei aktuellen Text- und Bild-KIs ist ist es, den richtigen Prompt zu finden. Das ist allerdings auch eine gewisse Hürde für den Einstieg, also will Google künftig auch hier mit KI die Nutzung von KI einfacher machen. So demonstrierte man ein später für die Workspace-Tools kommendes Feature namens "Sidekick", das zu aktuellen Prompts oder auch daneben angezeigten Inhalten Empfehlungen für passende Verfeinerung gibt. Damit sollen sich dann etwa auch mit einem Klick Zusammenfassungen für Slides oder Bilder zu einem Text erstellen lassen.

Google Cloud

Eine wichtige Rolle soll KI künftig auch bei den Cloud-Diensten von Google spielen. Ebenfalls unter dem Namen Duet AI stellt das Unternehmen einen Assistenten vor, der den eigenen Cloud-Kunden hilfreich zur Seite stehen soll. Das reicht vom Erstellen von Code über Tipps zur Optimierung der eigenen Infrastruktur bis zu allgemeinen Empfehlungen zur Verbesserung der Sicherheit – all das spezifisch auf die Codebasis der Kunden optimiert.

Ein allerorten verfügbarer KI-Assistent für Cloud-Kunden von Google.
GrafiK: Google

Verfügbar soll diese KI quer durch das Cloud-Angebot sein, also von der Entwicklungsumgebung über die Cloud Console bis zum Chat. Dahinter steht erneut ein PaLM-2-Modell, das in diesem Fall ganz auf Softwareentwicklung optimiert wurde. Duet AI für die Google Cloud ist zunächst nur für ausgewählte Tester verfügbar, wer in diese Gruppe will, kann das beantragen. Die Verfügbarkeit soll aber "sehr bald" ausgeweitet werden.

Vertex AI

Bleibt noch jene Vertex AI genannte Plattform, über die Google externen Entwicklern Zugriff auf unterschiedliche Maschinenlernmodelle für diverse Aufgaben gibt, damit diese sie in ihren eigenen Anwendungen verwenden können. Ob Bilder erstellen Fnd editieren (Imagen) oder auch die Code-Kreierung (Codey) sowie Sprache-zu-Text (Chirp): für all diese unter den Begriff "generative KI" fallenden Aufgaben gibt es von Google die passenden Grundlagen.

Passend zur I/O öffnet Google nun den zugehörigen "Model Garden" für alle Nutzer mit einem Google-Cloud-Konto. Die bisherige Warteliste entfällt also auch hier. Ebenfalls neu ist, dass die Kunden die Modelle über Reinforcement-Learning via menschliches Feedback besser auf ihre Bedürfnisse anpassen können.

Ein Beispiel wie Entwickler Imagen via Vertex AI nutzen können.
Google Cloud

Ausblick

Für die weitere Zukunft hat Google ebenfalls einen kleinen Vorgeschmack parat. So arbeite man derzeit mit Gemini an einem komplett neuen Modell, das von Grund auf multimodal sein soll – und ersten Test zufolge äußerst mächtig. Diese Entwicklung gehe aus der Zusammenlegung der bisher zwei KI-Abteilungen in Google Deepmind hervor, betonte Firmenchef Sundar Pichai im Rahmen der Keynote.

Ein oft aufgeworfener Problembereich bei generativer KI sind die damit einhergehenden Möglichkeiten für Fälschungen. Googles Antwort darauf: Künftig sollen sämtliche von den KI-Produkten des Unternehmens erstellten Inhalte nicht nur mit Wasserzeichen versehen werden, sondern auch allerlei Metadaten enthalten. So soll dann auch in der Google-Suche ausgewiesen werden, wenn ein Bild KI-generiert ist. Natürlich hofft das Unternehmen, dass andere Firmen sich diesem Vorbild folgen.

Universal Translator

Auch sonst betont Google, dass man sich dem Potential für Desinformation vieler dieser Entwicklungen bewusst ist. Als Beispiel verweist man auf eine Software namens "Universal Translator", die Videos mit angepassten Lippenbewegungen in ein andere Sprache übersetzen kann. Diese hat man intern entwickelt, soll aber nur mit ausgewählten Partnern geteilt werden, da man sonst zu viele negative Konsequenzen befürchtet. Aus dem gleichen Grund habe man schon vor Jahren Modelle zur Gesichtserkennung bewusst nicht öffentlich gemacht.

Ein Assistent? Google sagt nicht Nein

Bei einem Pressegespräch im Vorfeld der I/O machte übrigens Jack Krawczyk, Product Lead für Bard, kein Geheimnis daraus, dass man langfristig natürlich ein Interesse hat, solche Systeme mit dem Google Assistant zu kombinieren. Das hätte ein sehr großes Potenzial.

Gerade hier müsse man aber mit viel Bedacht vorgehen, um daraus dann eine zuverlässige Gesamtlösung zu basteln. Generell sei man sich der bisher noch vorhandenen Schwächen solcher Systeme, etwa dass sie oft Unwahrheiten produzieren, das dafür aber sehr überzeugend, durchaus bewusst. Darum fokussiere man auch auf spezifische Einsätze in einzelnen Produkten, während allgemeine Chatbots wie Bard vor allem zum Sammeln von Erfahrungen genutzt werden. Bevor man an einen noch breiteren Einsatz denken könne, sei noch viel zu tun – und zwar nicht nur für Google, sondern für die gesamte Industrie.

Google Maps

Eine große Neuerung für Google Maps nennt sich "Immersive View for Routes". Mit diesem ist es möglich, sich eine Route in einer realistisch wirkenden 3D-Ansicht vorzeichnen zu lassen. Selbst Wettervorhersagen werden dabei angezeigt und in die Darstellung einbezogen, die Schritt für Schritt durchgegangen werden kann. Das Ganze soll bis Ende des Jahres weltweit mit 15 Städten funktionieren und nach und nach ausgebaut werden.

So soll Googles "Immersive View for Routes" aussehen.
Foto: Google

Google Fotos

Später dieses Jahr soll es auch ein neues großes KI-Feature für Google Fotos geben, das sich Magic Editor nennt. Mit diesem sollen sich Bilder weitreichend verändern lassen, von der Bildstimmung über die Position einzelner Objekte oder der Entfernung anderer.

Magic Editor ist das nächste große KI-Feature für Google Fotos.
Foto: Google

(Andreas Proschofsky, 10.5.2023)