Eines muss man Sundar Pichai lassen: Er hat die Zeichen der Zeit früh erkannt. Nur wenige Monate nachdem er zum Google-Chef avanciert war, gab er eine neue Marschrichtung für sein Unternehmen vor: "AI first" sollte Google künftig sein, also ein Unternehmen, bei dem das Thema "Künstliche Intelligenz" im Zentrum sämtlicher Aktivitäten steht.

Sundar Pichai
Google-Chef Sundar Pichai bei der Keynote der Google I/O 2024.
Google

Seitdem sind acht Jahre vergangen, nun kehrt Pichai an jenen Ort zurück, wo er einst seine Proklamation getätigt hat: die Bühne des Shoreline Amphitheatre im kalifornischen Mountain View. Ebendort startete am Dienstag die jährliche Entwicklerkonferenz Google I/O und damit das wichtigste Event im Google-Jahr. Jener Rahmen, in dem die weitere Richtung für das Unternehmen vorgegeben wird. Wenig überraschend drehte sich dabei wieder einmal (fast) alles um die besagten zwei Buchstaben: KI – und zwar jede Menge davon. Googles Lösung dafür nennt sich Gemini Nano und ist seit einigen Monaten bereits auf Topgeräten von Samsung sowie Google selbst zu finden. Nun bekommt Gemini Nano ein kräftiges Update. So kann das Modell nun neben Text auch Bilder als Eingabe verarbeiten, was ganz neue Möglichkeiten eröffnen soll.

Google-Suche goes KI

Es war eines der großen Highlights der Google I/O des Jahres 2023: das "Search Generative Experiment". Ein zunächst nur wenigen Ländern vorbehaltenes Experiment, das aber von kaum zu überschätzender Bedeutung für die Zukunft des Unternehmens ist. Geht es dabei doch um nicht weniger, als herauszufinden, wie eine nächste Generation der Google-Suche aussehen könnte, wo diese mit generativer KI angereichert werden kann, um sie besser zu machen – und wo man das besser lässt.

Search in the Gemini era | Google I/O 2024
Google

Nun folgt der logische nächste Schritt: Google übernimmt einige der dabei entwickelten Features von Haus aus in seine Suchmaschine – also für alle User und nicht nur die, die sich für den SGE-Test angemeldet haben. Dazu zählen etwa die "AI Overviews", die noch oberhalb der Suchergebnisse einen Überblick über ein Thema geben, oder wie es auf Deutsch heißen soll: KI-basierte Übersichten.

Laut Google haben die eigenen Tests gezeigt, dass diese Zusammenfassungen die Zufriedenheit bei den Nutzern erhöhen und so zu einer Steigerung der Suchmaschinennutzung führen. Also wird dieses Feature ab sofort für alle US-User von Google von Haus aus aktiviert, in den kommenden Monaten sollen dann weitere Länder folgen. Google geht davon aus, dass bis Ende des Jahres bereits mehr als eine Milliarde User das neue Feature haben werden.

Zunächst in den USA, bald rund um die Welt: Generative KI hält in der Suchmaschine Einzug. Den Start macht eine "AI Overview" genannte Funktion, die einen Überblick über ein Thema geben soll.
Google

In Kürze soll dann der nächste Schritt folgen: Die Google-Suche soll künftig beim Brainstormen helfen und bei entsprechenden Fragen eine eigene von der KI organisierte Resultatsseite anzeigen, die als Ausgangspunkt für weitere Recherche gedacht ist. Das Ganze soll es zunächst nur in den USA und auf Englisch geben, als Beispiele nennt Google etwa die Suche nach Rezepten, Filmen oder Hotels.

Neue Experimente

Gleichzeitig gibt es im Rahmen der Search Labs aber auch einige neue Experimente für jene, die noch etwas weiter in die Zukunft blicken wollen. Dazu zählt etwa, dass die KI in der Suche künftig mehrere Aufgaben auf einmal erledigen können soll, wenn man entsprechend komplexe Fragen formuliert. Zudem soll es eine eigene Funktion zum Planen von Reisen oder auch der eigenen Ernährung geben.

Besonders spannend klingt ein weiteres Experiment: die Möglichkeit, Fragen mit einem Video zu stellen, also etwa ein Problem mit einem kurzen Clip zu illustrieren, anstatt vorher nach den richtigen Worten suchen zu müssen.

Wer will, kann sich von der Google-Such-KI künftig einen Essensplan zusammenstellen lassen.
Google

Gemini ist ein KI-Assistent

Was für OpenAI ChatGPT ist, ist für Google Gemini: ein KI-Chatbot, der als digitaler Helfer im Alltag zur Seite stehen soll. Auf der I/O kündigte Google nun eine ganze Reihe von Verbesserungen für Gemini an. So sollen jene, die für das Abo-Angebot Gemini Advanced zahlen, schon bald eine wesentlich mächtigere Version des Chatbots erhalten.

So ist es künftig möglich, Dateien bei Gemini hochzuladen, um diese analysieren zu lassen. Wer also in langen Dokumenten nach einem bestimmten Detail sucht, kann das künftig ebenso dem Chatbot überlassen wie das Herausfiltern der wichtigsten Eckpunkte. Was dieses Feature besonders interessant macht. Parallel dazu wird Gemini Advanced auf Googles aktuelles Sprachmodell Gemini 1.5 Pro aktualisiert. Dieses bietet ein für solche Modelle äußerst langes Kontextfenster von einer Million Token. Wem das jetzt nicht viel sagt: Vereinfacht bedeutet das, dass sich damit sehr große Datenmengen auswerten lassen. Google spricht von Dokumenten mit bis zu 1500 Seiten oder 30.000 Zeilen Code – und bis zu einer Stunde Video.

Zudem soll Gemini Advanced bald als Datenanalyst agieren können und passende Tabellen und Visualisierungen zu hochgeladenen Dokumenten erstellen können. Das Unternehmen versichert übrigens, dass all die eigenen Daten dabei privat bleiben, also auch nicht für das Trainieren der eigenen KI-Modelle verwendet werden.

Gemini Tokens
Bei der Token-Länge hat Gemini Advanced derzeit die Nase vorne.
Google

Ansonsten verspricht das Update auf Gemini 1.5 Pro nicht zuletzt deutliche Verbesserungen beim Bildverständnis, etwa um schnell mal ein Bild eines Lieblingsgerichts im Restaurant zu machen und nach dem passenden Rezept zu fragen. Die aktualisierte Version von Gemini Advanced auf Basis von Gemini 1.5 Pro soll in Kürze in 150 Ländern und 35 Sprachen verfügbar sein.

Gemini Live

In den kommenden Monaten soll dann das nächste große Update für die Smartphone-App kommen. Gemini Live nennt sich das und soll wesentlich natürlicher wirkende Konversationen mit dem KI-Assistenten erlauben. Das Ganze ist so gedacht, dass es einen direkten Austausch mit dem KI-System gibt, welches von sich aus Nachfragen stellt. Zudem soll Gemini Live auch wesentlich natürlicher klingen, und auch auf Gedankensprünge und Pausen korrekt reagieren können.

Einen exakten Starttermin nennt Google noch nicht, Gemini Live soll "in den kommenden Monaten" verfügbar sein, heißt es. In einer Folgeversion soll es dann auch möglich sein, Gemini Live die Kamera benutzen zu lassen, um sich mit dem KI-Assistenten über Dinge in der Umgebung auszustauschen.

Gemini Live
Gemini Live soll später in diesem Jahr kommen.
Google

Weiterer Ausblick

Deutlich besser soll Gemini Advanced in den kommenden Monaten beim Planen von Reisen werden. So soll es etwa möglich werden, dem Chatbot von den eigenen Vorlieben zu erzählen, um dann einen individualisierten Tagesplan erstellen zu lassen. Dabei können dann auch Flug- und Hotelinformationen einbezogen werden, um passende Vorschläge zu machen. Auch aktuelle Änderungen soll Gemini automatisch einfließen lassen, um dann den Zeitplan bei Bedarf schnell anzupassen.

Wer will, kann mit Gemini künftig eigene Chatbot-Varianten erstellen, Gems nennt Google diese. Ob Schreibassistent oder Kochhilfe, all das soll mit simplen Anweisungen von den Nutzern selbst trainiert werden können. Dieses Feature ist ebenfalls wieder zahlenden Kunden von Gemini Advanced vorbehalten. Einen genauen Starttermin nennt Google dabei nicht, es ist nur vage von "bald" die Rede.

Wie zu erwarten, schreitet auch die Integration von Gemini in immer mehr Google-Dienste voran. So soll der Chatbot direkt in die Messaging-App Google Messages integriert werden. Wem das bekannt vorkommt: Tatsächlich gab es vor einigen Jahren sehr Ähnliches mit der Google-Assistant-Integration im von den meisten wohl schon wieder vergessenen Messenger Allo.

Außerdem soll Gemini in Zukunft noch mehr Google-Dienste für sein Wissen anzapfen können. Aktuell ist das etwa eine Youtube-Music-Erweiterung, wichtiger ist aber wohl, was bald folgen soll: Google Kalender, Tasks und Keep. Damit soll es dann etwa möglich sein, ein Foto von Terminen zu machen und Gemini zu bitten, passende Kalendereinträge zu erstellen. Oder aber man fotografiert ein Rezept und bitte Gemini, alles davon auf die eigene Einkaufsliste in Keep zu setzen.

Eine neue Video-KI

Neben Text können generative KI-Systeme natürlich auch andere Inhalte kreieren. So hat etwa OpenAI unlängst mit seiner Video-KI Sora für einiges Aufsehen gesorgt. Googles Pendant dazu nennt sich Veo. Dieses kann Videos mit unterschiedlichen visuellen und kinematografischen Stilen erstellen, wobei die Nutzer sehr detaillierte Anpassungen vornehmen können. Die Videos, die Veo ausgibt, haben übrigens eine Auflösung von 1080p und können zumindest schon mal länger als eine Minute sein.

Veo
Veo ist Googles neue Video-KI.
Google

Um zu testen, was sich mit KI im Filmbereich alles machen lässt, hat Google mit mehreren Filmemachern zusammengearbeitet. Einer davon ist Multitalent Donald Glover, der sich auch als Musiker (unter dem Pseudonym Childish Gambino) und Schauspieler einen Namen gemacht hat und der über sein Kreativstudio Gilga ein Projekt mit Veo gestaltet hat.

Veo ist zunächst nur für ausgewählte Nutzer als Vorschau innerhalb eines neuen experimenten Tools namens VideoFX erhältlich. Wer Interesse hat, kann sich aber auf einer Warteliste eintragen – allerdings nur in den USA. Spannend ist dabei, was Google nur am Rande erwähnt: Ein Teil der Fähigkeiten von Veo soll nämlich in Youtube Shorts und andere Produkte einfließen.

Filmmaking with Donald Glover and his creative studio, Gilga | Veo
Google

Imagen 3

Mit Imagen 3 stellt Google dann auch noch eine neue Generation seiner Bild-KI vor. Diese soll fotorealistische Aufnahmen ermöglichen und generell deutlich bessere Ergebnisse liefern als die direkten Vorgänger, wie das Unternehmen mit einigen Testbildern zu untermauern versucht. Google betont, dass Imagen 3 komplexe Eingaben nun wesentlich besser versteht und auch kleine Details aus einem langen Prompt einbezieht. Zudem soll es besonders gut bei etwas sein, womit sich viele Bild-KIs bisher schwertun: dem Berechnen von Text in verschiedenen grafischen Stilen.

Imagen 3 ist vorerst ebenfall nur in einer geschlossenen Testphase verfügbar, auch hier gibt es wieder eine US-Warteliste. Zudem soll Imagen 3 aber auch bald für Firmenkunden über das Enterprise-Angebot Vertex AI verfügbar sein.

Ein fotorealistisches Testbild mit Imagen 3.
Google
Es sind aber auch viele andere Stile möglich.
Google

Gemini ist ein Sprachmodell

Hinter Gemini, dem Chatbot, steht Gemini, das Sprachmodell. So hat es Google in seinem unnachahmlichen Hang zu verwirrender Produktpolitik entschieden. Wie dem auch sei: Mit Gemini 1.5 Flash gibt es jetzt jedenfalls eine neue Variante des großen Sprachmodells, und zwar eine, die ganz auf Geschwindigkeit und Effizienz getrimmt ist. Trotzdem soll die Flash-Variante eine in vielerlei Hinsicht ähnliche Leistungsfähigkeit wie das größere Gemini 1.5 Pro bieten, darunter etwa auch die Multimodalität, die Gemini von Anfang an auszeichnet – also dass es über Text, Bild und Video hinweg funktioniert.

Möglich wird dies durch einen "Destillation" genannten Prozess, bei dem ein kleineres Modell anhand eines größeren trainiert wird und dessen Wissen und Fähigkeiten in großen Teilen übernimmt, aber trotzdem effizienter bleibt. So soll Gemini Flash gerade für häufig genutzte Aufgaben wie das Zusammenfassen von Inhalten oder auch das Herausfiltern von Daten aus größeren Dokumenten besonders gut geeignet sein. Interessant dürfte Gemini Flash damit nicht zuletzt für die Cloud-Kunden von Google sein, die natürlich auf die Kosten des Betriebs schauen müssen. Effizienter heißt in dem Fall aber natürlich auch, dass Gemini Flash geringere Latenzzeiten aufweisen soll – für viele Drittentwickler wohl nicht minder wichtig.

Parallel dazu wurde auch Gemini 1.5 Pro weiter verbessert. So unterstützt das Modell künftig sogar ein Kontextfenster von zwei Millionen Tokens für die Cloud-Kunden von Vertex AI – also noch einmal das Doppelte dessen, was gerade beim KI-Chatbot aktiviert wird. In Gemini Advanced soll dieses Update dann übrigens mit Ende des Jahres folgen. Zudem soll es weitere Verbesserungen in vielen Bereichen wie dem Schreiben von Code oder auch dem Argumentieren geben. Dabei soll Gemini 1.5 Pro nun auch komplexe und detaillierte Anweisungen besser verstehen.

Neben den diversen Gemini-Varianten entwickelt Google unter dem Namen Gemma auch eine Familie an offenen KI-Modellen. Nur wenige Monate nach der Vorstellung der ersten folgt nun bereits deren zweite Generation. Der große Versionssprung erklärt sich daraus, dass Gemma 2 eine neue Architektur besitzt, die deutlich flotter und schneller sein soll.

Project Astra

Und dann gewährt Google noch einen Blick in die Zukunft, oder zumindest eine Vorstellung davon, wie diese aussehen könnte. Unter dem Namen Project Astra experimentiert man mit einer Art nächsten Generation von digitalen Assistenten, einer, die viel flotter, mächtiger und auch persönlicher als bisherige derartige Tools sein soll.

Project Astra: Our vision for the future of AI assistants
Google

In einem Video demonstriert Google die Möglichkeiten von Project Astra. Darin ist zu sehen, wie der Assistent über die Kamera die Umgebung laufend erfasst und beliebige Fragen dazu fast ohne Verzögerung beantworten kann. Doch damit noch nicht genug, merkt sich Astra diese Dinge auch. Wie Google erläutert, erstellt Astra dafür aus Video und Ton in Echtzeit eine zeitlich sortierte Liste an Events. Zudem soll Astra natürlicher klingen als aktuelle KI-Assistenten, da es Sprache mit variabler Intonation ausgeben kann.

Wem all das irgendwie bekannt vorkommt: OpenAI hat am Montag eine experimentelle Version von ChatGPT gezeigt, die zum Teil sehr Ähnliches vermag. Auch dort spielte die Multimodalität über Bilder, Text und Sprachen hinweg eine wichtige Rolle, auch dort ging es um schnellere Reaktionszeiten und ein persönlicheres Auftreten. Die zeitliche Nähe ist dabei natürlich kein Zufall, OpenAI hat seine Präsentation bereits zum wiederholten Male direkt vor größere Ankündigungen der Konkurrenz gesetzt.

Auch wenn Google betont, dass Astra derzeit nur ein Experiment ist, so ist es doch eines, das zumindest teilweise in reale Produkte münden soll. Einzelne der vorgezeigten Möglichkeiten sollen noch dieses Jahr in die Gemini-App für Smartphones einfließen, darunter eben die weiter oben schon erwähnte Echtzeitanalyse des Video-Feeds der Kamera.

Und noch eine wichtige Information angesichts früherer Erfahrungen: Google-Deepmind-Chef Demis Hassabis betonte auf der Bühne I/O, dass das Video nicht verändert wurde, also eine reale Interaktion darstellt.

Project Astra
Google-Deepmind-Chef Demis Hassabis stellt das Project Astra vor.
Google

Google Apps

Doch es gibt nicht nur neue Tools, Google lässt KI auch immer stärker in all seine bekannten Programme einfließen. Eine ordentliche Prise neuer KI gibt es etwa für Google Fotos: So kann die Foto-App künftig mit Fragen in natürlicher Sprache durchsucht werden – "Ask Photos" nennt Google das. Damit kann dann die KI etwa Fotos zu einem gewissen Thema zusammentragen, oder auch spezifische Details heraussuchen: Das Ganze soll "später in diesem Jahr" verfügbar sein.

Einige neue Funktionen gibt es für die diversen Programme aus der Google Workspace Suite: Gmail kann künftig die eigenen Mails zu einem Thema zusammenfassen. Und Google Meet kann nun – wie manche Konkurrenten – die Inhalte von Videokonferenzen zusammenfassen. Generell soll Gemini künftig im Sidebar von Tools wie Gmail oder Google Docs zur Verfügung stehen, um dort dann hilfreich zu den gerade aktuellen Aktivitäten zur Seite zu stehen.

Eines der spannendsten KI-Experimente von Google ist NotebookLM, eine Art Recherchetool der nächsten Generation. Dieses kann künftig Zusammenfassungen der Inhalte in gesprochener Sprache wiedergeben, und zwar eben individualisiert für die einzelnen Nutzerinnen und Nutzer.

Für Firmen sicherlich von Interesse ist eine neue Google-Workspace-Funktion namens "Virtual Teammate". Eine KI kann dabei bestimmte Aufgaben übernehmen und antwortet sogar in Gruppenchats automatisch, wenn eine Frage aufkommt, die sie beantworten kann, ohne explizit angesprochen werden zu müssen.

Eine neue TPU-Generation: Trillium

Während manch andere Unternehmen derzeit mit der Entwicklung eigener KI-Chips beginnen, kann Google bereits auf eine lange Erfahrung in diesem Bereich zurückblicken. Unter dem Namen Trillium stellt das Unternehmen nun nur wenige Monate nach der letzten schon wieder eine neue Generation seiner Tensor Processing Units (TPUs) vor. Trotz dieses geringen Zeitabstands können sich die Fortschritte sehen lassen.

Trillium soll bei der Spitzenperformance 4,7-mal so schnell pro Chip sein wie der Vorgänger, die TPU v5e. Dazu hat man die Hardware ordentlich aufgebohrt, etwa die Bandbreite und Kapazität des High Bandwidth Memory (HBM), aber auch des Interchip Interconnect (ICI) verdoppelt. Damit passt sich Google den sich verändernden Anforderungen durch immer anspruchsvollere Modelle an.

Nicht zuletzt ist das übrigens für Google selbst wichtig, verwendet man die TPUs doch, um die eigenen Modelle zu trainieren, was mit den aktuellen Verbesserungen natürlich flotter gehen soll. Und für Google auch nicht ganz unwichtig: Trillium soll eine um 67 Prozent bessere Energieeffizienz als der Vorgänger haben. Die neuen Chips sollen für die Cloud-Kunden von Google ab Ende des Jahres verfügbar sein.

Android

Neue Android-Generationen sind seit vielen Jahren ein fixer – und zentraler – Bestandteil jeder Google I/O. Das ist dieses Mal nicht anders, immerhin handelt es sich dabei um das am meisten genutzte Betriebssystem der Welt. Google nutzte die Konferenz also, um neue Features für sein Betriebssystem vorzustellen. Oder wie es das Unternehmen etwas großspurig nennt: Android mit KI im Kern neu denken.

Dazu zählt man etwa das bereits bekannte "Circle to Search", das neue Funktionen erhält, künftig etwa bei Hausaufgaben helfen. Zudem kommt jener Wechsel, der sich bereits abgezeichnet hat: Der alte Google Assistant wird durch die Gemini-App ersetzt, die zahlreiche Verbesserungen erfährt.

Android KI
Auch für Android gibt es neue KI-Funktionen.
Google

Gemini auf dem Smartphone

Dazu wird die Gemini-App ordentlich aufpoliert und vor allem tiefer mit dem restlichen System integriert. So kann dann etwa ein Bild von Gemini direkt in die Google-Messages-App gezogen werden. Zudem können künftig Fragen zu gerade laufenden Videos gestellt werden, das schlägt Gemini auch direkt vor. Ähnlich geht das mit Dokumenten, Gemini kann dann Informationen aus diesen beziehen und passende Antworten liefern.

Ein zentrales Thema für KI auf dem Smarpthone sind Modelle, die direkt auf dem Smartphone laufen, also ohne Cloud-Anbindung auskommen. Googles Lösung dafür nennt sich Gemini Nano und ist seit einigen Monaten bereits auf Topgeräten von Samsung sowie Google selbst zu finden, wird dort aber bisher nur für einige wenige Dinge genutzt. Nun gibt es ein kräftiges Update.

Lokale KI ist die Zukunft

Gemini Nano soll im Verlauf des Jahres multimodal werden, also neben Text auch mit Bildern, Video und Ton umgehen können. Diese Dinge sollen sich dann kombinieren lassen, um damit live auf die Umgebung reagieren zu können – wohl nicht zufällig klingt das sehr nach dem schon erwähnten Project Astra. Dass das alles direkt am Smartphone läuft, ist dabei essentiell, um eine gute Performance liefern zu können, Netzwerkverzögerungen verhindern üblicherweise eine umgehende Reaktion, die notwendig ist, damit so etwas wirklich wie eine Konversation wirkt.

Android AI at the core
"AI at the core" lautet die Richtungsvorgabe für Android.
Proschofsky / STANDARD

Zudem soll Gemini Nano zum Kampf gegen betrügerische Anrufe eingesetzt werden. Wer das will, kann die KI zuhören lassen, um dann bei Betrugsversuchen Alarm zu schlagen – all das eben direkt auf dem Smartphone, ohne dass Daten weitergegeben werden.

Wer Neuerungen zum kommenden Android 15 erwartet hatte, wurde hingegen enttäuscht. Offenbar hatte dieses Thema in der mit KI vollgepackten Keynote keinen Platz mehr. Also sollen die entsprechenden Ankündigungen erst am zweiten Konferenztag folgen – also am Mittwochabend mitteleuropäischer Zeit. Was vor Ort zu hören war, dürfte dabei noch einmal ein ganzes Paket an Neuerungen kommen. (Andreas Proschofsky aus Mountain View, 14.5.2024)