Bard gegen Bing: So schlagen sich die Chatbots von Google und Microsoft im direkten Duell

Bing gegen Bard: Wer holt die Führung im Direktvergleich der KIs?

*Dieses Bild wurde durch die KI Midjourney mit dem Prompt "Two robots playing soccer, 4k, funny, --ar 16:9" generiert.*

Am Dienstag war es endlich so weit, und Google hat den langerwarteten Startschuss für seine eigenen Chatbot namens Bard gegeben. Auch wenn der Google-Bot ganz offiziell noch im Testmodus läuft und groß als "Experiment" deklariert wird, liegt natürlich ein Vergleich mit Microsofts Bing auf der Hand. Wer liefert die zuverlässigsten Informationen? Taugen die KIs als Shoppingberater, und wie sehr scheitern sie an der österreichischen Regierung? DER STANDARD hat die beiden Modelle auf den sprichwörtlichen Fußballplatz geschickt und gegeneinander antreten lassen.

Kurz zum Hintergrund: Hinter Microsofts Bing steckt GPT 4.0, also das Large Language Model von Open AI. Google nutzt bei Bard das eigene LaMDA. Aber genug, der Ball liegt auf der Mittelauflage, Anpfiff!

Erste Halbzeit: Solide Ergebnisse beim Abhörskandal

Erste Aufgabe: Die beiden KIs sollen den "griechisches Watergate" genannten Skandal für eine Recherche zu einem Artikel zusammenfassen. Dabei geht es um den mutmaßlich umfassenden Einsatz der Spywares Predator sowie Pegasus der griechischen Regierung gegen Journalistinnen und Journalisten sowie Politikerinnen und Politiker. Sowohl Bing als auch Bard liefern hier durchgehend verlässliche Informationen, wobei Bard den vermeintlich sicheren Weg wählt und die Einleitung des Wikipedia-Artikels beinahe wortgetreu wiedergibt und die weiteren Unterkapitel kurz zusammenfasst.

Bing zapft für die Recherche Quellen wie Datenschutz-NGOs und Tageszeitungen an, hält sich im Ergebnis deutlich kürzer, liefert gleichzeitig aber Vorschläge für weiterführende Fragen mit, was ein tieferes Eintauchen in das Thema erleichtert.

Ergebnis: Bislang ein ausgeglichenes und spannendes Match zweier ebenbürtiger Gegner: 1:1.

Mückstein, Schramböck und Köstinger sind nicht mehr im Amt. Bing müsste es eigentlich besser wissen.

Google Bard scheitert ebenfalls an der Regierung.

Kurz vor der Pause: Die Regierung, ein Trauerspiel

Im ersten Test hatte Bing noch gewaltige Schwierigkeiten, die Regierungsmitglieder in Österreich korrekt aufzuzählen. Und auch zwei Wochen später scheitert die Suchmaschinen-Chatbot-Kombo immer noch spektakulär. Laut Bing ist Karl Nehammer Kanzler und Innenminister in Personalunion, während die zurückgetretenen Ministerinnen und Minister Wolfgang Mückstein, Margarete Schramböck und Elisabeth Köstinger noch immer im Amt weilen.

Auf den Fehler hingewiesen, meint Bing zwar, es hätte die Liste nun korrigiert, kennt den aktuellen Landwirtschaftsminister Norbert Totschnig aber nicht. Verlangt man noch eine Korrektur, wiederholt sich das Spiel: Bing schwört, dass der Fehler nun behoben sei, und spuckt erneut falsche Ergebnisse aus.

Als letzte Chance stellen wir Bing die Frage noch einmal im "Kreativmodus", und siehe da, plötzlich stimmt die Liste, sogar die Parteizugehörigkeit passt, und auch die Staatssekretariate besetzt Bing richtig. Auf die Frage, warum Bing im eigentlich für "lustige" Konversationen gedachten Modus bessere Fakten liefert als im "seriösen" Zustand, bricht die KI die Konversation einmal mehr ab.

Bard ist ebenfalls schwer verwirrt: Die KI betitelt Leonore Gewessler als Vizekanzlerin und stutzt die Regierung auf nur sechs Mitglieder zusammen. Auf die Unvollständigkeit hingewiesen, reagiert Googles Textbot ähnlich wie Bing. Der Fehler wird angeblich korrigiert, nur um eine Vorarlberger Lokalpolitikerin zur Kulturministerin zu erklären. Noch dazu kommen dem Tester die beiden Namen Marco Buschmann und Bettina Stark-Watzinger seltsam vertraut vor, weil sie der deutschen Regierung angehören, wie eine herkömmliche Google-Suche bestätigt.

Die niederösterreichische Landeshauptfrau Johanna Mikl-Leitner ist laut Bard übrigens Landwirtschaftsministerin. Eine angeblich noch einmal erfolgte Korrektur der Ergebnisse erweist sich neuerlich als unbrauchbar.

Ergebnis: Zwar kann Bing nach vielen Versuchen die Regierungsmitglieder richtig benennen, verlassen kann man sich auf die Information aber nicht. Man muss selbst recherchieren. Deshalb fallen beide KIs durch, und es bleibt beim 1:1.

Bard ist nüchtern und liefert einen Klappentext zu einem offiziellen Abenteuer.

Bing ist wesentlich kreativer und schreibt selbst ein Abenteuer.

Zum Aufwärmen nach der Pause: Der "Dungeons and Dragons"-Test

Nach all der harten Arbeit und so manchem Fehlschlag ist es Zeit für etwas verspieltere Themen. Bard und Bing sollen ein Abenteuer für das Pen-and-Paper-Rollenspiel "Dungeons and Dragons" für eine Gruppe der Stufe 2 vorschlagen. Bard geht einmal mehr die sichere Route und schlägt das Abenteuer "The Sunless Citadel" vor. Dabei handelt es sich um ein vom Verlag herausgegebenes offiziell lizenziertes Produkt, das extra für eine noch niedrigstufige Gruppe geschrieben wurde. Bard fasst den Klappentext und eine kurze Inhaltsangabe zusammen und liefert auf Nachfrage mögliche Bezugsquellen. Solide, aber wenig bahnbrechend, denn eine Google-Suche hätte exakt zum selben Ergebnis geführt.

Bing lässt hier im Kreativmodus die Muskeln spielen und generiert einen einfachen Plot: Im Dorf Eichenhain verwandeln sich nachts die Bewohner in Werwölfe. Der Dorfälteste Berthold bittet die Helden, den Ursachen des Fluchs auf den Grund zu gehen. Auf Nachfrage liefert Bing sogar Vorschläge, wie man die Dörfler heilen oder den Fluch ganz brechen kann, der natürlich von einem bösen Kult ausgesprochen wurde. Das alles gewinnt keinen Preis für Originalität, aber mit ein wenig Arbeit lässt sich daraus ein unterhaltsames Abenteuer für einen Abend machen.

Ergebnis: Bing ist kreativer und geht mit 2:1 in Führung.

Bard schlägt gute Earbuds aus allen Preisklassen vor.

Ende der zweiten Halbzeit: Kaufberatung für empfindliche Ohren

Geht es nach ihren Erschaffern, sollen Bard und Bing digitale Assistenten für die Hosentasche sein: Also sollen sie den Tester bei der Suche nach halbwegs günstigen Earbuds beraten. Bard empfiehlt binnen Sekunden Apples Airpods (299 Euro), Samsung Galaxy Buds 2 (ca. 80 Euro) und Jabra Elite 3 (ca. 45 Euro). Zwar würden die Airpods das mit "günstig" nicht scharf abgegrenzte Budget sprengen, aber die Auswahl ist durchwegs solide, und die kurzen Extra-Informationen über die Features helfen bei der Kaufentscheidung sicher weiter. Sehr gut!

Bing empfiehlt ebenfalls die Ohrstöpsel von Samsung und Apple, rät aber zuerst zu den Sony WF-1000XM4 um etwa 180 Euro sowie den Jabra Elite Active 7 um etwa 140 Euro. Damit greift Bing ins teurere Regal, liefert aber ebenfalls Infos über Klang, Akkulaufzeit und IPX-Zertifizierung. Praktisch: Auf einer Karte werden Geschäfte in der Nähe markiert, bei denen man die empfohlenen Produkte sogleich käuflich erwerben kann.

Ergebnis: Solide und brauchbare Ergebnisse auf beiden Seiten. Bing verspielt den kleinen Vorteil, den es sich mit der Karte erarbeitet hat, durch die nicht ganz passende Preiskategorie. Beide punkten, es bleibt spannend mit 3:2 für Bing.

Nachspielzeit: Die User-Experience

Sowohl Bard als auch Bing bieten die Möglichkeit, die Ergebnisse zu variieren. Bing kann wie oben bereits angedeutet in von "normal" auf "kreativ" oder "genau" gestellt werden. Wobei sich der "genaue" Modus vor allem auf die Zeit auswirkt, die sich Bing für eine Antwort lässt. Dafür bekommt man aber auch vermehrt Infografiken und Produktbilder mitgeliefert. Gerade bei Fragen zu technischen Details eines Produkts bietet sich dieser Modus an. Bing wird aber in seiner Usability immer noch durch die Begrenzung auf 15 Antworten limitiert. Im Netz wird sogar über die "Lobotomie" von Bing gespottet, was natürlich eine bösartige Übertreibung ist. Wirklich störend ist, dass die Textkorrekturfunktion auf 2.048 Zeichen limitiert ist. Auf der Haben-Seite liefert Bing gleich vorgefertigte weiterführende Fragen, die meistens sinnvoll sind und die Konversation doch deutlich beschleunigen.

Googles Bard wurde auf die Praxis getrimmt, und man kann jede Antwort in drei verschiedenen Formen darstellen lassen. So werden in längeren Texten Gliederungen eingefügt oder Antworten in Stichworten und Bulletpoints zusammengefasst. Sehr praktisch. Außerdem kann man eigene Texte an bard@bard.ai schicken. Wenige Sekunden später erhält man eine korrigierte Variante im Postfach – zumindest wenn das Werk auf Englisch verfasst wurde. Bard scheint auch deutlich schlanker zu sein und antwortet im Test erheblich schneller als Bing. Darüber hinaus ist bei Googles Bot die Zahl der Antworten nicht begrenzt.

Ergebnis: Bing hat drei mehr oder weniger sinnvolle Modi und noch sehr viele Einschränkungen. Bard wirkt flotter, offener und dank der unterschiedlichen Antwortmöglichkeiten praktischer und schafft deshalb den Ausgleich. Endstand: ein torreiches Unentschieden mit 3:3.

Nach dem Abpfiff: Das Fazit

Google hat gut daran getan, Bard noch ein paar Wochen Zeit zu geben. Generell scheint der Suchmaschinenriese beim Thema KI den Hype bewusst dämpfen zu wollen und steigt gerne auf die Bremse, um die Erwartungen der Testerinnen und Tester ein wenig auf den Boden der Realität zu holen. So veröffentlichte Googles KI-Abteilung ein siebenseitiges Dokument, in dem in allen Details auf die Limitierungen von Bard eingegangen und mehrmals betont wird, dass es sich um ein Experiment handelt. Microsoft war da mutiger – oder je nach Lesart waghalsiger. In Redmond konnte man sich einen Fehlschlag eher leisten. Man könnte bösartigerweise sogar behaupten, dass der Schaden begrenzt wäre, würde das neue Bing katastrophal scheitern.

In den zwei Wochen seit dem letzten Test hat Microsoft bei Bing noch einmal nachgebessert, der Chatbot reagiert nun deutlich weniger eingeschnappt oder beleidigend und liefert jetzt auch einigermaßen zuverlässige Ergebnisse. Das führt dazu, dass sich Bing und Bard auf Augenhöhe schlagen, denn Googles KI wirkt im Test deutlich aufgeräumter, nüchterner und erwachsener als Bing in der Anfangsphase.

Die Frage, ob eine KI für die Websuche tatsächlich einen Mehrwert bietet, bleibt aber immer noch offen. Tatsächlich fühlt sich die Suche mit Bing manchmal sogar langsamer an als eine traditionelle Websuche, aber das mag daran liegen, dass wir darauf trainiert sind, klassische Suchmaschinen effizient zu bedienen. Insofern hat Google smart agiert und Bard als eigenständiges Tool veröffentlicht, ohne im eigenen Kerngeschäft der Websuche mit einem Experiment herumzupfuschen. Das KI-Duell ist jedenfalls nicht entschieden, es hat gerade erst begonnen. (Peter Zellinger, 22.3.2023)

KI-Match