Bard gegen Bing: Welche KI plant das bessere Kulturwochenende im Burgenland?

Oper Carmen St. Margarethen — "Carmen" wird derzeit im Steinbruch St. Margarethen aufgeführt. ChatGPT wollte uns lieber zu "Mamma Mia! schicken.

Nachdem Open AIs ChatGPT zu Jahresbeginn die Welt im Sturm erobert hatte, baute Microsoft eine Sprach-KI in die eigene Suchmaschine ein , die auf der gleichen Technologie basiert, zusätzlich aber auch aktuelle Informationen aus dem Netz abrufen kann. Und nun ist auch Google mit seinem Large Language Model (LLM) namens Bard in Europa offiziell gestartet, zusätzlich versteht Googles Sprach-KI nun auch die deutsche Sprache.

Doch wie schlagen sich die KIs im direkten Vergleich? Vor allem, wenn es darum geht, aktuelle Informationen aus dem Web abzurufen? Um dies in einem ersten Versuch zu erfahren, hat der STANDARD von den Sprachrobotern ein Wochenende im Burgenland planen lassen, inklusive Badeurlaub und Kulturprogramm. Im Hinterkopf haben wir dabei, dass aktuell die Oper "Carmen" im Steinbruch St. Margarethen läuft. Es stellt sich also die Frage, ob die KIs aktuelle Informationen zu ebendieser Oper finden.

Strukturierter Plan

In den vergangenen Monaten haben Experimente mit LLMs immer wieder gezeigt, dass die KIs selten fertige Konzepte, Verkaufsunterlagen oder Zeitungsartikel liefern, sehr wohl aber in der Phase der Ideenfindung helfen können. Und genau das haben wir auch im vorliegenden Fall getan, indem wir Bard, Bing und ChatGPT die folgende Aufgabe gestellt haben: "Plane für mich ein Wochenende im Burgenland, Österreich, von Freitag bis Sonntag im Sommer 2023. Tagsüber möchte ich schwimmen gehen, für die Abende wünsche ich mir ein Kulturprogramm."

Die exakte Formulierung eines derartigen Befehls ("Prompt") hat maßgeblich Einfluss auf das Ergebnis, das die Software ausgibt. Im vorliegenden Fall geben wir unmissverständlich das Datum an, nennen einen Zeitraum und äußern unsere Vorlieben. In zwei von drei Fällen erhalten wir anschließend eine strukturierte Agenda, im dritten Fall bekam wir eine kompaktere Antwort. So schreibt Bard:

Hier ist ein möglicher Reiseplan für ein Wochenende im Burgenland im Sommer 2023:

Freitag:

Samstag:

Sonntag:

Dieser Reiseplan kann natürlich nach Ihren individuellen Wünschen angepasst werden. Das Burgenland bietet eine Vielzahl von Aktivitäten und Sehenswürdigkeiten für jeden Geschmack, sodass Sie bestimmt ein unvergessliches Wochenende verbringen werden.

Hier sind einige zusätzliche Tipps für Ihre Reise:

Ich hoffe, Sie haben eine schöne Zeit im Burgenland!

Praktisch ist, dass Bard auch generelle Tipps ausspuckt, obwohl wir die KI nicht explizit danach gefragt haben – auf den Sonnenschutz hätten wir doch glatt vergessen. "Carmen" oder den Steinbruch sucht man in dieser Liste vergebens, stattdessen wird ein Besuch des Haydn-Theaters und des Museums für zeitgenössische Kunst in Eisenstadt empfohlen.

Ein ähnliches Programm liefert auf Anfrage auch ChatGPT, allerdings ohne praxisnahe Reisetipps und mit einem Hinweis auf die Seefestspiele Mörbisch anstatt des Haydn-Theaters oder des Steinbruchs. In Mörbisch, so ergibt eine rasche Google-Suche, spielt es derzeit "Mamma Mia!". Die kompakte Lösung kommt hingegen von Bings Bot. Statt auf langes Geschwafel verlinkt man hier auf externe Seiten, die weiterführende Informationen enthalten.

Ich habe einige Vorschläge für Sie. Wie wäre es mit einem Wochenende im Burgenland in der Nähe des Neusiedler Sees? Dort gibt es viele Möglichkeiten zum Schwimmen und Entspannen. Für die Abende empfehle ich Ihnen, das Kulturprogramm der Kultur-Betriebe Burgenland zu überprüfen. Sie können auch den Kulturkalender von events.at überprüfen, um weitere Veranstaltungen zu finden. Ich hoffe, das hilft Ihnen weiter!

Ich hoffe, das hilft Ihnen weiter!

Bard halluziniert falsche Daten

Was aber passiert, wenn man die KIs bewusst fragt, was es gerade im Steinbruch spielt? Dies haben wir mit dem Prompt "Welche Oper spielt es aktuell im Steinbruch St. Margarethen?" getan und von ChatGPT die zu erwartende, aber eben unbefriedigende Antwort erhalten, dass das KI-Sprachmodell keine Echtzeitinformationen abrufen kann, da das eigene "Wissen" – gemeint sind die Daten, mit denen ChatGPT trainiert wurde – mit September 2021 endet. Man solle sich direkt an den Steinbruch oder an die "örtlichen Tourismusbehörden" wenden.

Oder aber man fragt Bing und Bard. Denn die bieten auf Anfrage sehr wohl die gewünschten Informationen. So heißt es bei Bing kurz und knapp, inklusive Link: "Die Oper, die aktuell im Steinbruch St. Margarethen aufgeführt wird, ist Carmen. Ich hoffe, das hilft Ihnen weiter!" Bard schickt keine Beleg-Links mit, bietet aber an, weiterführende Informationen gleich zu googeln. Bard glaubt außerdem, die Aufführungszeit zu kennen: "Die Oper, die aktuell im Steinbruch St. Margarethen gespielt wird, ist 'Carmen' von Georges Bizet. Die Aufführungen finden von 16. Juni bis 16. September 2023 statt. Die Karten sind bereits im Vorverkauf erhältlich." Das ist allerdings falsch. Wie alle kulturinteressierten Menschen wissen, war die Premiere am 12. Juli 2023.

KIs als Kulturkritiker?

An dieser Stelle unseres Versuchs verabschieden wir uns von ChatGPT – denn wer noch nicht einmal aktuelle Informationen suchen kann, der scheitert wohl auch an weiteren Aufgaben, die zu der Planung eines Wochenendes nötig wären. Konkret wäre nun interessant, wie die besagte Oper in Rezensionen bewertet wird. Bing verhält sich auf den entsprechenden Prompt hin zunächst richtig, indem transparent gezeigt wird, dass die KI nach dem Begriff "Rezensionen Oper Carmen Steinbruch St. Margarethen" sucht. Das Ergebnis ist am Vormittag des 13. Juli – also am Tag nach der Premiere – jedoch enttäuschend: Man habe noch keine Rezensionen gefunden, der User solle sich stattdessen bitte auf der Website des ORF Burgenland umsehen, heißt es dort.

Bard wiederum demonstriert erneut, wie wichtig das korrekte Formulieren von Prompts ist, um aus LLMs das korrekte Ergebnis herauszuholen. So spuckt die Software auf die Frage "Wie wird diese Oper in Rezensionen bewertet?" zunächst allgemeine Informationen über "Carmen" per se aus:

Die Oper "Carmen" von Georges Bizet wird von Kritikern und Publikum gleichermaßen gelobt. Die Musik ist mitreißend, die Handlung spannend und die Charaktere komplex und vielfältig. Carmen ist eine starke weibliche Figur, die sich nicht von Männern unterkriegen lässt, und Don José ist ein tragischer Held, der von seiner Liebe zu Carmen zu einem Mord getrieben wird.

Hier sind einige Beispiele für positive Kritiken zu "Carmen":

Wenn Sie eine Oper suchen, die Sie begeistern wird, dann empfehle ich Ihnen "Carmen" von Georges Bizet. Sie werden es nicht bereuen!

Das hätte ChatGPT auch noch geschafft. Fragt man Bard aber konkret nach "aktuellen Rezensionen von 2023 für Carmen im Steinbruch St. Margarethen", dann spuckt Googles KI das folgende Ergebnis aus:

Die aktuellen Rezensionen von 2023 für Carmen im Steinbruch St. Margarethen sind sehr positiv. Die Kritiker loben die Leistung der Sänger, die Regie, die Bühnenbild und das Orchester. Die Oper wird als ein unvergessliches Erlebnis beschrieben, das man sich nicht entgehen lassen sollte.

Hier sind einige Beispiele für positive Rezensionen:

Wenn Sie eine Oper suchen, die Sie begeistern wird, dann empfehle ich Ihnen Carmen im Steinbruch St. Margarethen. Sie werden es nicht bereuen!

Das ist zumindest mal eine Antwort – ob sie gut ist, darüber ließe sich vermutlich wunderbar streiten. Für Stirnrunzeln sollte jedenfalls sorgen, dass die zitierten Rezensionen mit keinerlei Links hinterlegt sind, es sich also ebenso gut um "Halluzinationen" – also von einem LLM erfundenen Informationen – handeln könnte. Mal ganz abgesehen davon, dass die Informationen äußerst verkürzt sind und nicht wirklich auf Details der Aufführung eingehen. Das kann jeder menschlicher Rezensent deutlich besser und verlässlicher liefern.

Kann Bard Tickets buchen?

Und nun noch zu einer Fleißaufgabe: Können die KIs auch prüfen, ob zu einer Veranstaltung noch Tickets verfügbar sind? Die Antwort lautet: Ja, das können beide. So antwortet Bing auf die Frage "Gibt es für das kommende Wochenende noch Karten für 'Carmen' im Steinbruch St. Margarethen? Und, wenn ja, kannst du mir welche besorgen?" Folgendes: "Ja, es gibt noch Karten für Carmen im Steinbruch St. Margarethen. Sie können Tickets auf oeticket.com oder ticket.at kaufen. Ich hoffe, das hilft Ihnen weiter!" Die Information ist laut Website des Steinbruchs korrekt.

Die Antwort von Bard wiederum macht stutzig. Denn Googles LLM schreibt nicht nur, dass es noch Tickets gibt und diese auf der Website des Steinbruchs oder an der Abendkassa (oder "Abendkasse", wie das offensichtlich bundesdeutsch trainierte Modell schreibt) erworben werden können, die Software spuckt auch Folgendes aus: "Ich kann Ihnen auch gerne Karten besorgen. Bitte geben Sie mir Bescheid, welche Karten Sie möchten und wann Sie sie brauchen. Ich werde Ihnen dann eine Bestätigung per E-Mail zusenden. Ich freue mich, Ihnen bei der Kartenbeschaffung helfen zu können."

Um das Spesenbudget nicht unnötig zu belasten, brechen wir an dieser Stelle ab und fragen stattdessen bei Google Österreich direkt nach: Kann Bard tatsächlich Tickets kaufen, Urlaube buchen und sonstige Einkäufe tätigen? Die Antwort: Hätte Google mit Dritten, also zu Beispiel einer Ticketingfirma, einen Vertrag und somit Zugriff auf eine Schnittstelle und würden weitere Bedingungen – unter anderem eine Freigabe für Online-Bezahlung – erfüllt, dann wäre dies im Grunde möglich. Derzeit gebe es derartige Kooperationen aber nicht, auch könne man nicht von Zeitplänen oder konkreten Vorhaben in diese Richtung berichten.

Warum bietet Bard es im Chat dennoch an? Auch hier ist die naheliegendste Erklärung, dass die KI schlichtweg halluziniert. Nota bene: Sehr wohl setzt Open AI bei ChatGPT auf Plug-ins, über die mit Dritten kooperiert wird. Hier gehören unter anderem die Buchungsplattformen Expedia und Kayak zu den genannten Partnern.

Fazit: Tschüss, ChatGPT!

Doch was ja nicht ist, das kann bei Bard und Bing noch werden. Und abgesehen von der Thematik der Buchungen demonstriert der aktuelle Versuch, was Marktbeobachter seit Monaten prognostizieren: dass nach anfänglichen Erfolgen der Newcomer die Big Techs nun nachziehen und Land zurückerobern. Denn im Grunde gibt es nach aktuellem Stand keinen Grund, ChatGPT zu verwenden, Bard und Bing punkten erstens durch Zugänglichkeit und zweitens durch die aktuellen Informationen, die es bei ChatGPT schlichtweg nicht gibt.

Beide Plattformen setzen dabei auf unterschiedliche Features: Der eine findet offenbar schneller Ergebnisse im Web, der andere schickt dafür Links mit. Das kann sich jedoch in naher Zukunft rasch ändern, denn immerhin entwickeln beide Anbieter ihre LLMs stetig weiter. Was aber jedenfalls auch bei beiden Bots nicht ausgeschlossen werden kann: Dass sie halluzinieren – und dass man entsprechende Informationen im Zweifelsfall nachprüfen sollte. (Stefan Mey, 14.7.2023)

"Carmen" gesucht