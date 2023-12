Chatbot Copilot fällt in aktueller Studie durch: Das KI-Tool erfindet Skandale, denkt sich Umfragen aus und gibt sogar Wahltermine falsch an

Microsofts KI-Tool Copilot zeigt in einer aktuellen Studie klare Defizite. Microsoft

Nächstes Jahr stehen die Zeichen voll und ganz auf Wahlen: In Österreich wird ein neuer Nationalrat gewählt, Europa wählt ein neues Parlament und die USA entscheiden sich für den nächsten Präsidenten. Mit der ungebrochenen Popularität von KI-Tools, insbesondere Chatbots ist es daher nicht unwesentlich, ihren Umgang im Kontext dieser wichtigen Ereignisse zu beleuchten. Eine aktuelle Studie von AlgorithmWatch und AI Forensics legt nahe, dass man sich dabei keinesfalls auf Microsofts KI Copilot verlassen sollte. Der Chatbot halluziniert Umfragen, Skandale und gibt sogar Wahltermine falsch an.

Für die Untersuchung wurde das Antwortverhalten des Chatbots zu Wahlen in Deutschland und in der Schweiz untersucht. Im Mittelpunkt dieser Untersuchung stand die Art und Weise, wie Bing Chat auf wahlbezogene Anfragen antwortete. Über einen Zeitraum von Ende August bis Anfang Oktober 2023 wurde das KI-Tool auf seine Fähigkeit getestet, genaue und aktuelle Informationen zu verschiedenen Aspekten der Wahlen zu liefern. Die Bandbreite der Fragen reichte von grundlegenden Details zu den Wahlen bis hin zu differenzierteren Anfragen, etwa zur Umweltpolitik oder den Standpunkten der einzelnen Kandidatinnen und Kandidaten.

Gravierende Fehler

Kernaussage der Studie ist, dass ein Drittel der KI-Antworten auf Fragen zu den Wahlen sachliche Fehler enthielt. Trotz der fortschrittlichen Technologie, die dem Bing-Chat zugrunde liegt, gab es eine bemerkenswerte Häufigkeit faktischer Ungenauigkeiten. Die Fehlinformationen reichten von grundlegenden Details wie falschen Wahldaten bis hin zu schwerwiegenden Fehlern wie falschen Informationen über Kandidatinnen und Kandidaten sowie erfundenen politischen Kontroversen. Solche Ungenauigkeiten führen nicht nur die Nutzer in die Irre - sie haben damit auch das Potenzial, die öffentliche Wahrnehmung und den demokratischen Prozess zu manipulieren.

Ein weiteres Problem zeigte sich in der Studie aber auch bei der mangelhaften Anwendung von Sicherheitsvorkehrungen. Im Idealfall sollten Schutzmaßnahmen die KI bzw. den Chatbot daran hindern, Antworten zu geben, die nicht in der Wissensbasis enthalten sind. In 40 Prozent der Fälle vermied es Copilot, Fragen zu beantworten, was möglicherweise auf die Grenzen seiner Programmierung zurückzuführen war. Man könnte zugutehalten, dass Chatbots eigentlich keine politischen Wertungen vornehmen sollten. Tatsächlich war das Tool teilweise aber nicht einmal dazu in der Lage, einfachste Fragen zu den Kandidatinnen und Kandidaten zu beantworten.

Ein auffälliger Aspekt in der Studie ist zudem die statische Leistung des Chatbots. Angesichts des dynamischen Charakters von Wahlkampagnen und der sich entwickelnden Informationslandschaft könnte man erwarten, dass sich die Genauigkeit der KI verbessert, je mehr Daten zur Verfügung stehen. Die Wahrscheinlichkeit, von Microsofts KI falsche Informationen zu erhalten, hat sich im Beobachtungszeitraum jedoch nicht verringert. Die Schlussfolgerung liegt also nahe, dass der Fehler struktureller Natur sein dürfte.

Bedenklich statt alltagstauglich

Die Ergebnisse dieser Studie sind umso bedenklicher, als dass Copilot einen bedeutenden Schritt bei der Integration von KI in alltägliche digitale Arbeitsumgebungen darstellen soll und seine Präsenz auf die gesamte Microsoft-Produktpalette ausdehnt, einschließlich Office und Windows 11. Die Wahrscheinlichkeit einer häufigen Verwendung ist also durchaus gegeben. Die Auswirkungen der Falschinformationen gehen über eine schlechte Nutzererfahrung hinaus.

Wenn das KI-Tool beispielsweise falsche Informationen lieferte, wurden häufig echte Nachrichtenquellen falsch zitiert, wodurch der Ruf sowohl der beteiligten Kandidaten als auch der Nachrichtenagenturen gefährdet wurde. Die falsche Zuordnung von Quellen schafft ein problematisches Narrativ, das die Grenzen zwischen sachlicher Berichterstattung und KI-generierten Inhalten verwischt.

Probleme bei der Korrektur

Die Reaktion von Microsoft auf diese Erkenntnisse ist nach Angaben der Studienautoren nicht weniger beunruhigend: Obwohl das Unternehmen die Probleme einräumte und Verbesserungen versprach, zeigten nachfolgende Bewertungen kaum Veränderungen in der Qualität der Chatbot-Antworten. Die Reaktion - oder vielmehr das Fehlen einer solchen – legt nahe, dass man das Problem kurz- bis mittelfristig entweder nicht lösen kann oder es nicht lösen will.

Die Ergebnisse der Untersuchung stehen mehr oder weniger im Einklang mit allgemeinen Bedenken hinsichtlich der Rolle der KI bei der Gestaltung des öffentlichen Diskurses und der Integrität von Informationen. Der Hang generativer KI zu Halluzinationen, wie sie durch die untersuchte Leistung von Microsofts KI einmal mehr demonstriert wurde, unterstreicht einmal mehr die Notwendigkeit einer sorgfältigen Regulierung - besonders weil diese Technologien auch zunehmend in Plattformen für allgemeine Zwecke integriert werden (bbr, 17.12.2023)