Künstliche neuronale Netzwerke machen es möglich, dass Spracherkennung wesentlich schneller und robuster funktioniert. Für spezifische Aufgaben kann das System adaptiert werden.
Foto: Getty/Super

Damit moderne Sprachassistenten wie Amazons "Alexa" oder Apples "Siri" verstehen, was man eigentlich von ihnen will, ist künstliche Intelligenz (KI) unerlässlich. Sie findet relevante Schlüsselwörter in geschriebenem oder gesprochenem Text, kann in Sätzen Ursache und Wirkung unterscheiden und mittlerweile sogar ganze Texte in eine andere Sprache übersetzen. Auch Google hat derartige Software längst in seine Such-Algorithmen eingebaut. Diese sorgt dafür, dass immer komplexere Fragen erstaunlich häufig richtig interpretiert und beantwortet werden.

KIs von der Stange

Möglich gemacht haben diesen Entwicklungssprung zusammen mit Google Forschende der Universität Toronto. Sie stellten vor fünf Jahren eine neue Architektur vor, mit der künstliche neuronale Netzwerke in der Spracherkennung wesentlich schneller und robuster funktionieren. Um ein allgemeines Sprachverständnis zu erwerben, wird die künstliche Intelligenz zuerst auf Supercomputern mit riesigen Textmengen "vortrainiert" und kann dann von Entwicklerinnen als "KI-Werkzeug von der Stange" für spezifischere Aufgaben weiter adaptiert werden.

"Damit lassen sich viele neue Anwendungen im Bereich künstlicher Intelligenz erschließen", sagt Fabian Jetzinger, Datenwissenschafter bei der RISC Software GmbH in Hagenberg, einem Forschungsunternehmen der Johannes Kepler Universität Linz und der Upper Austrian Research GmbH (Land OÖ). "Wir können damit Werkzeuge entwickeln, die Menschen bei immer anspruchsvolleren Aufgaben unterstützen können."

Mehr als nur Chatbots

Der Einsatz ist längst nicht mehr auf einfache Chatbots beschränkt, die auf Kundenanfragen nur mit einigen wenigen vorgefertigten Antworten reagieren können. Vielmehr kann die Software auch verwendet werden, um komplexere Kundenanfragen abzuarbeiten, Kommentare und Rückmeldungen nach Gefühlskategorien zu ordnen und Spamnachrichten auszufiltern.

Eine der einflussreichsten Architekturen für Sprachmodelle stammt von Google und heißt BERT (Bidirectional Encoder Representations from Transformers). Eine ihrer Weiterentwicklungen, die sogenannte T5-Architektur, bietet bereits die Möglichkeit, mit einem einzelnen Modell unterschiedliche Aufgaben zu lösen, ohne dass die künstliche Intelligenz dafür jedes Mal neu programmiert werden muss.

Jetzinger sucht nun in Forschungs- und Kundenprojekten weitere Einsatzmöglichkeiten für die KI-Werkzeuge von der Stange. "Ihre Fähigkeiten sind mittlerweile so weit entwickelt, dass man sie auch bei äußerst komplexen Aufgabenstellungen einsetzen kann."

Der Datenwissenschafter untersucht etwa, ob und wie vortrainierte Sprachmodelle in Whistleblower-Software eingesetzt werden könnten. So könnte eine künstliche Intelligenz Hinweise selbstständig in strafrechtlich relevante Kategorien einordnen und an entsprechende Sachbearbeiter weiterleiten.

Selbst in Medizin nutzbar

In einem weiteren Projekt erkundet Jetzinger, wie KI-Assistenten Diagnosetexte von Medizinerinnen mitlesen und eine Kategorisierung der Diagnose nach dem ICD-10-Code (International Statistical Classification of Diseases and Related Health Problems) vorschlagen können. "Diese Vorschläge können von Experten dann angenommen werden oder auch nicht."

Dass eine Sprach-KI nun auch in sensibleren Bereichen eingesetzt werden kann, basiert dabei auf einer wichtigen Weiterentwicklung. Durch die neue Architektur können Rechner Texte nicht nur mehr sequenziell Wort für Wort abarbeiten, sondern sie als Ganzes im Kontext besser erfassen.

Millionen Bücher und das ganze Internet

Bei dem aufwendigen und kostenintensiven Prozedere der Erstkalibrierung werden die Sprachmodelle auf Großrechnern mit zwei Versionen eines riesigen Textkorpus trainiert, der aus Millionen von Büchern und mehr oder weniger dem gesamten textlichen Internet besteht. Die Trainingsversion ist dabei lückenhaft und ein Teil der Wörter digital geschwärzt. Die Vollversion dient folglich als Musterlösung.

"Beim maschinellen Lernen vergleicht der Algorithmus nun selbstständig, wie gut er den Lückentext schon beherrscht." Dabei arbeitet der Rechner, da er ja kein menschliches Sprachverständnis besitzt, mit Wahrscheinlichkeiten. Je häufiger ein bestimmtes Wort als Antwort mit der Musterlösung übereinstimmt, umso positiver wird es vom Rechner als Trainingsfortschritt gewertet. Da etwa Wörter wie "Wolke" und "regnen" häufiger gemeinsam in einem Wetterbericht auftreten als "Wolke" und "Punkte", kann die künstliche Intelligenz auch Rückschlüsse auf Textkategorien ziehen.

Ethische Maschinen

Dabei achten die Entwickler darauf, dass der Rechner Antworten nicht auswendig lernt. Als besonders wichtig gilt auch, dass künstliche Intelligenzen aus den vorhandenen Alltagstexten keine Stereotype und Vorurteile übernehmen. Diese Lektion musste auch Microsoft schmerzhaft lernen: Der Chatbot "Tay" sollte 2016 auf Basis von Twitter-Interaktionen dazulernen, um sich in weiterer Folge natürlicher unterhalten zu können.

Das Experiment endete im Desaster. Nachdem die künstliche Intelligenz mit rassistischen und sexistischen Nachrichten bombardiert worden war, begann auch Microsofts Chatbot, hasserfüllte Meldungen von sich zu geben. Er musste vom Netz genommen werden. Heute müssten daher schon in der Entwicklung Ethik-Leitlinien berücksichtigt werden, sagt Jetzinger. Sie sollen garantieren, dass eine künstliche Intelligenz über den gesamten Lebenszyklus sozial robust bleibt und ethische Grundsätze einhält. (Norbert Regitnig-Tillian, 4.6.2022)