Pittsburgh - Auch Spracherkennungsprogramme bekommen Verständnisschwierigkeiten, wenn es rundum zu laut wird. Deshalb lehren Computerwissenschaftler der Carnegie Mellon University in Pittsburgh ihre Rechner das Lippenlesen, berichtet das britische Fachmagazin New Scientist . Die neue Software namens NLips soll die Fehlerrate bei der Spracherkennung vor allem in lauter Umgebung dramatisch herunterschrauben, so Alex Waibel, einer der Entwickler. Herrscht relative Ruhe rund um den Sprechenden, so arbeiten typische Spracherkennungsprogramme zu rund 92 Prozent erfolgreich - das Erkennen der Lippenbewegungen schafft nur marginale Verbesserungen der Quote, so Waibel. Doch bei starkem Hintergrundlärm sinkt die Erfolgsrate üblicher Programme auf rund 60 Prozent ab - mit zusätzlichem Lippenlesen läßt dies wieder auf 85 Prozent steigern. NLips schöpft aus der Kombination von akustischer und visueller Information. Es zerteilt die gehörte Sprache wie jedes übliche Programm in Lautfolgen, die Phoneme, und vergleicht sie mit gespeicherten Vorgaben. Gleichzeitig aber erfaßt eine Kamera die Lippenbewegungen, sogenannte "tracking software" korrigiert Fehler durch eventuelle Kopfbewegungen - und ein neuronales Netzwerk erkennt und verarbeitet die 50 vorgegebenen "Viseme", die optischen Äquivalente zu den Phonemen. Würde das Programm allein die Lippenbewegungen interpretieren, wäre es hoffnungslos unterlegen, gibt Waigel zu. Doch wie die Menschen sei es in der Lage, "all diese Signale zu berücksichtigen und die wahrnehmbare Welt in ihrer Gesamtheit zu erfassen". Bisher testeten die Entwickler das Programm erfolgreich beim Buchstabieren einzelner Wörter. Doch auch den nächsten Schritt, das Erkennen kontinuierlichen Sprachflusses, sollte laut Waibel kein Problem darstellen: schließlich sei für die meisten Spracherkennungsprogramme das Verstehen ganzer Worte einfacher als das Erkennen einzelner Buchstaben. Inzwischen arbeitet das Team daran, NLips in ein Videokonferenz-System zu integrieren, das automatische Mitschriften der Diskussion anfertigt. Nächstes Ziel soll es dann sein, das "doppelgleisige" Spracherkennungssystem für die Nutzung in lauten Fahrzeugkabinen anzupassen, um die Instrumentenbedienung am Steuer per Sprache zu ermöglichen. (pte/wsa)