Wer häufig Interviews führt, zählt das Transkribieren wahrscheinlich zu seinen oder ihren unliebsamsten Aktivitäten.

Foto: imago/ZUMA Press/Chedly Ben Ibrahim

Es ist wohl die mühsamste, weil platteste aller Aktivitäten für Studierende, Medienschaffende und viele andere Berufszweige: das Transkribieren. Gerade wenn sich das Gespräch ein wenig in die Länge gezogen hat, kann es frustrierend werden, Konversationen schriftlich in Worte zu fassen. Zugleich ist der Vorteil eines längeren Austauschs, dass mehr Informationen weiterverwertet werden können. Da erscheinen automatisierte Transkriptionstools als eine willkommene Hilfe, um Gespräche zu Papier zu bringen. Doch lohnen sie sich?

In erster Linie muss, gerade für Privatpersonen, ein beträchtliches Budget miteinberechnet werden, bevor solche Tools infrage kommen. Immer noch am günstigsten bleibt das händische Transkribieren, wiewohl der damit verbundene Zeitaufwand nicht unwesentlich ist. Im Durchschnitt sollte man die fünf- bis zehnfache Dauer der Aufnahme einkalkulieren, je nach Tipp- und Sprechgeschwindigkeit. Soll das der Vergangenheit angehören, gibt es zahlreiche Angebote für automatisierte Mitschriften.

Zu den bekanntesten gehören etwa Trint, Happy Scribe, f4x und Amberscript. Grundsätzlich funktionieren sie alle ähnlich: Nutzer können nach Abschluss eines Abos Aufnahmen bei dem jeweilige Service hochladen. Diese werden automatisiert transkribiert. Erledigt ist das in der Regel in etwa der Hälfte der Dauer der jeweiligen Aufnahme, meist aber maximal in einer Stunde. Dann können User das Transkript in einer Web-App einsehen und weiter bearbeiten.

Variierende Ergebnisse

Wie erfolgreich die Konversationen verschriftlicht werden, variiert. Insgesamt sind die Systeme über die letzten Jahre kontinuierlich besser geworden. Mittlerweile lesen sich vor allem englischsprachige Konversationen oft fast so, wie sie geführt wurden. In deutscher Sprache erweist sich die Umwandlung hingegen häufig als eher holprig. Bei besonders schnellen Rednern, Dialekten oder schlechten Audioaufnahmen stolpern die Programme regelmäßig.

Der STANDARD hat Trint, Amberscript, f4x und Happy Scribe getestet. Keine der ausprobierten Softwares konnte einwandfreie Ergebnisse liefern. Das heißt aber nicht, dass die automatisch erstellten Skripte unbrauchbar sind. Einen fixfertigen Text verspricht sowieso keiner der Anbieter. Vielmehr können Nutzer die Aufnahme nachträglich erneut anhören und fehlerhafte Passagen korrigieren.

Im Vergleich zu einer gänzlich manuellen Transkription ergibt sich so eine beträchtliche Zeitersparnis. Die wenigsten Fehler lieferte im Test die Software Trint, gefolgt von Amberscript. Die meisten Missverständnisse wies Happy Scribe auf, insgesamt waren aber alle Ergebnisse miteinander vergleichbar. Dabei wurde ein 30-minütiges Gespräch mit drei Gesprächsteilnehmern, darunter zwei Personen mit Dialekt, und unterschiedlicher Mikrofonqualität transkribiert.

Insgesamt dürfte sich für die meisten Nutzer der Preis als die größte Hürde erweisen. Günstig sind die Tools nämlich keineswegs, Trint etwa kostet monatlich 52 Euro, Amberscript 56 Euro, Happy Scribe 20 Cent pro transkribierte Minute. Wer nicht regelmäßig transkribiert oder sich nicht einen sonst enorm hohen Aufwand ersparen möchte, sollte sich daher wohl weiter mit händischen Transkriptionen zufriedengeben. Hier empfiehlt sich der Einsatz von Tools wie der Open-Source-Anwendung oTranscribe. Diese ermöglicht es, die Wiedergabegeschwindigkeit anzupassen. Zudem lässt sich die Aufnahme mithilfe von Tastaturkürzeln stoppen oder wenige Sekunden vor- beziehungsweise zurückzuspulen. Auf diese Weise verbringt man so wenig Zeit wie möglich mit der Koordinierung der Aufnahme und kann sich auf das Tippen konzentrieren.

Günstige Alternativen

Gerade in englischer Sprache gibt es einen alternativen Weg, der überraschend gut funktioniert: die Spracherkennung von Google Docs. Dabei handelt es sich nicht um eine ideale Lösung, da sie eigentlich gar nicht darauf ausgelegt ist – aber die Ergebnisse sind teilweise trotzdem rascher erreicht als bei einer manuellen Eingabe. Dabei müssen Nutzer als Aufnahmegerät auf ihrem Rechner das Wiedergabegerät einstellen und die Aufnahme abspielen. Dadurch wird sie Google Docs in der Web-App "diktiert". Als weniger abenteuerliche Lösung empfiehlt sich Otter.ai, das in englischer Sprache Live-Notizen von Meetings erstellt. (Muzayen Al-Youssef, 23.5.2021)