Wien - Wissenschafter der Österreichischen Akademie der Wissenschaften (ÖAW) haben mit Unterstützung der APA - Austria Presse Agentur eine neue Sprachdatenbank mit bisher unerreichter Größe aufgebaut: Das "Austrian Media Corpus" (AMC) umfasst rund acht Milliarden Wörter. Es ist damit eines der derzeit größten digitalen Text-Corpora im gesamten deutschen Sprachraum. Forscher wollen es nutzen, um erstmals systematisch untersuchen, wie sich der Sprachgebrauch in Österreich über die vergangenen Jahrzehnte entwickelt hat.
Ermöglicht wurde das "Austrian Media Corpus" durch eine enge Zusammenarbeit des Instituts für Corpuslinguistik und Texttechnologie (ICLTT) der ÖAW mit der österreichischen Nachrichtenagentur APA. Sie hat dem Institut große Teile ihrer digitalen Archivbestände für wissenschaftliche Zwecke zur Verfügung gestellt. Dazu gehören alle digital verfügbaren APA-Meldungen seit 1955, die Text-Inhalte fast aller Tages- und Wochenzeitungen und der wichtigsten Magazine Österreichs seit Beginn der 1990er Jahre sowie Transkripte österreichischer TV- und Radio-Nachrichtensendungen.
Gezielte Abfragen
Nach der notwendigen sprachwissenschaftlichen Aufarbeitung von alleine fast 34 Millionen Artikeln aus dem Bereich Agentur- und Printjournalismus kann nun eine Fülle von komplexen Suchabfragen durchgeführt werden, vom regionalen Sprachgebrauch über grammatikalische Strukturen bis hin zu nationalen Sprachtrends.
Gemeinsam mit den anderen Text-Corpora des Instituts konnten die Wissenschafter mit Hilfe des AMC inzwischen ein Projekt in Angriff nehmen, "dem bisher die empirische Datengrundlage gefehlt hatte: die Dynamik der Sprachentwicklung in Österreich in den vergangenen Jahrzehnten umfassend und systematisch zu untersuchen", so ICLTT-Direktor Gerhard Budin.
"Digitale Sprachschatztruhe"
"Mit dem 'Austrian Media Corpus' haben wir so etwas wie eine digitale Sprachschatztruhe an der Hand", erklärte Jutta Ransmayr, Koordinatorin des Forschungsschwerpunkts "Österreichisches Deutsch" am ICLTT. Damit würden sich ganz neue Möglichkeiten zur Erforschung und Beschreibung des österreichischen Deutsch auf breiter empirischer Basis ergeben. In der Datenbank APA-OnlineManager mit allen APA-Meldungen, allen heimischen Tageszeitungen und Nachrichten-Transkripten "lassen sich Eigenständigkeit und Wandel des österreichischen Deutsch mit enormen Datenmengen gut gesichert dokumentieren", betonte APA-Chefredakteur Michael Lang.
Das AMC wird beispielsweise auch in der computerlinguistischen Unterstützung der bevorstehenden Neuauflage des Österreichischen Wörterbuchs eingesetzt. Zudem konnte das ICLTT mit Hilfe des Text-Corpus für das Wörterbuchprojekt "Variantenwörterbuch des Deutschen NEU" eine umfassende Datenbasis zum Sprachraum Österreich liefern. Auch im Rat für deutsche Rechtschreibung können durch das "Austrian Media Corpus" erstmals Auswertungen zum österreichischen Orthographiegebrauch Eingang in die Diskussion finden. (APA/red, derStandard.at, 16. 11. 2013)