Welt
Der Kreislauf des Buches
Österreichische Forscher entwickeln mit EU- Partnern eine billigere und schnellere Digitalisierung von Textvorlagen
Inhaltsverzeichnisse von Büchern sind einfach zu lesen. Wir erkennen sie beim Durchblättern, werden beim Benützen rasch
damit vertraut. Sie stehen, ähnlich wie Vorworte, in der Regel auf den ersten Seiten, manchmal am Schluss. Wir lernen, die
Zeilen im Inhalt als Kapitelüberschriften, als Ordnungssysteme zu deuten und die dazugestellten Zahlen als Seitenangaben
zu entziffern, als Verweise auf etwas Folgendes.
Mit vielen anderen Zeichen ergeht es Buchbenützern ähnlich. Wir erfahren, dass der Schriftgrad von Überschriften meist
größer ist als der des Haupttextes oder dass Fußnoten in der Regel kleiner gesetzt sind und irgendwo am Ende angebracht -
am unteren Seitenrand, am Ende eines Abschnitts, gegen Ende des Buches.
Seit Jahrhunderten werden Bücher nach solchen Systemen produziert, jedenfalls in der europäischen Buchtradition. Den
Lesern werden die Orientierungspunkte rasch vertraut, wenn auch selten bewusst. Nur die Programme, die für die
Digitalisierung von Druckwerken verwendet werden, hatten bisher wenig Ahnung von diesen Regeln der Buchsetzerkunst.
Mit "Metadata Engine", kurz "meta-e", soll sich das ändern. Das vom Wissenschaftsministerium geförderte internationale
Forschungsprojekt der Universitäten Innsbruck, Graz und Linz im Rahmen des EU-Programms "Technologien für die
Informationsgesellschaft" (Gesamtvolumen knapp drei Millionen EURO) zielt darauf ab, mit einer eigenen Software
internationale Standards für die Buchdigitalisierung zu setzen, die ein weitgehend automatisches Erfassen auch der
übergeordneten "Grammatik" ("Metadaten") von Büchern und Zeitschriften ermöglichen. Derzeit werden Inhaltsverzeichnisse,
Bildunterschriften, Seitenzahlen, Titelblätter, Impressen - also das meiste, was von der Logik des Fließtextes abweicht -
manuell erfasst und konvertiert, für französische Bücher etwa in Madagaskar, für deutsche mit Vorliebe in China.
Mit "meta-e" soll die Digitalisierung von Bibliotheksbeständen wesentlich verbilligt und beschleunigt, die Haltbarkeit vor allem
alter Bestände garantiert und damit der Zugang erleichtert werden. Das Projektmanagement liegt in den Händen der
Germanisten Günther Mühlberger und Kurt Habitzel von der Universität Innsbruck. Sie haben bereits mit den Uni-Partnern die
Software für eine virtuelle Bibliothek der "wichtigsten 1000 Werke" der österreichischen Literatur vor 1930, "austrian literature
online" (alo), erstellt und sind in diesem Rahmen auf die Schwachstellen der derzeitigen Buch-Digitalisierung gestoßen.
Kooperiert wird mit insgesamt 14 Partnern aus sieben Staaten, u.a. der Bibliothèque Nationale de France (mit mittlerweile
80.000 Onlinebüchern) und der auf die Digitalisierung spanischsprachiger Literatur spezialisierten CervantesDigital-Initiative
der Universität Alicante. Die Software wird von CCS in Hamburg, dem Marktführer bei Presseausschnittsystemen, gemeinsam
mit der Universität Florenz entwickelt.
Bücher, die ab etwa 1820 erschienen sind, dienen "me- ta-e" als Grundlage, seit mit der Industrialisierung der Buchproduktion
durch die Schnellpresse gewisse Normen eingeführt wurden. "Die heterogene handwerkliche Herstellung würde den Rahmen
sprengen", sagt Mühlberger. Verzichtet wird deshalb auch auf Flugschriften, Zeitungen, Noten und naheliegenderweise auf
Manuskripte, nicht jedoch auf Zeitschriften, deren Strukturen genügend Gemeinsamkeiten aufweisen.
Das Projektteam ist überzeugt, auch "das Problem der Frakturschrift" lösen zu können. Bisher gibt es laut Mühlberger kein
Texterkennungsprogramm, das die jahrzehntelang im deutschen Sprachraum (bis zu Hitlers Verbot 1942) wie auch in vielen
nord-und mitteleuropäischen Staaten gebräuchliche Schrift erfassen kann. Die Software dazu wird vom deutschen Hersteller
MitCom mit dem russischen Partner Abbyy entwickelt, als Unterstützung für die Texterkennung dienen historische
Wörterbücher. Mühlberger ist zuversichtlich, dass auch Texte in kyrillischer und in griechischer Schrift erfasst werden
können, ein erster Versuch mit einer russischen Zeitschrift sei geglückt.
Die als sehr robust geltenden Dateiformate ASCII und XML sollen eine ständige Aktualisierung auch in anderen Formaten
ermöglichen: "Haltbarkeit heißt, den Lebenszyklus digitaler Dokumente, also die Veränderung mitzudenken", so Mühlberger.
Neben der rascheren Erfassung von Bibliotheksbeständen soll mit "meta-e" auch das Browsen erleichtert und damit auch das
Arbeitsspektrum bei Texten im Netz erweitert werden. Durchaus vorstellbar ist es für Mühlberger zudem, dass sich der
Kreislauf der Buchproduktion auf originelle Weise wieder schließt: billigere Digitalierungskosten könnten vermehrt zu
Printneuausgaben, zu Faksimileausgaben führen. Da ein elektronisches Muster ohnehin existiere, würden die
Produktionskosten erheblich gesenkt. Im Rahmen von "austrian literatur online" ist etwa Franz Kafkas "Hungerkünstler" in
einer Auflage von nur 30 Stück erschienen, "das rechnet sich". Durchaus denkbar, dass Verlage ein Interesse haben könnten,
auch vergriffene jüngere Werke in kleiner Stückzahl wieder zu drucken. (DER STANDARD, Print-Ausgabe, 20. 2. 2001).