Diese "richtige Arbeit" ist angesichts der enormen anfallenden Datenmengen ohne leistungsfähigen Computer, ausgefuchster Software und einem möglichst schnellen Internetzugang undurchführbar. Im Windschatten der boomenden Gentechnik ist deshalb die Branche der so genannten Bioinformatik entstanden. Hier treffen Biologen und Genetiker auf Software-ingenieure und Statistiker. Hier wird der Code der Erbinformation, die Kette von Adenin, Cytosin, Guanin und Thymin in die digitale Form von Nullen und Einsen umgewandelt. Nur dadurch ist es möglich, die Datenflut aufzubereiten und zu interpretieren.
Österreichische Forscher und Firmen tragen mit klugen Innovationen dazu bei, dass die Übersicht im wild wuchernden Datendschungel nicht verloren geht. Das ist kein leichtes Unterfangen, die Aufgabe erinnert an jene von weiland Sisyphos: Kaum ist ein Teil der neuen Daten bearbeitet und sortiert, kommen schon wieder neue Informationen dazu. Alle 14 Monate verdoppelt sich der Bestand der rund 600 weltweit verstreuten, öffentlichen Gendatenbanken. Aber: In den USA, Europa und Japan gelten jeweils unterschiedliche Nomenklaturen für die Benennung von Genen. Dazu kommt noch, dass die einzelnen Datenbanken miteinander nur bedingt kompatibel sind.
Infos zusammentragen
"Es ist für einen Biologen fast unmöglich, sämtliche zu einem Genabschnitt vorliegenden Informationen zusammenzutragen", sagt Tamás Demeter von der Wiener IT-Company Insilico. Die vom Forschungsförderungsfonds der gewerblichen Wirtschaft (FFF) geförderte Firma hat es sich zur Aufgabe gemacht, die babylonische Verwirrung zu beheben. Jede Woche saugen die Insilico-Computer rund 2000 Gigabyte an Informationen aus den wichtigsten Winkeln des Internet zusammen, um aus den mitunter widersprüchlichen oder aber doppelt und dreifach abgelegten Informationen in sechzigstündiger Rechenarbeit ein nur noch 300 Gigabyte großes Konzentrat sämtlicher vorhandener Informationen über Gene, ihren Aufbau und ihre Funktion zu ermitteln.
Noch mehr Daten als von den Sequenzierern werden jedoch von Forschern ins Internet gespült, die so genannte Microarrays für ihre Experimente verwenden. Diese Technologie ermöglicht es, mehrere Zehntausend Gentests in einem einzigen Arbeitsschritt durchzuführen (siehe Wissen). Marcel Scheideler etwa verwendet solche Testmethoden, um die genetischen Mechanismen bei der Entstehung von krankhafter Fettsucht zu verstehen. Dazu mästet er Stammzellen in der Petrischale so lange, bis sie sich zu Fettzellen entwickeln. In jedem Stadium entnimmt er Proben, die er mithilfe von Microarrays untersucht. So erfährt er, welche der rund 30.000 menschlichen Gene in der jeweiligen Entwicklungsstufe besonders aktiv sind, um die Verwandlung voranzutreiben.
Für die klassische Statistik ist eine solche Aufgabenstellungen nur schwer zu fassen. Denn üblicherweise haben es die einschlägigen Experten mit sehr vielen Experimenten und wenigen Variablen zu tun. "Die Microarray-Forschung stellt dieses Verhältnis jedoch auf den Kopf", sagt Friedrich Leisch vom Wiener TU-Institut für Statistik und Wahrscheinlichkeitstheorie. "Hier gibt es nur wenige Experimente, dafür aber Abertausende Variable."
Hohe Ansprüche
Noch sind die Mathematiker von den Ansprüchen der Genetiker überfordert: "Derzeit treibt die rasante technische Entwicklung die Statistiker vor sich her", so Leisch. An Lösungen wird aber bereits mit Hochdruck gearbeitet. Seit zwei Jahren "gibt es bei jedem Statistikkongress große Workshops, in denen ausschließlich die Probleme der Genforscher erörtert werden", beobachtet Leisch.