Bild nicht mehr verfügbar.

Foto: Archiv

Wenn der Molekularbiologe Marcel Scheideler genau wissen will, welche biochemischen Prozesse in einer menschlichen Fettgewebezelle ablaufen, dann geht er nicht ins Labor, sondern ins Büro, wo sein Computer steht. "Die Gewinnung neuer Daten durch Experimente ist heute kein Problem mehr", so Scheideler, Professor am Grazer Doppler-Labor für Genomik und Bioinformatik. "Die richtige Arbeit fängt erst bei der Interpretation der gesammelten Information an."

Vorraussetzungen

Diese "richtige Arbeit" ist angesichts der enormen anfallenden Datenmengen ohne leistungsfähigen Computer, ausgefuchster Software und einem möglichst schnellen Internetzugang undurchführbar. Im Windschatten der boomenden Gentechnik ist deshalb die Branche der so genannten Bioinformatik entstanden. Hier treffen Biologen und Genetiker auf Software-ingenieure und Statistiker. Hier wird der Code der Erbinformation, die Kette von Adenin, Cytosin, Guanin und Thymin in die digitale Form von Nullen und Einsen umgewandelt. Nur dadurch ist es möglich, die Datenflut aufzubereiten und zu interpretieren.

Überblick

Österreichische Forscher und Firmen tragen mit klugen Innovationen dazu bei, dass die Übersicht im wild wuchernden Datendschungel nicht verloren geht. Das ist kein leichtes Unterfangen, die Aufgabe erinnert an jene von weiland Sisyphos: Kaum ist ein Teil der neuen Daten bearbeitet und sortiert, kommen schon wieder neue Informationen dazu. Alle 14 Monate verdoppelt sich der Bestand der rund 600 weltweit verstreuten, öffentlichen Gendatenbanken. Aber: In den USA, Europa und Japan gelten jeweils unterschiedliche Nomenklaturen für die Benennung von Genen. Dazu kommt noch, dass die einzelnen Datenbanken miteinander nur bedingt kompatibel sind.

Infos zusammentragen

"Es ist für einen Biologen fast unmöglich, sämtliche zu einem Genabschnitt vorliegenden Informationen zusammenzutragen", sagt Tamás Demeter von der Wiener IT-Company Insilico. Die vom Forschungsförderungsfonds der gewerblichen Wirtschaft (FFF) geförderte Firma hat es sich zur Aufgabe gemacht, die babylonische Verwirrung zu beheben. Jede Woche saugen die Insilico-Computer rund 2000 Gigabyte an Informationen aus den wichtigsten Winkeln des Internet zusammen, um aus den mitunter widersprüchlichen oder aber doppelt und dreifach abgelegten Informationen in sechzigstündiger Rechenarbeit ein nur noch 300 Gigabyte großes Konzentrat sämtlicher vorhandener Informationen über Gene, ihren Aufbau und ihre Funktion zu ermitteln.

Noch mehr Daten als von den Sequenzierern werden jedoch von Forschern ins Internet gespült, die so genannte Microarrays für ihre Experimente verwenden. Diese Technologie ermöglicht es, mehrere Zehntausend Gentests in einem einzigen Arbeitsschritt durchzuführen (siehe Wissen). Marcel Scheideler etwa verwendet solche Testmethoden, um die genetischen Mechanismen bei der Entstehung von krankhafter Fettsucht zu verstehen. Dazu mästet er Stammzellen in der Petrischale so lange, bis sie sich zu Fettzellen entwickeln. In jedem Stadium entnimmt er Proben, die er mithilfe von Microarrays untersucht. So erfährt er, welche der rund 30.000 menschlichen Gene in der jeweiligen Entwicklungsstufe besonders aktiv sind, um die Verwandlung voranzutreiben.

Problematik

Für die klassische Statistik ist eine solche Aufgabenstellungen nur schwer zu fassen. Denn üblicherweise haben es die einschlägigen Experten mit sehr vielen Experimenten und wenigen Variablen zu tun. "Die Microarray-Forschung stellt dieses Verhältnis jedoch auf den Kopf", sagt Friedrich Leisch vom Wiener TU-Institut für Statistik und Wahrscheinlichkeitstheorie. "Hier gibt es nur wenige Experimente, dafür aber Abertausende Variable."

Hohe Ansprüche

Noch sind die Mathematiker von den Ansprüchen der Genetiker überfordert: "Derzeit treibt die rasante technische Entwicklung die Statistiker vor sich her", so Leisch. An Lösungen wird aber bereits mit Hochdruck gearbeitet. Seit zwei Jahren "gibt es bei jedem Statistikkongress große Workshops, in denen ausschließlich die Probleme der Genforscher erörtert werden", beobachtet Leisch.

Und auch hier gilt: Ohne Vernetzung geht gar nichts. Friedrich Leisch gehört zur Kerntruppe von Experten, die sich weltweit mit der Weiterentwicklung der weit verbreiteten Open-Source-Statistik-Software "R" beschäftigen. Kürzlich hat die Mannschaft damit begonnen, ausgehend von "R" das Programm Bioconductor zu entwickeln, das maßgeschneidert ist für die Analyse von Genomdaten. Leisch selbst wird das Programm einsetzen, um Microarrays zu analysieren, die derzeit beim ARC Seibersdorf für die Analyse von Brustkrebs entwickelt wird. Und das Grazer Bioinformatikinstitut hat kürzlich in einer Zusammenarbeit mit dem Computerriesen Sun-Microsystems die Datenbank Mars entwickelt und ins Netz gestellt. Hier können Forscher ihre Microarray-Daten in einem genormten Format ablegen. "So bleiben die Informationen über Jahrzehnte verfügbar", so Marcel Scheideler. Obwohl täglich Hunderte Megabytes an Information in den allgemeinen Gendatenpool fließen: Dass nur ein einziges Byte verloren geht, wollen die Bio- informatiker nicht erlauben. (Günther Strauss / DER STANDARD Printausgabe, 28.6.2004)