Die 2016 von Forschern aus Innsbruck und Bozen entwickelte Software dient heute weltweit als Basis für Forscher. Je mehr sie genutzt wird, umso größer wird die Datenbank, die wiederum der Wissenschaft zur Verfügung steht.

Foto: Getty/iStock

Die Geschwindigkeit wissenschaftlichen Fortschritts im Bereich der Genetik ist beeindruckend. Vor 20 Jahren wurde das erste menschliche Genom entschlüsselt. Heute ist man bereits so weit, dass man die genetischen Risikofaktoren zahlreicher Krankheiten erforscht. Das derzeit größte Projekt dieser Art wird vom US-amerikanischen Topmed-Konsortium (Trans-Omics for Precision Medicine) geleitet, und es basiert softwaretechnisch in wesentlichen Teilen auf Tiroler Know-how. Kurz und vereinfacht gesagt, ermöglicht es die in Innsbruck und Bozen entwickelte Software, aufwendige Sequenzierungen von Genomen zu ersetzen, wodurch sich letztlich auch die Kosten um das 50- bis 100-Fache verringern.

Hochgerechnetes Genom

Ermöglicht wird dies durch eine sogenannte Imputations-Software. Imputieren ist ein mathematisches Verfahren, mit dessen Hilfe es bereits genügt, nur einen Teil eines Genoms tatsächlich zu messen. Der Rest wird hochgerechnet und dementsprechend aufgefüllt – daher die saloppe Bezeichnung "Lückenfüller-Software" für das im Rahmen der Nord-/Südtiroler Kooperation entstandene Programm.

Die Köpfe hinter der Entwicklung sind Lukas Forer und Sebastian Schönherr, beide Forscher vom Institut für Genetische Epidemiologie der Medizinischen Universität Innsbruck. Sie haben in Zusammenarbeit mit der Universität Michigan sowie dem Südtiroler Bioinformatiker Christian Fuchsberger vom Institut für Biomedizin von Eurac Research Europäische Akademie Bozen (Eurac) einen Cloud-Dienst entwickelt, der diese zeit- und kostenintensive Rechenaufgabe übernimmt.

Zeit und Geld sparen

Dauerte die vollständige Sequenzierung eines einzigen menschlichen Genoms vor zehn Jahren noch 20 Tage, so ist sie heute bereits innerhalb eines einzigen Tages möglich. Aber sie kostet immer noch rund 1.000 Euro pro Genom. Zudem ist eine solche Entschlüsselung durch Sequenzierung immer noch sehr aufwendig und rechenintensiv. Beim Imputieren ist das Ergebnis zwar nicht zu 100 Prozent ident mit dem einer Sequenzierung, doch alle Positionen des Genoms können mit sehr hoher Wahrscheinlichkeit bestimmt werden mit einem Bruchteil der Kosten und noch dazu deutlich schneller.

Wegen genau dieser Vorteile wandte sich das Topmed-Konsortium an die Innsbrucker und Bozner Forscher. Sie gelten mittlerweile weltweit als die Experten in Sachen Big Data, wenn es um bioinformatische Webservices geht. "Die grundlegende Idee des Services besteht darin, Forscherinnen und Forschern eine möglichst simple Methode zu bieten, den sehr rechenintensiven Schritt der Imputation von ihrem Rechner aus durchzuführen", sagt Fuchsberger.

Die gesamte Entwicklung wurde akribisch geplant, 2016 wurde der Service publiziert. Von Monat zu Monat konnten die Forscher den steigenden Andrang auf ihren Servern merklich spüren. Mittlerweile sind weltweit über 7.000 Benutzerinnen und Benutzer registriert, mehr als 70 Millionen Genome wurden imputiert, Petabytes von Daten prozessiert und verschlüsselt an die User zurückgeschickt.

Datenbank wächst stetig

Derzeit besteht der Server aus mehr als 1.500 Prozessoren, auf denen die Imputationen gleichzeitig ausgeführt werden. Und die Datenbasis wächst kontinuierlich, was wiederum ihrer Anwendbarkeit zugutekommt. So wurden etwa 2019 über die "Genome Asia"-Referenz die Daten von mehr als 1.700 Personen aus ganz Asien aufgenommen, wodurch die Imputationsqualität für asiatische Populationen deutlich gesteigert werden konnte.

Die Kooperation mit dem Topmed-Konsortium ist für die Tiroler Forscher ein enormer Gewinn, wie Sebastian Schönherr erklärt: "Dieser Datensatz ist ein echter Datenschatz und ermöglicht es, den Beitrag von seltenen und nichtcodierenden Sequenzvarianten zu Phänotypen zu erforschen."

In einer ersten Arbeitsphase des Konsortiums, die auf Daten von über 80 Studien und 30 Arbeitsgruppen beruht, lag der Fokus auf der genetischen und phänotypischen Kategorisierung der ersten 50.000 sequenzierten Personen. So konnten über 400 Millionen Varianten detektiert werden, 97 Prozent dieser Varianten weisen hierbei eine Frequenz von unter einem Prozent auf, außerdem kommen 46 Prozent aller Varianten nur einmal über alle Personen verteilt vor.

Neue Strategien des Cloud-Computings

Damit andere Forschungsgruppen weltweit von dieser immensen Datenquelle profitieren können, werden die Topmed-Haplotypen von mittlerweile 97.000 Personen als Referenz zur Imputation zur Verfügung gestellt. "Die statistische Methode der Genotyp-Imputation erlaubt es anderen Studien, mit kostengünstigen Microarrays eine kleine Anzahl an Varianten zu typisieren und fehlende Stellen im Genom dann mithilfe von mathematischen Methoden zu ergänzen", beschreibt Lukas Forer die Vorteile.

Für Topmed mussten die Tiroler Forscher die enormen Datenmengen auf neuen Servern bereitstellen, was in der Folge neue Strategien des Cloud-Computings erforderte, wie Schönherr erklärt. Bereits 15 Millionen Genome wurden imputiert. Durch die Imputation weiterer, bislang unterrepräsentierter Populationen soll die Datenbank weiter wachsen und so die Genetik insgesamt voranbringen.

Die 2016 von Forschern aus Innsbruck und Bozen entwickelte Software dient heute weltweit als Basis für Forscher. Je mehr sie genutzt wird, umso größer wird die Datenbank, die wiederum der Wissenschaft zur Verfügung steht. (Steffen Arora, 6.4.2021)