«Eine Suchmaschine für DNA»
Computerwissenschaftler der ETH haben ein digitales Tool entwickelt, mit dem man Millionen ver?ffentlichter DNA-Datens?tzen in Sekunden durchsuchen kann. ?Dies kann die Erforschung von Antibiotikaresistenzen und unbekannten Erregern deutlich beschleunigen.
In Kürze
- Ein neues ETH-Tool ?MetaGraph? erm?glicht ein schnelles Durchsuchen von DNA-Sequenzierungen - effizient, pr?zise und günstig.
- Die Forschenden strukturieren dafür grosse Datenmengen mit Hilfe von Indizes besser und machen sie somit gut durchsuchbar.
- ?MetaGraph? ist als Open-Source-Tool frei zug?nglich und bietet dadurch vielf?ltige Anwendungsm?glichkeiten.
In Patient:innen lassen sich seltene Erbkrankheiten, in Tumorzellen besondere Mutationen erkennen – die Sequenzierung von DNA hat die biomedizinische Forschung bereits vor Jahrzehnten revolutioniert. Vor allem neue Sequenzierungsmethoden (Next-Generation-Sequencing) führten in den letzten Jahren zu zahlreichen wissenschaftlichen Durchbrüchen. Sie erm?glichten beispielsweise 2020/2021 die rasche Entschlüsselung und weltweite ?berwachung des SARS-CoV-2-Genoms.
Immer mehr Forschende stellen die Ergebnisse sequenzierter DNA ?ffentlich zur Verfügung. So sind unterdessen riesige Mengen an Daten entstanden, die in zentralen Datenbanken wie dem amerikanischen SRA (Sequence Read Archive) oder dem europ?ischen ENA (European Nucleotide Archive) abgespeichert sind. Gegen 100 Petabyte an Daten sind dort aufbewahrt – ungef?hr gleich viel wie der gesamte Text im Internet. Ein Petabyte entspricht einer Million Gigabyte.
Um diese Menge an DNA-Sequenzen zu durchsuchen und mit eigenen Sequenzen abzugleichen, ben?tigen Biomediziner:innen bislang viel Rechenleistung und andere Ressourcen. So wird die effiziente Suche im Datenberg zu einer schieren Unm?glichkeit. Dieses Problem haben Computerwissenschaftler der ETH Zürich nun gel?st.
Volltextsuche statt Download ganzer Datens?tze
Sie haben ein Verfahren entwickelt, welches diese Suche stark verkürzt und erleichtert. Das digitale Tool ?MetaGraph? durchsucht die Rohdaten aller in den Datenbanken gespeicherten DNA- oder RNA-Sequenzen – ganz wie eine herk?mmliche Internet-Suchmaschine. Forschende k?nnen eine Sequenz, die sie interessiert, als Volltext in eine Suchmaske eingeben, worauf sie je nach Anfrage innerhalb von Sekunden oder Minuten erfahren, wo diese bereits aufgetaucht ist.
?Es handelt sich um eine Art Google für DNA?, fasst Professor Gunnar R?tsch, Datenwissenschaftler am Institut für Informatik an der ETH, zusammen. Bis anhin mussten Forschende die Datenbanken nach beschreibenden Metadaten durchsuchen. Um an die Rohdaten zu gelangen, mussten sie die jeweiligen Datens?tze herunterladen. Die Suche war lückenhaft, aufw?ndig und teuer.
?MetaGraph? sei vergleichsweise günstig, wie die Forscher in ihrer Studie schreiben. Die Darstellung aller ?ffentlichen biologischen Sequenzen würde auf wenige Computer-Festplatten passen. Gr?ssere Abfragen dürften nicht mehr als 0,74 Dollar pro Megabase kosten.
Die von den ETH-Forschern entwickelte DNA-Suchmaschine ist zudem sowohl pr?zise als auch effizient und kann so helfen, die Genforschung zu beschleunigen – dies etwa bei wenig erforschten Erregern oder neuen Pandemien. So k?nnte das Tool zum Katalysator in der Forschung zu Antibiotika-Resistenzen werden: Etwa indem in den Datenbanken Resistenzgene oder nützliche Viren, die Bakterien vertilgen k?nnen - sogenannte Bakteriophagen - identifiziert werden.
Komprimierung um das 300-fache
In der am 8. Oktober im Fachmagazin ?Nature? erschienenen Studie zeigen die ETH-Forscher auf, wie ?MetaGraph? funktioniert: Das Tool indiziert die Daten und stellt sie komprimiert dar. Das gelingt dank komplexen mathematischen Graphen, die für eine bessere Struktur der Daten sorgen – ?hnlich einem Tabellenprogramm wie Excel. ?Mathematisch gesehen handelt es sich um eine riesige Matrix mit Millionen von Spalten und Billionen von Zeilen?, sagt R?tsch.
Die Idee, grosse Datenmengen mit Hilfe von Indizes durchsuchbar zu machen, ist in der Computer Science-Forschung Standard. Neu an der Arbeit der ETH-Forscher ist aber die komplexe Verknüpfung von Roh- und Metadaten sowie die Komprimierung um etwa das 300-fache, ?hnlich wie bei einer Zusammenfassung eines Buches: Sie enth?lt nicht mehr jedes Wort, aber alle wichtigen Handlungsstr?nge und Zusammenh?nge bleiben erhalten – kompakter, aber ohne relevanten Informationsverlust.
?Wir bewegen uns damit am Limit dessen, was m?glich ist, um die Datens?tze so klein wie m?glich zu halten, ohne notwendige Informationen zu verlieren?, sagt Dr. André Kahles, der wie R?tsch der Biomedical Informatics Group der ETH angeh?rt. Im Unterschied zu anderen DNA-Suchmasken, die derzeit erforscht werden, ist der Ansatz der ETH-Forscher skalierbar. Das heisst: Je gr?sser die abgefragte Datenmenge, desto weniger zus?tzlichen Rechenaufwand ben?tigt das Tool.
H?lfte der Daten schon verfügbar
Die ETH-Forscher haben ?MetaGraph? erstmals im Jahr 2020 vorgestellt und seither laufend verbessert. Das Tool steht bereits heute für Abfragen zur Verfügung . Es bietet eine Volltext-Suchmaske für Millionen von Sequenzs?tzen aus DNA und RNA sowie Proteinen von Viren, Bakterien, Pilzen, Pflanzen, Tieren und Menschen. Zurzeit ist knapp die H?lfte der weltweit verfügbaren Sequenz-Datens?tze indexiert. Der Rest soll gem?ss Gunnar R?tsch bis Ende des Jahres folgen. ?MetaGraph? steht Open Source zur Verfügung und k?nnte darum etwa auch für Pharmafirmen interessant sein, die über grosse Mengen an internen Forschungsdaten verfügen.
Kahles h?lt es sogar für m?glich, dass die DNA-Suchmaschine dereinst auch von Privatpersonen angewendet wird: ?In den Anf?ngen wusste man auch bei Google noch nicht genau, wofür eine Suchmaschine gut sein soll. Wenn die rasante Entwicklung, in der in der DNA-Sequenzierung so weitergeht, wird es vielleicht üblich, seine Balkonpflanzen genauer zu bestimmen.?
Literaturhinweis
Karasikov, M., Mustafa, H., Danciu, D., Kulkov, O., Zimmermann, M., Barber, C., R?tsch, G., & Kahles, A.: Efficient and accurate search in petabase-scale sequence repositories. Nature 2025, doi: externe Seite 10.1038/s41586-025-09603-w