Data Science and Machine Learning in Genomics

Die moderne Medizin steht an der Schwelle zu einer datengetriebenen Disziplin, mit großen Auswirkungen auf Forschung und Krankenversorgung. Immer mehr rücken molekulare Daten von PatientInnen in den Fokus und ermöglichen das Verständnis von Erkrankungen, erlauben Prognosen und verbessern Therapie und Prävention. Den größten Stellenwert innerhalb der molekularen Daten haben die genetischen Daten, d. h. Eigenschaften und Veränderungen von PatientInnen, die im Genom feststellbar sind. Das massive parallele Sequenzieren (Next-Generation-Sequencing, NGS und Third Generation Sequencing, TGS) mit der Erhebung von riesigen Mengen an genetischen Daten bietet ein weites Feld für wissenschaftliche Fragestellungen der Genomik und kommt zudem einer zunehmenden Zahl von PatientInnen zugute.

Wir wenden Methoden aus dem Bereich Data Science und Machine Learning an, um diese großen Datenmengen hinsichtlich neuer Fragestellungen beleuchten zu können und neue Krankheitsmechanismen aufzuklären.

Projekte

1. Analyse des “Dark Genomes” hinsichtlich krankheitsrelevanter Veränderung

Mutationen im Genom führen zu vielfältigen Erkrankungen und die Analyse des Genoms
 wird immer häufiger als Basis klinischer Entscheidungsprozesse herangezogen. Obwohl die Sequenzierung des gesamten Genoms mittlerweile gut etabliert ist, bleibt die umfassende Datenanalyse in vielen Aspekten noch weit zurück. Einer umfassenden Bewertung zugänglich ist momentan lediglich der proteinkodierende Abschnitt des Genoms, das sogenannte „Exom“, das mit seinen ca. 20.000 Genen nur etwa 1,5% des gesamten Genoms ausmacht. Für den weitaus größeren Teil des Genoms, auch aus diesem Grund häufig als „Dark Genome“ bezeichnet, sind keine Auswertemethoden etabliert. Innerhalb von wissenschaftlichen Projekten erweitern wir unsere Routineanalyse auf nicht kodierende und nicht kanonische Abschnitte, um genetische Veränderungen zu identifizieren, die sich in bisher weniger gut verstandenen Regionen des Genoms befinden.

2. Entwicklung von Priorisierungsstrategien von genetischen Veränderungen

Das menschliche Genom weist eine komplexe Architektur auf. Selbst gleiche genetische Veränderungen können sich in verschiedenen genomischen Elementen unterschiedlich auswirken. Unter Berücksichtigung des jeweiligen Sequenzkontextes nutzen wir Modellierungen, statistische Methoden und Anwendungen aus dem Bereich des Maschinellen Lernens, um Vorhersagen über die Krankheitsrelevanz von genetischen Veränderungen treffen zu können. Zudem entwickeln wir Visualisierungsstrategien zur intuitiven Dateninterpretation.

3.  Maschinelles Lernen im Bereich der MultiOmics Analysen

Neben den genetischen Daten werden immer häufiger weitere Datenquellen (bspw. epigenetische Veränderungen), Transkriptom- und Proteomdaten bis hin zur Einzelzellebene in der Datenanalyse berücksichtigt. Mittels Methoden des maschinellen Lernens untersuchen wir diese Daten auf Muster zur Identifizierung von neuen Krankheitsmechanismen.

Ansprechsperson

Dr. med. Jeremias Krause
jerkrauseukaachende