Thema:

Paperwelt

NGS-Patzer ausmerzen

Für Ärzte und Wissenschaftler ist es oft wichtig zu wissen, ob in Hochdurchsatzsequenzier-geräten detektierte Mutationen biologischer Natur sind – oder nur technische Artefakte. So kann unter Umständen auch die Wahl der besten Krebstherapie von der DNA-Sequenz der Tumorzellen abhängen. Bioinformatiker um John Castle von der Translationalen Onkologie der Universitäts-medizin Mainz gGmbH (TrOn-Mainz) haben daher einen Algorithmus entwickelt, der die Unterscheidung zwischen wahrer und scheinbarer Mutation erleichtert. Im Zentrum steht ein einzelner, berechneter Wert: die Fehlerkennungshäufigkeit (engl.: false discovery rate, FDR).

Gemeinsam mit TrOn-Arbeitsgruppenleiter Dr. John Castle und TrOn-Geschäftsführer Prof. Ugur Sahin sprach Löwer mit LABORWELT über eine neue, von dem Team in Mainz entwickelte Methode zur Qualitätsbewertung gefundener somatischer Mutationen. 

Confidence-based Somatic Mutation Evaluation and Prioritization, PLoS Computational Biology 2012, 8(9)

LABORWELT:

Wie verlässlich sind die in Hochdurchsatzverfahren gewonnenen Daten wirklich?

John Castle: 

Moderne Sequenziergeräte stellen ohne Zweifel eine technische Revolution dar. Mit ihnen kann ein Menschengenom innerhalb von nur zwei Wochen entziffert werden. Ein Problem dabei ist allerdings die Fehlerrate. So zeigen Überprüfungen von zunächst als somatische Mutationen klassifizierten Basenpaaränderungen, dass bis zu 54% davon nur Artefakte sind. Wir hier am TRON wollen das Next-Generation-Sequencing (NGS) auch klinisch nutzbar machen, so dass zum Beispiel maßgeschneiderte Krebstherapeutika zum Einsatz kommen können. Für solche Ansätze der „individualisierten Medizin“ benötigen wir aber eine Methode, solche Mutationen hundertprozentig sicher bestimmen zu können.

LABORWELT:

Welche Möglichkeiten gibt es, die Qualität der NGS-Daten zu beurteilen?

Martin Löwer:

Von der bioinformatischen Gemeinde gibt es eine Fülle von NGS-Programmen, die jene Stellen im Genom ausmachen, an denen sich eine Mutation befindet. Jedes Programm verwendet dabei andere probabilistische Modelle. Wir haben allerdings beobachtet, dass es nur eine geringe Übereinstimmung zwischen den Ergebnissen der einzelnen Programme gibt. Wir fragten uns: Welche der verwendeten Metriken ist denn eigentlich die richtige – oder zumindest richtiger als die anderen? 

LABORWELT:

Und hier kommt die FDR ins Spiel … 

Ugur Sahin:

Genau. Die Fehlerkennungshäufigkeit (engl.: false discovery rate, FDR) wird für jede somatische Mutation berechnet. Sie gibt die Wahrscheinlichkeit an, mit der eine solche Mutation nicht nur ein Sequenzierartefakt oder ein Artefakt der Proben oder der Probenaufarbeitung ist. Ein hoher FDR-Wert nahe dem Wert 1 ist schlecht für uns, da die fragliche Basenpaaränderung mit hoher Wahrscheinlichkeit nur ein Artefakt ist. FDR-Werte nahe 0 sind hingegen sehr wahrscheinlich echte Mutationen.

LABORWELT:

Wie funktioniert die Berechnung der FDR?

John Castle:

Wir haben unser System so gestaltet, dass es als Input die Metriken bereits vorhandener Bewertungsprogramme wie GATK oder SAMtools verwenden kann. Aufgrund der Testdaten, die wir mitgeben, lernt es wahre von falschen Mutationen zu unterscheiden, indem es die verschiedenen Metriken unterschiedlich stark wichtet. Ein Vergleich der Vorhersagen für die FDR zwischen verschiedenen Experimenten zeigt eine hohe Korrelation. Wenn unser Programm also auf das Versuchssetup einmal trainiert wurde, kann es auch für Folgeexperimente weiterverwendet werden – ohne dass es jedes Mal mit neuen Testdaten gefüttert werden muss. Wenn man aber ein neues Protokoll im Labor verwendet oder ein neues Sequenzierungsgerät oder gar eine andere Sequenzierungsplattform eingesetzt wird, dann muss das Maschinenlernverfahren natürlich neu durchgeführt werden.

LABORWELT:

Wie haben Sie überprüft, dass die errechneten FDR-Werte die „biologische Wahrheit“ auch korrekt abbilden?

Martin Löwer:

Wir haben das Exom einer Krebszelllinie mit dem Exom gesunder Mäuse verglichen. Datengrundlage war die B16-Melanomzelllinie. Diese alte Zelllinie wurde bereits vor etwa 50 Jahren von den Bl6-Mäusen abgeleitet. Als Vergleich diente die DNA lebender Bl6-Mäuse. Nach der Analyse mit unserem Algorithmus plotteten wir zunächst die Häufigkeiten des Auftretens der FDR-Werte. Hier sahen wir eine deutliche Zweiteilung in niedrige und hohe Werte. Ein schöner Nebeneffekt unserer Analyse ist also, dass es wenige Mutationen mit einem Wert im Graubereich dazwischen gibt. Dann untersuchten wir 139 der gefunden Mutationen mit einer zweiten Methode genauer. Das Ergebnis war eindeutig: Alle 50 Stellen mit niedrigem FDR-Wert waren echte Mutationen, alle 44 mit hohem FDR-Wert hingegen in der Tat nur Artefakte. Bei den im FDR-Graubereich liegenden Stellen waren zum Teil echte Mutationen, zum Teil Artefakte. 

LABORWELT:

Für wen sind die FDR-Werte nützlich?

John Castle:

Wir geben anderen Forschern, die nicht Bioinformatiker sind, eine Methode in die Hand, die gewonnenen Sequenzierungsergebnisse anhand der FDR-Werte genau zu bewerten. Unser System sortiert die Werte mit dem kleinsten – und besten – Wert beginnend. Je nach Bedarf können die ersten 10 oder 100 auf der Liste aufgeführten Mutationen für Validierungs- und Folgeexperimente genutzt werden. Übrigens haben wir unseren Algorithmus hier am TrOn mittlerweile schon weiterentwickelt. Jetzt kann er auch jene NGS-Daten sinnvoll verarbeiten, die aus einer Mischung von gesunden und Krebszellen gewonnen wurden (z.B. aus Biopsien).

Kontakt: 
Martin Löwer, Martin.Loewer[at]TrOn-Mainz.de

Mehr zum Spezial

© 2007-2017 BIOCOM

http://www.laborwelt.de/spezialthemen/bioinformatik/ngs-patzer-ausmerzen.html

Alle Themen

SpezialThemen

Produkt der Woche

Alle Produkte

Kalender

Alle Events

Partner-Events

Glasgow (UK)

DIA BioVenture Day

Istanbul (TR)

expomed eurasia