Optimierung und Vergleich bioinformatischer Methoden zur kalkulierten Karyotypisierung der Akuten Myeloischen Leukämie mittels Next Generation Sequencing
Loading...
Files
Date
Authors
Publisher
Philipps-Universität Marburg
Abstract
Die akute myeloische Leukämie ist eine genetisch heterogene Erkrankung, die aufgrund von rasantem Verlauf und einer massiven Beeinträchtigung der Betroffenen durch das Verdrängen des Knochenmarks durch die malignen Zellen einer schnellen Diagnosestellung und Therapie bedarf. In aktuellen Klassifikations- und Risikostratifizierungssystemen, die zur Abschätzung der Prognose und damit zur Auswahl einer risikoadaptierten Therapie genutzt werden, stellen molekular- und zytogenetische Charakteristika der Erkrankung die wichtigsten Kriterien dar. Mit next-generation-sequencing-Verfahren ist es möglich, alle relevanten Informationen aus Sequenzierdaten abzuleiten, sofern die Daten mit entsprechend geeigneten bioinformatischen Algorithmen analysiert werden.
Im Laufe dieser Arbeit wurde coriandR Software – ChrOmosomal abeRration Identifier AND Reporter in R – ein Tool zur Schätzung des kalkulierten Karyotyps und der copy number variations in den ultra lowcoverage whole-genome sequencing Daten – entwickelt, die in verschiedenen Bereichen der genetisch-onkologischen Diagnostik eingesetzt werden kann bei gleichzeitig geringen Kosten und einer hohen Übereinstimmung mit der Goldstandardmethode der Karyotypisierung – der konventionellen Zytogenetik.
Für die Schätzung des kalkulierten Karyotyps und der copy number variations einer Blut- bzw. Tumorprobe wird ein Panel of normals aus den Sequenzierdaten generiert, die aus derselben Gewebeart unter selben Bedingungen aufgearbeitet wurden wie die Blut- bzw. Tumorproben und einen normalen Karyotyp aufweisen (z.B. Blutproben gesunder Probanden oder histologisch tumorfreie Gewebe). Diese Sequenzierungsdaten werden nach dem Alignment durch Bowtie2 mit featureCounts in tabellarische Form überführt und durch die mediane Sequenzierungstiefe pro Bin normalisiert. Im nächsten Schritt erfolgt die Standardisierung mit Bildung der Pseudo-Z-Werte für die Verteilung der Reads in den Bins. Später werden sie mit einer Normalverteilung der Reads in den Bins verglichen. Nach dem Ausschluss von den Bins mit einem abnormen GC-Gehalt und/oder einer großen Varianz kann das Panel of normals für weitere Berechnungen genutzt werden.
Die Schätzung des kalkulierten Karyotyps für die Tumorproben basiert auf einem zweiseitigen Normalverteilungstest. Die berechneten p-Werte werden anschließend nach Benjamini-Hochberg-Methode unter Einhaltung der false discovery rate von 5 % adjustiert. Nach dem Erhalt der adjustierten p-Werte werden die abweichenden Bins berechnet. In dem coriandR Bericht werden der Übersichtsplot für die Verteilung der Reads in der Tumorprobe, der kalkulierte Karyotyp, die Liste der copy number variations und die Chromosomenplots abgebildet.
Durch die Erstellung eines probenspezifischen Panel of normals kann die Methode von coriandR bei den Sequenzierdaten mit einer unterschiedlichen präanalytischen Aufarbeitung oder mit unterschiedlichen Typen von Ausgangsmaterial (Blut-/Knochenmarkproben oder Proben aus dem Formalin-fixierten Paraffineingebetteten Gewebe) zur Schätzung eines kalkulierten Karyotyps eingesetzt werden.
coriandR zeichnet sich durch geringe Laufzeit und die Unabhängigkeit von den Datenformaten anderer Programme aus, so dass die Analyse bereits mit den rohen Sequenzierungsdaten und Eingabe des Geschlechts des Patienten oder der Patientin begonnen werden kann. Die Darstellung der Chromosomenplots mit Giemsa-Banden erlaubt eine einfache Beurteilung durch einen Experten.
Die Ergebnisse bei der Schätzung des kalkulierten Karyotyps durch coriandR wurden durch einen Vergleich mit dem Programm Genome Analysis Toolkit validiert und zeigten eine hohe Übereinstimmung mit den Ergebnissen dieses populären Programms.
Die kalkulierte Karyotypisierung hat in den Zeiten der sinkenden Kosten für die Genomsequenzierung das Potential, in Kombination mit anderen gezielten Untersuchungen, zum Beispiel Fusionspanels, die konventionelle Zytogenetik bei der Diagnostik der akuten myeloischen Leukämie abzulösen. Darüber hinaus ist es mit dem Ansatz auch möglich, solide Tumoren auf der Ebene von Chromosomensätzen genetisch zu charakterisieren, was wichtige Erkenntnisse für das Verständnis der klinischen Ausprägungen liefern kann.
Acute myeloid leukemia is a genetically heterogeneous disease that requires fast diagnosis and therapy due to its rapid progression and massive impairment caused by the bone marrow being displaced by malignant cells. In current classification and risk stratification systems, which are used to estimate the prognosis and select a risk-adapted therapy, molecular and cytogenetic characteristics of acute myeloid leukemia are the most important criteria. With next-generation sequencing methods, it is possible to receive all relevant information from sequence data, considering that data are analyzed using appropriate bioinformatic algorithms.
The central point of this thesis is coriandR – ChrOmosomal abeRration Identifier AND Reporter in R – a tool for estimating the calculated karyotype and the copy number variations in the ultra low-coverage whole-genome sequencing data, which can be used in different aspects of genetic oncological diagnostics by low costs and a high accordance with the “gold standard” method of karyotyping - conventional cytogenetics.
For the estimation of the calculated karyotype and the copy number variations of a blood or tumor sample, a panel of normals is generated from sequencing data. The panel of normals samples come from the same tissue type (blood or histological tumor-free tissue samples) and were processed under the same conditions as the tumor samples and have a normal karyotype. After alignment by Bowtie2, these sequencing data are counted with featureCounts and normalized by the median sequencing depth per bin. The next step is standardization with calculation of the pseudo z-values of the distribution of the reads in the bins. Later they are compared to a normal distribution. After excluding the bins with an abnormal GC-content and/or an abnormal variance, a panel of normals can be used for further calculations.
Estimation of the calculated karyotype for the tumor samples is based on a two-tailed normal distribution test. The obtained p-values were adjusted using the Benjamini-Hochberg method in compliance with the false discovery rate. In consideration of the adjusted p-values, the deviating bins are calculated. An overview plot of the distribution of reads in the sample, a calculated karyotype, a list of copy number variations and chromosome plots are shown in the coriandR report.
Important points of coriandR are the short running time of the program and the independence from the data formats of other programs. It is possible to start the copy number estimations by the raw sequencing data and patient gender. The visualization of Giemsa-bands makes a rapid expert evaluation possible.
By creating an individual panel of normals, the program can also be used to estimate the calculated karyotype of solid tumors or blood samples with different pre-analytical processing, which has already been tested in practice.
The results of coriandR's calculated karyotype estimation were validated by a comparison with the Genome Analysis Toolkit and showed high accordance with the results of this popular program.
In times of decreasing costs for genome sequencing, calculated karyotyping has the potential to replace conventional cytogenetics in the diagnosis of acute myeloid leukemia in combination with other targeted approaches, namely fusion panels. In addition, the approach also makes it possible to characterize solid tumors genetically, which can provide important insights into understanding of clinical manifestations.