Illuminas DRAGEN Software (“Dynamic Read Analysis for GENomics”, dynamische Read-Analyse für Genomik) ist eine sekundäre Analysesoftware, die sich wichtigen Herausforderungen in der Analyse von Next-Generation-Sequencing (NGS)-Daten annimmt. Wir verwenden verschiedene DRAGEN-Funktionalitäten, um zahlreiche unserer DNA-Produkte zu analysieren, die auf Illumina-Sequenzierplattformen prozessiert werden. Mit dem DRAGEN-Update sind nun neue Funktionalitäten und Optionen verfügbar – für uns und für Sie!
Variantenbestimmung mit Detektion von Mosaik-Varianten
Die typischen Allelfrequenzen von Einzelnukleotidvarianten („small nucleotide variants“, SNVs) und kleiner Insertionen und Deletionen (kurz Indels) in Keimbahnproben sind 0%, 50% oder 100%: Die Variante kommt in allen Zellen entweder auf keinem der Allele (0%), einem der Allele (50%) oder beiden Allelen (100%) vor. Allerdings ist in der Biologie nicht immer alles typisch: DNA-Veränderungen, die nach dem Zygotenstadium im Laufe des Lebens entstehen, können zu unterschiedlichen DNA-Sequenzen in den verschiedenen Zellen führen. Somit besitzen einige Zellen ein anderes Erbgut als andere Zellen. Dieses Phänomen wird Mosaizismus genannt. Postzygotische Mosaik-Varianten haben typischerweise Allelfrequenzen zwischen weniger als 1% und ungefähr 50%, abhängig von der Anzahl der Zellen mit dieser postzygotischen Variante. Insbesondere niedrige Mosaik-Allelfrequenzen können schwer zu ermitteln sein, da sie für Hintergrundrauschen gehalten werden können.
Mit der neuen DRAGEN-Version verbessert ein neues Mosaik-Modell, welches maschinelles Lernen verwendet, die Sensitivität für die Erkennung niedriger Allelfrequenzen. Mit diesem Modell ist die Mosaik-Varianten-Erkennung möglich. Zusätzlich ist die Mosaik-Varianten-Erkennung auch für Kopienzahlveränderungen („copy number variations“, CNVs) aktiviert.
Die neue DRAGEN-Version verbessert somit die Sensitivität für die Detektion von Mosaik-Varianten, ermöglicht eine umfassendere Variantenanalyse und verbessert die Erforschung von Mosaik-Erkrankungen.

Abbildung 1 | Allelfrequenzen „typischer“ kleiner Keimbahnvarianten und Mosaik-Varianten.
Verbesserte CNV-Bestimmung für unsere somatischen Produkte durch Allel-spezifische Kopienzahlanalysen
Die Bestimmung von Kopienzahlveränderungen ist für Tumorproben besonders herausfordernd. Solche Proben bestehen nämlich aus einer Mischung von Tumorzellen und normalen Zellen, was die Erfassung der Variantensignale stört. Für eine adäquate Variantenbestimmung müssen der Reinheitsgrad des Tumors und seine Ploidie abgeschätzt werden, um die Anzahl der Reads entsprechend zu korrigieren. Das Allel-spezifische Kopienzahlmodul („allele-specific copy number“, ASCN) der DRAGEN-Software identifiziert den wahrscheinlichsten Reinheitsgrad des Tumors vor der Variantenbestimmung, indem die beobachteten Reads und die B-Allel-Frequenzen zu Rate gezogen werden. Die B-Allel-Frequenz beschreibt das Verhältnis zwischen der Anzahl der B-Allele (entspricht den Nicht-Referenz-Allelen) und der gesamten Anzahl von Allelen an der Position eines bestimmten Einzelnukleotidpolymorphismus („single nucleotide polymorphism“, SNP). Mit dem DRAGEN ASCN-Modul werden die B-Allel-Verhältnisse im Tumor berechnet, um eine Allel-spezifische Kopienzahlbestimmung in der Tumorprobe zu ermöglichen. Falls möglich, sollte eine passende Normalprobe für einen Tumor-Normalvergleich für die Berechnung verwendet werden. Sollte allerdings keine Normalprobe verfügbar sein, gibt es einen generellen Katalog mit allgemein verfügbaren SNPs für eine Berechnung einer einzelnen Tumorprobe. Innerhalb des ASCN-Moduls wird die Bestimmung von Kopienzahlveränderungen in Tumorproben verbessert.
Verwendung des innovativen Pangenoms als Referenz
In der korrekten Identifizierung der verschiedenen Variationsarten liegt der Schlüssel zum Verständnis für die menschliche Gesundheit, zum Erfassen von Krankheitsmechanismen und zur Entdeckung neuer Angriffspunkte bei Krankheiten oder genetischen Markern mit klinischer Signifikanz. Um die Varianten eines Individuums korrekt zu identifizieren, ist ein sorgfältiges Mapping der sequenzierten Reads auf eine geeignete Referenz notwendig. Mit der neusten DRAGEN-Version ist die Nutzung einer Pangenom-Referenz für menschliche Proben möglich. Diese Pangenom-Referenz besteht aus einer humanen Referenz und mehr als 100 Assemblies aus 26 verschiedenen Abstammungen. Mit den zusätzlichen Assemblies werden Varianten von zahlreichen Genomen inkludiert, um die genetische Diversität der menschlichen Bevölkerung zu repräsentieren. Die Verwendung der Pangenom-basierten Referenz soll die Mapping-Genauigkeit und die nachfolgende Variantenbestimmung verbessern. Laut Illumina minimiert die Verwendung der humanen Pangenom-Referenz die Anzahl der falsch negativ und falsch positiv bestimmten Varianten um mehr als 60% im Vergleich zur linearen Referenz. Daher folgen wir Illuminas Empfehlung und verwenden für menschliche Proben die Pangenom-Referenz.

Abbildung 2 | Pangenom als Referenz. Zahlreiche Assemblies werden zusammen mit dem Referenzgenom für das Mapping der Reads verwendet. Durch die Verwendung des Pangenoms als Referenz anstelle einer linearen Referenz werden Varianten von verschiedenen Genomen einbezogen, um die genomische Diversität der menschlichen Bevölkerung besser abzubilden. Varianten, die in allen Assemblies vorkommen, können im Kern des Pangenoms gefunden werden.
Erweiterte Annotationsdateien mit zusätzlichen Informationen
Nach der Variantenbestimmung werden die entstandenen VCF-Dateien mit Illuminas Nirvana-Software annotiert, welche klinische Annotationen von genomischen Varianten liefert. Diese Software gibt eine strukturierte JSON-Datei aus, in welcher alle Annotationen und Probeninformationen aufgeführt sind. Obwohl JSON ein für Menschen lesbares, textbasiertes Format für die Speicherung und den Austausch von Daten zwischen Systemen ist, ist die annotierte JSON-Datei schwierig zu lesen und zu verstehen. Daher liefern wir eine zusätzliche Annotationsdatei mit ausgewählten Informationen im Tabellenformat (TSV-Datei). Unter anderem enthält die Annotationsdatei im Tabellenformat bereits Informationen über die chromosomale Position und die beobachtete Variante, die funktionelle Konsequenz der Variante in Bezug auf ein Transkript, die Position und Sequenzänderung in Bezug auf das betroffene Transkript und Informationen über die Variante in der Gesamtbevölkerung. Mit dem neuen Update haben wir nun noch weitere Informationen aus der JSON-Datei in die Annotationsdatei im Tabellenformat übernommen, wie zum Beispiel Informationen aus externen Datenquellen wie ClinVar oder COSMIC:
- ClinVar ist ein öffentliches Archiv, in dem der Zusammenhang zwischen menschlichen Varianten und Phänotypen erfasst wird. Dies soll das Verständnis und den Zusammenhang von Varianten und dem beobachteten Gesundheitszustand eines Individuums erleichtern.
- COMSIC steht für „Catalogue of Somatic Mutations in Cancer“ (Katalog somatischer Mutationen bei Krebs). Dies ist die weltweit größte Datenbank manuell zusammengetragener somatischer Mutationsinformationen, die menschliche Krebserkrankungen betreffen.
Weitere Informationen aus anderen Datenbanken oder externen Datenquellen können weiterhin in der JSON-Datei gefunden werden. Aus Gründen der Übersichtlichkeit haben wir nur die Informationen aus ClinVar und COSMIC in die tabellarische Annotationsdatei übernommen. Zusammen mit der tabellarischen Annotationsdatei stellen wir eine Dokumentation der Annotation zur Verfügung, in welcher alle Spalten erklärt werden.
Mit diesen neuen Funktionalitäten und Optionen, die nun standardmäßig in den Analysen der auf Illumina-Plattformen sequenzierten DNA-Proben inkludiert sind, nutzen wir das Potential des neuen Illumina-DRAGEN-Updates. Wir haben die neuen Funktionalitäten und Optionen intensiv getestet, um den Fortbestand von qualitativ hochwertigen Ergebnissen zu gewährleisten. Wir freuen uns, Ihnen diese neuen Funktionalitäten und Optionen für Ihr nächstes Sequenzierprojekt zur Verfügung stellen zu können.
