FAQs

Antworten auf häufig gestellte Fragen

Unsere Spezialistinnen und Spezialisten für Next-Generation Sequencing (NGS) sind darum bemüht, Ihnen individuelle Lösungen für jede klinische oder forschungsbezogene Fragestellung anzubieten. Darüber hinaus arbeiten das engagierte RPS-Projektmanagementteam und die Bioinformatikabteilung eng mit Ihnen zusammen, um die beste Strategie für die Umsetzung Ihrer Projekte zu entwickeln.

Wir wissen jedoch, dass manchmal eine kurze Frage von einer schnellen Antwort profitiert. Daher haben wir eine Reihe von häufig gestellten Fragen zu den Sequenziertechnologien und der bioinformatischen Auswertung zusammengestellt, um Ihnen weitere Informationen zu technischen und bioinformatischen Begriffen zu geben. Sollten Sie die Antwort auf Ihre Frage nicht finden, zögern Sie nicht, mit uns in Kontakt zu treten.

Häufig gestellte Fragen (FAQs)

Technische Aspekte

Next-Generation Sequencing, kurz NGS, ist eine Technologie zur Hochdurchsatz-Analyse der Nukleinsäuresequenz eines gegebenen DNA- oder cDNA-Templates. In diesem Verfahren werden viele hunderte Gene parallel sequenziert. Daher ist die Kosten- und Zeiteffizienz im Vergleich zur klassischen Sanger-Sequenzierung deutlich höher.

Third-Generation Sequencing, kurz TGS, ist eine neue Sequenziermethode, die die Sequenzierung von Nukleotiden (DNA oder RNA) ohne PCR-Amplifikation ermöglicht. Die so genannte Single-Molecule-Real-Time (SMRT)-Technologie ermöglicht das Ablesen der Nukleotidsequenzen auf Einzelmolekül-Ebene und damit wesentlich längere Readlängen als die derzeitigen NGS-Methoden. Außerdem können mit der SMRT-Technologie die Daten in Echtzeit analysiert werden.

Eine Flow Cell dient als zentrale Reaktionskammer innerhalb des Sequenzers. Es handelt sich um einen dicken Glasträger mit mehreren Bahnen, die sogenannte Nanowells enthalten. Millionen von Oligos, die komplementär zu den Adaptern einer Sequenzier-Library sind, werden nach dem Zufallsprinzip an die Nanowells des Glasträgers angebracht. Die Flow Cell wird in das Sequenziergerät eingesetzt, und in jeder Nanowelle wird eine einzelne DNA-Library vervielfältigt, um Tausende von Kopien zu erzeugen und ein Cluster zu bilden. Die Clusterdichte ist entscheidend für den Erfolg eines Sequenzierlaufs. Der Sequenzer verwendet eine spezielle Sequenzierchemie, um diese Cluster als fluoreszierende Punkte zu erkennen und die Signale in digitale Daten umzuwandeln.

Die Readlänge beschreibt die Anzahl der Basenpaare (bp), die von einem DNA-Template sequenziert werden. Die für die Sequenzierung verwendeten DNA-Fragmente sind an beiden Enden mit Adaptern versehen, so dass die DNA-Fragmente von beiden Seiten mit einer bestimmten Readlänge (in der Regel 100−250 bp) sequenziert werden können. Je nach Größe der DNA-Fragmente können sich diese Reads überlappen oder durch einen DNA-Abschnitt getrennt sein, der nicht sequenziert wird.

Bei der Paired-End-Sequenzierung wird die DNA aus beiden Richtungen sequenziert. Paired-End-Reads verbessern die Fähigkeit, die relative Position der Reads im Genom zu identifizieren. Dadurch wird die Spezifität der Analyse erheblich gesteigert. Sie werden in der Regel z. B. als 2 x 100 bp oder 2 x 150 bp oder als PE100 oder PE150 dargestellt. Bei der Single-End-Sequenzierung (z. B. 1 x 100 bp) analysiert der Sequenzer das DNA-Fragment nur in eine Richtung.

Bioinformatische Aspekte

FASTQ-Daten sind Textdateien, die die Sequenzierdaten der Cluster enthalten, die den Filter auf einer Flow Cell passiert haben.
Die von Illumina-Sequenzern, wie dem NovaSeq™  6000, erzeugten Rohdaten werden in Binary-Base-Call-Dateien (.bcl) gespeichert. Für die weitere Analyse müssen sie in das FASTQ-Dateiformat konvertiert werden. Das komprimierte FASTQ-Dateiformat (.fastq.gz) wird üblicherweise auch zum Speichern von NGS-Daten von Illumina-Sequenziersystemen verwendet und kann problemlos für nachfolgende Analysen genutzt werden. Wenn eine Paired-End-Sequenzierung durchgeführt wurde, erhalten Sie zwei Dateien für jede Probe, die jeweils den Vorwärts- und Rückwärts-Reads entsprechen. FASTQ-Dateien sind immer in unseren Standard-Sequenzierprodukten enthalten.

Unique Molecular Identifiers (UMIs) sind kurze Indizes, die zur eindeutigen Kennzeichnung eines jeden Moleküls in einer Sequenzier-Library verwendet werden. UMIs bestehen aus zufälligen Sequenzzusammensetzungen, die die einzigartige Fragment-UMI-Kombination der Sequenzier-Library gewährleisten. Diese molekularen Barcodes werden vor der PCR-Amplifikation zu einer Sequenzier-Library hinzugefügt. Daher ermöglichen UMIs die genaue Quantifizierung der ursprünglichen Nukleinsäuren mit Hilfe einer Bioinformatik-Software, indem sie doppelte Reads und PCR-Fehler entfernen. Die Unterscheidung von PCR-Duplikaten von echten biologischen Duplikaten führt zu einer verbesserten Datenqualität und einer höheren Empfindlichkeit bei der Variantenerkennung.
UMIs sind nicht mit UDIs (“unique dual indexes”) zu verwechseln. UDIs ermöglichen die Zuordnung von Reads mit denselben Barcodes zu einer bestimmten Probe nach dem Pooling (siehe “Was versteht man unter Multiplexing und Demultiplexing”) und müssen zur Vorbereitung in jeder Sequenzier-Library verwendet werden. Wenn UMIs für eine spezielle Library-Vorbereitung verfügbar sind, können sie zusätzlich zu den UDIs verwendet werden. Die Kombination von UMIs und UDIs kann die Genauigkeit der Datenanalyse verbessern.

Unter Sequenz-Alignment versteht man die genaue Anordnung der einzelnen Basen in einem Read. Um herauszufinden, welcher genomischen Region die Reads entsprechen, werden sie häufig gegen ein Referenzgenom gemappt. Die Daten, die Informationen über die DNA-Sequenz und die entsprechende genomische Region enthalten, werden in einer sogenannten Binary-Alignment/Mapping-Datei (.bam) gespeichert.

Die Coverage beschreibt die durchschnittliche Anzahl der einzelnen Reads, die mit einer Referenzsequenz übereinstimmen. Je höher die Coverage, desto besser ist die Erkennung einer Variante an einer bestimmten Position. Daher wird bei der Sequenzierung eine hohe Coverage in bestimmten genetischen Regionen angestrebt.

Wenn es kein Referenzgenom gibt, wird eine sogenannte de novo Assemblierung durchgeführt. Durch das Zusammenfügen der sich überlappenden Reads können längere DNA-Sequenzen (Contigs) oder sogar das gesamte ursprüngliche Genom rekonstruiert werden.

Variant-Calling ist eine Technik zur Identifizierung von Sequenzvarianten durch Vergleich der Sequenzierdaten mit einem Referenzgenom. Die Daten werden im Variant-Call-Dateiformat (.vcf) gespeichert und liefern Informationen über die Positionen, an denen die Probe vom Referenzgenom abweicht. Unsere Kundinnen und Kunden erhalten für jede Probe VCF-Dateien: Eine Liste der Punktmutationen (“single nucleotide variants”, SNVs) sowie eine Liste der kleinen Insertionen und Deletionen (kurz Indels). Diese Dateien können mit einem Standard-Texteditor geöffnet werden.

Bei einer Annotation handelt es sich um die Zuordnung der identifizierten Varianten zu den Informationen, die in verschiedenen Datenbanken verfügbar sind. Die Annotation liefert Details über mögliche Funktionen der Varianten oder ob sie krankheitsverursachende Auswirkungen haben. Den Annotationsdateien ist in der Regel einer VCF-Datei beigefügt. Annotationen werden in einer so genannten Tab-separierten Datei (.tsv) bereitgestellt und können zum Beispiel mit Microsoft Excel angezeigt werden, wenn die Datei nicht mehr als 1,05 Millionen Zeilen enthält.

Mit jedem Datensatz senden wir eine MD5-Prüfsumme (“md5sum”), welche mit dem Message-Digest-Algorithmus 5 (MD5) erstellt wird. Diese Prüfsumme ermöglicht es unseren Kundinnen und Kunden, den Datensatz auf Vollständigkeit zu prüfen. Sobald sich die gesendeten Dateien ändern, zum Beispiel durch einen unvollständigen Download, ändert sich auch die md5sum.

Base-Calling ist die digitale Zuordnung der Nukleotide zu den emittierten Fluoreszenzsignalen, die während der Sequenzierreaktion generiert werden. Die Bilder der Signale werden dann digital verarbeitet, um die Reihenfolge der Nukleotide zu ermitteln.

Multiplexing ermöglicht die gleichzeitige Sequenzierung von gepoolten Proben während eines Sequenzierdurchgangs. Die einzelnen Proben können durch die Verwendung spezifischer Barcode-Sequenzen, sogenannte Indexadapter voneinander, unterschieden werden. Diese Barcodes werden während der Konstruktion der DNA-Library an beide Enden des ursprünglichen DNA-Fragments angehängt. Die Kombination aus eindeutigen Vorwärts- und Rückwärts-Indexsequenzen ermöglicht die eindeutige Zuordnung der Reads zu einer bestimmten Probe. Darüber hinaus ermöglichen diese Adapter eine orientierungsspezifische Hybridisierung des kompletten Fragments an die Flow Cell. Das Multiplexing von Proben ermöglicht einen höheren Durchsatz von vielen Proben gleichzeitig und damit eine Reduzierung der Sequenzierkosten.

In der Regel werden die Adaptersequenzen vor der weiteren Analyse von den sequenzierten Reads entfernt. Daher müssen die vom Sequenzer stammenden Rohdaten für weitere Analysen zunächst bearbeitet werden.

Der Phred-Score ist ein Qualitätsparameter, der die Genauigkeit der Basenidentifizierung anzeigt und während der Sequenzierung generiert wird. Er ist ein Maß für kleine Fehlerwahrscheinlichkeiten und ermöglicht einen Vergleich der Sequenzierqualität verschiedener Sequenziermethoden. Der Phred-Score ist proportional zum Logarithmus der Fehlerwahrscheinlichkeit P beim Base-Calling und wird folgendermaßen berechnet: Q = -10 log10 P. Ein hoher Q-Score steht für einen zuverlässigeren und vermutlich korrekten Base-Call. Ein Phred-Score von 30 bedeutet z.B., dass die Wahrscheinlichkeit, dass die Base falsch bestimmt wurde, 1:1000 beträgt. Der Phred-Qualitätsscore wird mit der Illumina-Standard-Phred-Kodierung angegeben (Offset +33).

Kontaktieren Sie uns

Sie haben noch Fragen oder Interesse an unserem Service? Treten Sie gern mit uns in Kontakt. Wir werden uns schnellstmöglich um Ihr Anliegen kümmern.

Mit (*) gekennzeichnete Felder sind Pflichtfelder und müssen ausgefüllt werden.

Starten Sie Ihr Projekt mit uns

Gerne beraten wir Sie zu unseren Sequenzierdienstleitungen und erarbeiten mit Ihnen gemeinsam die beste Lösung, die auf Ihre klinische Studie oder Forschungsprojekt abgestimmt ist.

Bitte geben Sie, falls möglich, folgende Probeninformationen an: Ausgangsmaterial, Anzahl der Proben, bevorzugte Option für die Vorbereitung der Library, bevorzugte Sequenziertiefe und gewünschte bioinformatische Analysestufe.