Tiefe und Abdeckung – Was ist der Unterschied?

Während der Sequenzierung und der anschließenden bioinformatischen Auswertung werden verschiedene Parameter bestimmt. Zwei dieser Parameter sind die Tiefe („depth“) und Abdeckung („coverage“) der Sequenzierung. Vor allem im Englischen werden diese beiden Begriffe oft im Zusammenhang mit Sequenzierungen synonym verwendet, auch wenn sie generell nicht das Gleiche beschreiben. Es wird noch komplizierter, da diese beiden Begriffe – abhängig vom Kontext – manchmal ähnlichere und manchmal sehr unterschiedliche Dinge beschreiben.

Die Abdeckung (“coverage”), auch bekannt als genomische Abdeckung oder Abdeckung der Sequenzierung, gibt an, wie viel Prozent des Genoms oder der geplanten Zielregion zu einem bestimmten Schwellenwert sequenziert wurde. Für manche Anwendungen wird die genomische Abdeckung so berechnet, dass die Zielregion mindestens einmal abgedeckt sein muss. Für andre Anwendungen muss die Zielregion zum Beispiel mindestens 30-mal abgedeckt sein. Im Beispiel in Abbildung 1 beträgt die Abdeckung der Zielregion 95 %; 5 % der Referenz sind also nicht von mindestens einem Read abgedeckt. Die genomische Abdeckung ist ein wichtiger Parameter, um zu gewährleisten, dass die Gesamtheit der Zielregion, oder zumindest so viel wie möglich, mindestens einmal sequenziert wurde. Sie wird berechnet als Anteil der Nukleotide, die von Reads abgedeckt sind und der Gesamtzahl der Nukleotide im Referenzbereich.

Die genomische Abdeckung kann beeinflusst werden durch

  • die Qualität der DNA-Probe,
  • die Vorbereitung der Sequenzierlibrary,
  • die Voreingenommenheit von Sequenzierungen („sequencing bias“),
  • einen hohen GC-Gehalt,
  • repetitive Elemente
  • oder andere genomische Komplexitäten.

Im Gegensatz dazu beschreibt die Sequenziertiefe („sequencing depth“), die auch als Read-Tiefe, Sequenzierabdeckung oder Tiefe der Abdeckung bekannt ist, wie häufig eine bestimmte Base in der Referenz während des Sequenzierprozesses gelesen wurde. Auf Grundlage dieser Zahlen pro Base kann eine durchschnittliche Sequenzierabdeckung -oder auch Sequenziertiefe – berechnet werden. Es muss also unterschieden werden, ob die Sequenzierabdeckung für eine bestimmte Position in der Referenz oder als Durchschnitt über die gesamte Referenz angegeben wird. Normalerweise wird die Sequenzierabdeckung allerdings als Durchschnitt angegeben, zum Beispiel 50x. Dies bedeutet, dass im Durchschnitt jede Base der Referenz 50-mal gelesen wurde. Die durchschnittliche Tiefe der Sequenzierabdeckung kann theoretisch errechnet werden durch C=LN/G, wobei L die Read-Länge, N die Anzahl der Reads und G die haploide Genomgröße angibt.

Die durchschnittliche Sequenzierabdeckung und die genomische Abdeckung sind miteinander verbunden. Allerdings garantiert eine hohe durchschnittliche Sequenzierabdeckung nicht eine hohe genomische Abdeckung. Schwer zu sequenzierende Regionen im Genom, wie zum Beispiel repetitive Elemente oder Regionen mit hohem GC-Gehalt, bleiben herausfordernd – auch mit einer hohen Sequenziertiefe.

Die Tiefe der Abdeckung kann beeinflusst werden durch

  • die Richtigkeit des Algorithmus, der das Genom-Alignment durchführt,
  • die Einmaligkeit der sequenzierten Reads
  • und dadurch, wie gut die Reads auf das Zielgenom gemapped werden können.

Fehler in der Sequenzierung sind normal. Es hilft, die Sequenziertiefe zu erhöhen, um tatsächliche Varianten von Sequenzierfehlern unterscheiden zu können. Sequenzierfehler sellbst werden durch die höhere Sequenziertiefe nicht reduziert, sie können aber einfacher von tatsächlichen Varianten unterschieden werden. Daher kann die Erhöhung der Sequenziertiefe die Konfidenz einer Variante an einer bestimmten Stelle erhöht werden. Besonders für seltene Varianten mit niedriger Allelfrequenz, seltene Allele, oder für sehr heterogene Proben, wie zum Beispiel Tumorgewebe, ist eine hohe Sequenziertiefe und daraus resultierend eine erhöhte Konfidenz essenziell, um tatsächliche Varianten von Sequenzierfehlern zu unterscheiden. Der Grad der Sequenzierabdeckung bestimmt oft, ob eine Variante mit einer gewissen Konfidenz an einer bestimmten Basenposition entdeckt werden kann oder nicht.

Tabelle 1 | Vergleich von Abdeckung und Tiefe. Für beide Begriffe werden Synonyme, eine Definition, der Zweck, ein Beispiel und ein grafisches Beispiel angegeben.

Abdeckung Tiefe
Synonyme
  • genomische Abdeckung
  • Abdeckung der Sequenzierung
Synonyme
  • Sequenzierabdeckung
  • Sequenziertiefe
  • Read-Tiefe
  • Tiefe der Abdeckung
Definition
Anteil des Genoms oder der Zielregion, die mindestens einmal sequenziert wurde.
Definition
Häufigkeit, wie oft eine bestimmte Base in der Referenz während der Sequenzierung abgelesen wurde. Normalerweise angegeben als durchschnittliche Sequenzierabdeckung.
Beispiel
Die genomische Abdeckung ist 95%. 5% der Referenz sind also nicht abgedeckt.
Beispiel
Die durchschnittliche Sequenziertiefe des Genoms beträgt 30x.
Zweck
Gibt Aufschluss darüber, wie viel der Zielregion mindestens einmal abgedeckt wurde.
Zweck
Höhere Sequenzierabdeckungen erhöhen die Konfidenz in die Bestimmung von Varianten an bestimmten Positionen, besonders für seltene Varianten oder heterogene Proben.
Grafisches Beispiel
Graphic genomic coverage of the target region

Abbildung 1 | Genomische Abdeckung der Zielregion. 95% der Referenz sind durch mindestens ein Read abgedeckt; 5% sind nicht abgedeckt.

Grafisches Beispiel
Graphic sequencing coverage

Abbildung 2 | Sequenzierabdeckung. Die Sequenzierabdeckung bezieht sich auf die Anzahl der Male, dass eine bestimmte Base abgelesen wird während der Sequenzierung.

28. Januar 2026 | Blog, Analysen |