Sensitivität und Spezifität als Parameter der Variantenbestimmung

Next-Generation Sequencing (NGS) ermöglicht die schnelle Sequenzierung von Hunderttausenden menschlichen Genomen. Auf Grundlage der generierten NGS-Daten können genetische Varianten bestimmt werden, um Keimbahnvariationen, vererbte Krankheiten und Erkrankungen wie Krebs besser verstehen zu können. Die sorgfältige und genaue Bestimmung dieser Varianten ist ein wichtiger Schritt, auf dem alle nachfolgenden Analysen beruhen. Daher ist es entscheidend, die gewählte und verwendete Software zur Bestimmung von Varianten gewissenhaft zu bewerten. Diese Bewertung wird für spezifische, vorher definierte Bedingungen durchgeführt. Unter diese Bedingungen fällt zum Beispiel die Vorbereitung der Sequenzier- Library oder der Output der Sequenzierung. Während der Bewertung werden verschiedene Parameter berechnet, um die Leistungsfähigkeit der Software zur Variantenbestimmung zu bestimmen. Hierzu zählen zum Beispiel die Sensitivität und die Spezifität.

Die Sensitivität wird auch als richtig-positiv-Rate, Empfindlichkeit oder Trefferquote bezeichnet. Sie gibt die Wahrscheinlichkeit an, ob ein positives Ereignis korrekt als positiv klassifiziert wurde. Bei der Bestimmung von Varianten gibt die Sensitivität Auskunft über die Wahrscheinlichkeit, dass eine Variante richtig vorhergesagt wird, wenn ein Individuum die Variante auch trägt. Sie wird berechnet als

Die Sensitivität wird auch als richtig-positiv-Rate, Empfindlichkeit oder Trefferquote bezeichnet.

Die Sensitivität bestimmt also das Verhältnis zwischen der Anzahl der richtig positiv vorhergesagten Varianten und der Gesamtzahl aller Individuen mit der betreffenden Variante.

Die Spezifität wird auch als richtig-negativ-Rate bezeichnet. Sie bestimmt, ob ein negatives Ereignis korrekt als negativ klassifiziert wird. In Bezug auf die Variantenbestimmung gibt die Spezifität die Wahrscheinlichkeit an, dass eine Variante nicht vorhergesagt wird in einem Individuum, das die Variante auch nicht besitzt. Sie wird berechnet als

Formel für die Spezifität

Die Spezifität bestimmt also das Verhältnis der Anzahl der richtig negativ vorhergesagten Varianten und der Gesamtzahl aller Individuen ohne die betreffende Variante.

Die Konfusionsmatrix in Abbildung 1 beschreibt die Verbindung zwischen den Werten richtig positiv, richtig negativ, falsch positiv und falsch negativ. In dieser Matrix ist aus den Reihen ersichtlich, ob ein Individuum eine betreffende Variante besitzt oder nicht, während aus den Spalten hervorgeht, ob der verwendete Algorithmus zur Bestimmung von Varianten die betreffende Variante im Individuum vorhersagt oder nicht.

Um die Konfusionsmatrix korrekt ausfüllen zu können, muss bekannt sein, ob eine vorhergesagte Variante auch tatsächlich eine Variante in einem Individuum ist oder nicht. Hierfür nutzen wir die Referenzprobe Genom in der Flasche („Genome in a Bottle“, GIAB) HG001, welche sehr gut charakterisiert ist. Für diese Probe sind sogenannte Wahrheitssets für Einzelnukleotidvarianten („single nucleotide variants“, SNVs) und kleine Insertionen und Deletionen (kurz Indels) verfügbar, welche die Varianten mit hoher Konfidenz beinhalten. Diese Warhheitssets können genutzt werden, um die Varianten, die mit der gewählten Software zur Variantenbestimmung vorhergesagt wurden, zu vergleichen. Durch den Vergleich der vorhergesagten Varianten mit der gewählten Software und den Wahrheitssets von HG001 können wir bestimmen, ob eine vorhergesagte Variante auch eine tatsächliche Variante ist oder ein falsch positives Ergebnis. Mit Hilfe der HG001 Referenzprobe können wir also die Konfusionsmatrix ausfüllen und anschließend die Werte für die Sensitivität und Spezifität unseres gewählten Algorithmus zur Variantenbestimmung berechnen.

Abbildung 1 | Konfusionsmatrix. Die Reihen geben an, ob ein Individuum die betreffende Variante besitzt oder nicht. Die Spalten geben an, ob die Variante mit Hilfe eines Algorithmus im Individuum vorhergesagt wird oder nicht.

Abbildung 1 | Konfusionsmatrix. Die Reihen geben an, ob ein Individuum die betreffende Variante besitzt oder nicht. Die Spalten geben an, ob die Variante mit Hilfe eines Algorithmus im Individuum vorhergesagt wird oder nicht.

17. Oktober 2024 | Analysen |