Im Zusammenhang mit Next-Generation Sequencing (NGS) kommen die Begriffe Read, Read-Paar und Cluster häufig vor – und es ist nicht immer einfach, diese Begriffe zu unterscheiden. Was aber bedeuten sie genau? Um die Unterschiede dieser Begriffe verstehen zu können, müssen wir zunächst verstehen, wie Next-Generation Sequencing funktioniert.
Als Beispiel schauen wir uns Schritt für Schritt den Arbeitsablauf an, der für eine Paired-End-Sequenzierung von RNA auf Illumina-Geräten notwendig ist, wie in Abbildung 1 dargestellt:
- Wir starten mit der RNA-Sequenz. Um das kodierende Transkriptom zu sequenzieren, wird die poly(A)-RNA angereichert; für die Sequenzierung des gesamten Transkriptoms wird die rRNA abgereichert.
- Als nächstes wird die RNA-Sequenz in cDNA-Stränge umgeschrieben, da diese Sequenzen im Vergleich zu RNA-Sequenzen stabiler und einfacher zu vervielfältigen sind . Während der Vorbereitung der Library werden Adapter an die cDNA-Stränge angefügt, die die Bindung an die Flow Cell ermöglichen.
- Bei der Verwendung von Illuminas strukturierter Flow Cell-Technologie trägt jede Flow Cell mehrere Milliarden sogenannter Nanowells, also kleine Vertiefungen, an festgelegten Positionen auf der Oberfläche. In jedem Nanowell befinden sich circa 1.000 DNA-Sonden, um die vorbereiteten cDNA-Stränge zu erfassen. Diese DNA-Sonden können entweder das 3‘-Ende (blau in der Abbildung) oder das 5‘-Ende (grün in der Abbildung) der Stränge binden. Im nächsten Schritt hybridisiert jeder cDNA-Strang mit Hilfe ihrer Adapter an eine der DNA-Sonden in einem Nanowell auf der Flow Cell. In diesem Schritt ist es egal, welcher Adapter (3‘ oder 5‘) an die Sonde bindet. Es ist allerdings wichtig, dass genau ein cDNA-Strang in ein Nanowell bindet.
- Im nächsten Schritt beugt sich der cDNA-Strang. Der nicht-gebundene Adapter bindet an die entsprechende Sonde auf der Flow Cell und bildet dadurch eine Brücke. Daher stammt auch der Name dieses Schrittes: Die Brücken-Amplifizierung. Dieser Amplifizierungsschritt wird sehr schnell und sehr häufig wiederholt. Mit Hilfe der Brücken-Amplifizierung wird ein einzelnes cDNA-Molekül auf ca. 1.000 Kopien innerhalb seines Nanowells vervielfältigt. Diese identischen Kopien des initialen cDNA-Stranges im entsprechenden Nanowell werden Cluster genannt. Die Stränge im Cluster werden nachfolgend gemeinsam sequenziert, um das Signal während der Sequenzierung zu erhöhen und eine genauere Bestimmung der Sequenz zu ermöglichen.
- Während der Brücken-Amplifizierung werden die Stränge mit ihrem 3‘ oder 5‘-Ende an die Flow Cell-Oberfläche gebunden. Für den ersten Schritt der Sequenzierung werden nun die Reverse-Stränge entfernt. Daher bleiben nur noch die Forward-Stränge im Nanowell übrig. Diese werden anschließend mit dem „Sequenzierung durch Synthese“-Ansatz (engl. sequencing-by-synthesis) sequenziert, wodurch der sogenannte Forward-Read entsteht, der auch Read 1 genannt wird. Ein Read ist also das sequenzierte Ergebnis eines Clusters, das als Abfolge von Nucleotiden dargestellt wird. Es handelt sich um die tatsächliche Datenausgabe eines Sequenzierlaufs.
- Wenn die Proben im Paired-End Sequenziermodus sequenziert werden sollen, dann werden die Stränge von beiden Seiten sequenziert. In unserem Beispiel wurden die Proben aber bisher nur von einer Seite sequenziert. Um auch den Reverse-Strang zu sequenzieren ist ein weiterer Brücken-Amplifizierungs-Schritt notwendig. Dieses Mal wird nach der Amplifizierung allerdings der Forward-Strang entfernt und der übrig geblieben Reverse-Strang wird mit der „Sequenzierung durch Synthese“-Methode sequenziert, um den Reverse Read zu erhalten, der auch Read 2 genannt wird.
- Nach diesen beiden Sequenzier-Runden wurden aus einem Cluster Read 1 als der Forward-Read und Read 2 als der Reverse-Read erstellt. Diese beiden Reads formen ein Read-Paar, da sie vom selben Cluster stammen und denselben initialen cDNA-Strang repräsentieren.
Dieser Arbeitsablauf kann natürlich auch für die DNA-Sequenzierung auf Illumina Plattformen angewendet werden: Die DNA wird hierfür fragmentiert, dafür ist aber keine cDNA-Synthese notwendig. Es entstehen also auch Cluster, Reads und Read-Paare bei der Paired-End-Sequenzierung von DNA-Proben.

