-
GEBIET DER
ERFINDUNG
-
Die
vorliegende Offenbarung bezieht sich auf Sätze von Nukleinsäuretags,
Oligonukleotidsondenarrays, mit Nukleinsäuretags versehene Sätze von
rekombinanten Zellen und andere Zusammensetzungen und Verfahren
zur Selektionierung von Oligonukleotidsondenarrays. Die Offenbarung
betrifft die Selektionierung und Interaktion von Nukleinsäuren und
auf festen Substraten immobilisierten Nukleinsäuren, einschließlich der damit
in Verbindung stehenden chemischen, biologischen und medizindiagnostischen
Verwendungen.
-
HINTERGRUND
DER ERFINDUNG
-
Verfahren
zur Herstellung großer
Arrays aus Oligonukleotiden und anderen Polymeren auf einem festen
Substrat sind bekannt. Pirrung et al., U.S. Patent Nr. 5,143,854
(siehe auch PCT-Anmeldung
Nr. WO 90/15070), McGall et al., U.S. Patent Nr. 5,412,087, Chee
et al. SN PCT/US94/12305 und Fodor et al., PCT-Veröffentlichung
Nr. WO 92/10092 beschreiben Verfahren zur Herstellung von Arrays
aus Oligonukleotiden und anderen Polymeren unter Verwendung von
z. B. lichtgesteuerten Synthesetechniken.
-
In
der Veröffentlichung
von Fodor et al. werden Verfahren zur Verwendung von computergesteuerten Systemen
zur Steuerung der Polymerarraysynthese beschrieben. Unter Verwendung
des Ansatzes von Fodor wird ein heterogenes Array aus Polymeren
durch gleichzeitige Kopplung an multiplen Reaktionsstellen in ein anderes
heterogenes Array umgewandelt. Siehe auch Fodor et al. (1991) Science,
251: 767-777; Lipshutz et al. (1995) BioTechniques 19(3): 442-447;
Fodor et al. (1993) Nature 364: 555-556 und Medlin (1995) Environmental
Health Perspectives 244-246. Die Arrays werden typischerweise auf
einer festen Oberfläche
mit einer Fläche
von weniger als 1 inch2 platziert, wenngleich
optional auch wesentlich größere Oberflächen verwendet werden.
-
Weitere
zur Polymersynthese auf einem Substrat anwendbare Verfahren sind
z. B. beschrieben in U.S. Patent Nr. 5,384,261, welches hierin durch
Bezugnahme für
alle Zwecke einbezogen ist. In den in diesen Anmeldungen offenbarten
Verfahren werden Reagenzien an das Substrat herangebracht, indem
Polymersynthesereagenzien auf vorbestimmte Bereiche des festen Substrats
fließen
gelassen oder aufgespritzt werden. In jedem Fall werden bestimmte
aktivierte Bereiche des Substrats physikalisch von anderen Bereichen
abgetrennt, wenn die Monomerlösungen
an die verschiedenen Reaktionsstellen gebracht werden, z. B. mittels
Rillen, Wells und dergleichen.
-
Verfahren
zur Synthese von Polymerarrays werden hierin als VLSIPSTM ("very large scale
immobilized polymer synthesis")-Verfahren
bezeichnet. Oligonukleotid-VLSIPSTM-Arrays
sind z. B. zweckmäßig bei
einer Vielzahl von Verfahren zur Überwachung von Testnukleinsäuren in
einer Probe. In Sondenarrays mit multiplen Sondensätzen können viele
individuelle Hybridisierungsinteraktionen gleichzeitig überwacht
werden. Jedoch kann eine unerwünschte
Hybridisierung zwischen Sonden oder zwischen Sonden und anderen
Nukleinsäuren die
Analyse von multiplen Hybridisierungen problematisch machen. Die
vorliegende Erfindung löst
diese und andere Probleme.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Mit
der vorliegenden Erfindung ist es nunmehr möglich, viele individuelle Komponenten,
die unter anderem in molekularen, zellulären oder viralen Bibliotheken
vorliegen, unter Verwendung einer begrenzten Anzahl von Hybridisierungsbedingungen
zu markieren und zu detektieren. Die Komponenten werden mit speziell ausgewählten Nukleinsäuretags
markiert und die Anwesenheit von individuellen Tags wird durch die
Hybridisierung an ein Sondenarray (typischerweise ein VLSIPSTM-Array aus Oligonukleotidsonden) überwacht.
Folglich sind die Nukleinsäuretags
Markierungen für
die individuellen Komponenten und das Sondenarray stellt einen Markierungsleser
bereit, welcher die gleichzeitige Detektion einer großen Anzahl
von Nukleinsäuretags gestattet.
Dies ermöglicht
eine breit angelegte parallele Analyse aller Komponenten einer Mischung
in einem einzigen Assay.
-
So
können
z. B., wie hierin erläutert,
alle Mitglieder einer zellulären
Bibliothek unter Verwendung einer Mischung aller Mitglieder der
zellulären
Bibliothek hinsichtlich der Antwort auf einen Umgebungsreiz in einem einzigen
Assay getestet werden. Dies wird z. B. dadurch erreicht, dass jedes
Mitglied der zellulären
Bibliothek markiert wird, z. B. durch Klonieren eines Nukleinsäuretags
in jeden Zelltyp in der Bibliothek, jeder Zelltyp in der Bibliothek
in einer geeigneten Lösung
vermischt wird und ein Teil dieser Lösung dem ausgewählten Umgebungsreiz
ausgesetzt wird. Die Verteilung von Nukleinsäuren in der Bibliothek vor
und nach dem Umgebungsreiz wird durch Hybridisierung der Nukleinsäuren an
ein VLSIPSTM-Array verglichen, was die Detektion der
Zellen gestattet, welche spezifisch von dem Umgebungsreiz betroffen
sind.
-
Dem
entsprechend stellt die vorliegende Offenbarung unter anderem bereit:
Nukleinsäuretags,
Sätze von
Nukleinsäuretags,
Verfahren zur Selektionierung von Nukleinsäuretags, Bibliotheken von Zellen,
Viren oder dergleichen enthaltend Nukleinsäuretags, Arrays aus Oligonukleotidsonden,
Arrays aus VLSIPSTM-Sonden, Verfahren zur
Selektionierung von Arrays aus Oligonukleotidsonden, Verfahren zur
Detektion von Nukleinsäuretags
mit VLSIPSTM-Arrays und andere Merkmale,
welche beim weiteren Lesen deutlich werden.
-
In
einer Kategorie von Ausführungsformen
stellt die vorliegende Offenbarung ein Verfahren zur Selektionierung
eines Satzes von Nukleinsäuretags
bereit, welche zur minimalen Kreuzhybridisierung an ein VLSIPSTM-Array bestimmt sind. Die Abwesenheit der
Kreuzhybridisierung ermöglicht
die Analyse von Hybridisierungsmustern an VLSIPSTM-Arrays, da sie Mehrdeutigkeiten
in der Interpretation von Hybridisierungsergebnissen reduziert,
welche auftreten, weil multiple Nukleinsäurespezies an eine einzelne
Sondenspezies auf dem VLSIPSTM-Array binden.
Folglich werden in den Selektionierungsverfahren der vorliegenden
Offenbarung potentielle Tags aus dem Satz von Tags ausgeschlossen,
sofern sie unter stringenten Bedingungen an die gleiche Nukleinsäure binden
wie ausgewählte
Tags. Typischerweise schließen
die Selektionierungsverfahren die folgenden Schritte ein: Auswahl
einer spezifischen thermischen Bindungsstabilität für die Säuretags gegen komplementäre Sonden
und Ausschluss von Tags, welche selbstkomplementäre Regionen enthalten. Oftmals
wird die thermische Bindungsstabilität der Tags ausgewählt, indem
die Bindungsstabilität
beeinflussende Parameter angegeben werden, ebenso wie die Länge und
die Basenzusammensetzung (z. B. durch Auswahl von Tags mit dem gleichen
Nukleotidverhältnis
von AT zu GC) für
die Nukleinsäuretags
ausgewählt
wird. In dieser Hinsicht benötigen
Tags, welche bei der Bindung an eine komplementäre Sonde mehr GC-Bindungen bilden,
weniger Basen insgesamt, um die gleiche Bindungsstabilität mit einer
komplementären
Sonde zu erreichen, wie Tags mit weniger GC-Resten. Die Bindungsstabilität wird auch
von Basen stapelnden Interaktionen, der Bildung von Sekundärstrukturen
und der Auswahl des Lösungsmittels,
in welchem ein Tag an eine Sonde gebunden ist, beeinflusst.
-
Die
Größe der Tags
kann beträchtlich
variieren, typischerweise beträgt
ihre Länge
jedoch zwischen etwa 8–150
Nukleotiden, noch typischer zwischen 10 und 100 Nukleotiden, oftmals
etwa zwischen 15 und 30 Nukleotiden, im allgemeinen zwischen etwa
15 und 25 Nukleotiden und, in einer bevorzugten Ausführungsform,
etwa 20 Nukleotide. In einigen Anwendungen sind die Tags beträchtlich
länger
als die Sonden, an welche sie hybridisieren. Die Verwendung von
längeren
Tags erhöht
die Anzahl der Tags, aus denen nicht kreuzhybridisierende Sonden
ausgewählt
werden können.
-
Optional
werden die Nukleinsäuretags
so ausgewählt,
dass sie konstante und variable Regionen aufweisen, was die Eliminierung
einer aus der Eigenkomplementarität entstehenden Sekundärstruktur
ermöglicht und
strukturelle Eigenschaften zur Klonierung und Amplifikation der
Tags bereitstellt. Beispielsweise werden gegebenenfalls PCR-Bindungsstellen oder
Restriktionsenzymstellen in konstante Regionen der Tags eingebaut.
In anderen Ausführungsformen
werden gemäß codierungstheoretischer
Verfahren kurze konstante Regionen hinzugefügt, um eine Fehlausrichtung
der Tags zu vermeiden. Optional werden konstante Regionen während der
Prozessierungsschritte von dem Tag abgetrennt, z. B. durch Spaltung
der Nukleinsäuretags
mit Klasse II-Restriktionsenzymen.
-
Oftmals
ist es wünschenswert,
Tags zu eliminieren, welche Serien von 4 Nukleotiden ausgewählt aus der
Gruppe bestehend aus 4 X-Resten, 4 Y-Resten und 4 Z-Resten, wobei
X ausgewählt
ist aus der Gruppe bestehend aus G und C, Y ausgewählt ist
aus der Gruppe bestehend aus G und A und Z ausgewählt ist
aus der Gruppe bestehend aus A und T. Die Eliminierung von solche
Serien von Nukleotiden enthaltenden Tags aus einem Satz von Tags
vermindert die Bildung von Sekundärstruktur in den ausgewählten Tags
in dem Satz von Tags. In manchen Ausführungsformen sind bestimmte
Serien gestattet, während
andere ausgeschlossen werden. Beispielsweise sind in einer Ausführungsform
Serien von 4 A/T- oder
G/C-Nukleotiden unzulässig.
-
In
vielen Ausführungsformen
sind Tags ausgeschlossen, die sich um weniger als etwa 80% der Gesamtzahl
an Nukleotiden, welche die Tags umfassen, unterscheiden. Beispielsweise
unterscheiden sich vorzugsweise alle ausgewählten Tags in einem ausgewählten Satz
von Tags um mindestens etwa 4–5
Nukleotide. Es ist ebenfalls wünschenswert,
Tags auszuschließen,
welche umfangreiche Regionen der Sequenzidentität gemeinsam haben, da die identischen
Regionen an Nukleinsäuren
kreuzhybridisieren können,
die eine zur identischen Region komplementäre Untersequenz aufweisen.
Beispielsweise werden 20-mer-Tags
typischerweise ausgeschlossen, sofern sie über Regionen von 9 oder mehr
Nukleotiden identisch sind.
-
Die
Tags in den Tagsätzen
der vorliegenden Erfindung unterscheiden sich typischerweise um
mindestens zwei Nukleotide, und vorzugsweise um 3–5 Nukleotide
für ein
typisches 20-mer. Eine Liste von Tags, welche sich um mindestens
zwei Nukleotide unterscheiden, kann durch paarweisen Vergleich eines
jeden Tags oder durch andere Verfahren erstellt werden. Beispielsweise
können
die Tagsequenzen für
maximale Korrespondenz ausgerichtet und Tags mit einer einzelnen
Fehlpaarung verworfen werden. In einer Kategorie von Ausführungsformen
wird die Anzahl von A + G-Nukleotiden in jeder der variablen Regionen
eines jeden Tags so ausgewählt,
dass sie gerade (oder alternativ ungerade) ist. So wird eine "Paritätsbase" oder "Error-Korrekturbase" bereitgestellt,
welche sicherstellt, dass jedes Tag mindestens zwei Hybridisierungsfehlpaarungen
zwischen jedem Tag in dem Satz von Tags und jeder einzelnen komplementären Nukleinsäuresonde
(außer
der Sonde, die ein perfektes Komplement zu dem Tag ist) aufweist.
Andere Verfahren zur Sicherstellung, dass mindestens zwei Fehlpaarungen
zwischen jedem Tag in einem Satz von Tags und jeder einzelnen Hybridisierungssonde
existieren, sind ebenfalls geeignet.
-
Im
Allgemeinen ermöglicht
die Auswahl der Nukleinsäuretags
die Auswahl der Nukleinsäuresonden, z.
B. auf VLSIPSTM-Arrays, welche zur Überwachung
der Nukleinsäuretags
durch Hybridisierung verwendet werden. Genauer gesagt werden die
Sonden auf dem Array hinsichtlich ihrer Fähigkeit ausgewählt, an
variable Sequenzen in dem Satz von Nukleinsäuretags zu hybridisieren (die "variable" Region eines Tags,
welches keine konstante Region einschließt, ist das gesamte Tag). Folglich
können
alle Regeln zur Auswahl von Nukleinsäuretags auf die Auswahl von
Nukleinsäuresonden
angewandt werden, z. B. mittels Durchführung der Schritte zur Tagauswahl
und nachfolgender Bestimmung des komplementären Satzes von Nukleinsäuresonden.
-
In
einer weiteren Kategorie von Ausführungsformen stellt die vorliegende
Offenbarung Zusammensetzungen umfassend Sätze von Nukleinsäuretags
einschließend
eine Vielzahl von Nukleinsäuretags
bereit. In bevorzugten Ausführungsformen
umfasst der Satz von Nukleinsäuretags
von 100 bis 100.000 Tags. Typischerweise wird ein Satz von Tags
zwischen etwa 500 und 15.000 Tags einschließen. Üblicherweise liegt die Anzahl von
Tags in einem Satz von Tags zwischen etwa 5.000 und etwa 14.000
Tags. In einer bevorzugten Ausführungsform
umfasst ein Satz von Tags gemäß der vorliegenden
Erfindung etwa 8.000 bis 9.000 Tags. Die Tagsequenzen umfassen typischerweise
eine variable Region, wobei die variable Region eines jeden Nukleinsäuretags
in dem Satz von Nukleinsäuretags
das gleiche Verhältnis
von G + C zu A + T, in etwa die gleiche Tm und die
gleiche Länge
aufweist und nicht an eine einzelne komplementäre Nukleinsäuresonde kreuzhybridisiert. Im
typischsten Fall können
die Nukleinsäuretags
in dem Satz von Nukleinsäuretags
nicht mit weniger als zwei Unterschieden zwischen jedem Paar von
Nukleinsäuretags
in dem Satz von Nukleinsäuretags
ausgerichtet werden, und oftmals existieren mindestens 5 Unterschiede
zwischen jedem Paar von Tags in einem Satz von Tags. In einer Ausführungsform
umfassen die Tags ebenfalls eine konstante Region, so wie eine PCR-Primerbindungsstelle
zur Amplifikation des Tags.
-
In
einer Kategorie von Ausführungsformen
stellt die vorliegende Offenbarung ein Verfahren zur Markierung
einer Zusammensetzung bereit, umfassend die Assoziierung eines Nukleinsäuretags
mit der Zusammensetzung, wobei das Nukleinsäuretag ausgewählt ist
aus einer Gruppe von Nukleinsäuretags,
welche nicht kreuzhybridisieren und welche eine im wesentlichen ähnliche
Tm aufweisen. Typischerweise werden die
Tagmarkierungen mit einem VLSIPSTM-Array
detektiert, welches zu den für
die Markierung der Zusammensetzung verwendeten Tags komplementäre Sonden
umfasst.
-
Wie
hierin beschrieben, schließen
bevorzugte Zusammensetzungen Bestandteile zellulärer, viraler oder molekularer
Bibliotheken ein, so wie rekombinante Zellen, rekombinante Viren
oder Polymere. Der Fachmann wird jedoch leicht erkennen, dass auch
andere Zusammensetzungen unter Verwendung der Nukleinsäuretags
markiert werden können
und dass die Tags unter Verwendung von VLSIPSTM-Arrays
detektiert werden können.
Beispielsweise können
Geldscheine von beträchtlichem
Wert mit einem Satz von Nukleinsäuretags markiert
werden und Fälschungen
können
durch Überwachung
der Hybridisierung beim Waschen der Scheine (oder z. B. bei einer
PCR-Amplifikation von angefügten
Nukleinsäuren,
welche Tagsequenzen kodieren) mit einem geeigneten VLSIPSTM-Array
detektiert werden.
-
In
einer weiteren Kategorie von Ausführungsformen stellt die vorliegende
Offenbarung Verfahren zur Vorauswahl von experimentellen Sonden
in einem Oligonukleotidsondenarray bereit, wobei die Sonden im Wesentlichen
einheitliche Hybridisierungseigenschaften aufweisen und nicht an
ein Zielnukleinsäuretag
kreuzhybridisieren. In diesen Verfahren wird ein den experimentellen
Sonden in dem Array gemeinsames Verhältnis von G + C- zu A + T-Nukleotiden ausgewählt und
alle in Frage kommenden 4-Nukleotid-Untersequenzen für die Sonden
auf dem Array werden bestimmt. Alle potentiellen Sonden des Arrays,
welche unzulässige
4-Nukleotid-Untersequenzen enthalten, werden von den experimentellen
Sonden des Arrays ausgeschlossen. 4-Nukleotid-Untersequenzen sind
dann unzulässig,
wenn die Nukleotid-Untersequenzen ausgewählt sind aus der Gruppe bestehend
aus selbstkomplementären
Sonden, A4-Sonden, T4-Sonden
und [G, C]4-Sonden. Auch im Falle, dass
das Zielnukleinsäuretag
eine konstante Region umfasst, sind alle Sonden, welche zu der Untersequenz
der konstanten Region des Zielnukleinsäuretags komplementär sind,
unzulässig
und sind nicht Bestandteil des Satz von Tags. Typischerweise wird
eine Länge
für die
Sonden des Arrays ausgewählt,
wenngleich nicht hybridisierende Abschnitte der Sonde (d.h. Nukleotide,
welche nicht an eine Zielnukleinsäure hybridisieren) gegebenenfalls
zwischen verschiedenen Klassen von Sonden variieren. "Experimentelle Sonden" hybridisieren an
ein Zielnukleinsäuretag,
während "Kontrollsonden" entweder nicht an
ein Zielnukleinsäuretag binden
oder an eine Nukleinsäure
binden, welche Hybridisierungseigenschaften aufweist, die sich von
denen der Zielnukleinsäuretags
in einem Satz von Nukleinsäuretags
unterscheiden. Beispielsweise werden Kontrollsonden gegebenenfalls
in VLSIPSTM-Arrays verwendet, um die Hybridisierungsstringenz
gegen eine bekannte Nukleinsäure
zu überprüfen.
-
In
einer Kategorie von Verfahren der vorliegenden Erfindung, welche
in Anspruch 2 spezifiziert ist, wird eine Vielzahl von Testnukleinsäuren gleichzeitig
in einer Probe detektiert. In diesen Verfahren wird ein Array von
experimentellen Sonden, welche unter stringenten Bedingungen nicht
an ein Target kreuzhybridisieren, verwendet, um die Zielnukleinsäuren zu
detektieren. Typischerweise ist das Verhältnis von G + C-Basen in jeder
experimentellen Sonde im Wesentlichen identisch. Die Sonden des
Arrays werden in Sondensätzen
angeordnet, wobei jeder Sondensatz eine homogene Population von
Oligonukleotidsonden umfasst. Beispielsweise werden viele einzelne
Sonden mit der gleichen Nukleotidsequenz zueinander benachbart in
einem bestimmten geometrischen Muster auf der Oberfläche eines
Arrays angeordnet. Sondensätze
werden zueinander benachbart zu einem Sondenarray angeordnet. Beispielsweise
werden, falls es sich bei dem Sondenarray um ein VLSIPSTM-Array
handelt, die Sondensätze
gegebenenfalls in Quadraten auf der Oberfläche eines Substrats angeordnet,
wodurch auf dem Substrat ein Schachbrettmuster aus Sondensätzen gebildet
wird.
-
Unter
stringenten Hybridisierungsbedingungen hybridisieren die Sonden
des Arrays spezifisch an mindestens eine Testnukleinsäure in der
Probe. Das Verfahren umfasst des Weiteren die Detektion der Hybridisierung
der Testnukleinsäuren
an das Array aus Oligonukleotidsonden. Typischerweise umfassen die
Testnukleinsäuren
Tagsequenzen, welche an die experimentellen Sonden des Arrays binden.
-
In
einer Kategorie von Ausführungsformen
stellt die vorliegende Offenbarung ein Array aus Oligonukleotidsonden
bereit umfassend eine Vielzahl von auf einem festen Substrat befestigten
experimentellen Oligonukleotidsondensätzen, wobei unter stringenten
Hybridisierungsbedingungen jeder experimentelle Oligonukleotidsondensatz
in dem Array an eine andere Zielnukleinsäure hybridisiert. Jede experimentelle
Oligonukleotidsonde in den Sondensätzen des Arrays umfasst eine
konstante Region und eine variable Region. Die variable Region kreuzhybridisiert
unter stringenten Hybridisierungsbedingungen nicht mit der konstanten
Region, und die Nukleinsäuresonden
kreuzhybridisieren nicht an Zielnukleinsäuren. Typischerweise unterscheiden sich
die Sonden aus jedem Sondensatz von den Sonden eines jeden anderen
Sondensatzes in dem Array hinsichtlich der Anordnung von mindestens
zwei Nukleotiden in den Sonden des Sondensatzes. Im allgemeinen ist
das Verhältnis
von G + C-Basen in jeder Sonde für
jeden experimentellen Sondensatz im Wesentlichen identisch (was
bedeutet, dass das G + C-Verhältnis
um nicht mehr als 5% variiert), was gewährleistet, dass sie unter ähnlichen
Hybridisierungsbedingungen an ein Target mit ähnlicher Reaktionsfreudigkeit
hybridisieren. Gegebenenfalls umfassen die Arrays Kontrollsonden,
z. B. um die Hybridisierungsbedingungen durch Überwachung der Bindung einer
bekannten quantifizierten Nukleinsäure an die Kontrollsonde zu
bewerten.
-
Die
vorliegende Offenbarung stellt Arrays aus auf festen Substraten
befestigten Oligonukleotiden bereit. Typischerweise werden die Oligonukleotidsonden
in dem Array an definierten Stellen in dem Array in Sondensätzen angeordnet,
um die Signalprozessierung der Hybridisierungsreaktionen zwischen
den Oligonukleotidsonden und den Testnukleinsäuren in einer Probe zu verstärken. Die
Oligonukleotidarrays können
praktisch jede Anzahl an verschiedenen Oligonukleotidsätzen aufweisen,
größtenteils
bestimmt durch die Anzahl oder Vielfalt der Testnukleinsäuren oder
Nukleinsäuretags,
welche in einer gegebenen Anwendung gegen das Array gescreent werden
sollen. In einer Kategorie von Ausführungsformen weist das Array
von 10 bis zu 100 Oligonukleotidsätze auf. In weiteren Kategorien
von Ausführungsformen
weisen die Arrays zwischen 100 und 100.000 Sätze auf. In bestimmten Ausführungsformen
weisen die Arrays zwischen 10.000 und 100.000 Sätze auf und in wiederum weiteren
Ausführungsformen
weisen die Arrays zwischen 100.000 und 1.000.000 Sätze auf.
Am meisten bevorzugte Ausführungsformen
werden zwischen 7.500 und 12.500 Sätze aufweisen. Beispielsweise
werden die Arrays in einer bevorzugten Ausführungsform etwa 8.000 Sätze von
Oligonukleotidsonden umfassen. In bevorzugten Ausführungsformen
wird das Array eine Dichte von mehr als 100 Sätzen von Oligonukleotiden an
bekannten Stellen pro cm2 aufweisen, oder
noch bevorzugter mehr als 1.000 Sätze pro cm2.
In manchen Ausführungsformen
weisen die Arrays eine Dichte von mehr als 10.000 Sätzen pro
cm2 auf.
-
Die
vorliegende Erfindung stellt ebenfalls Kits wie in Anspruch 1 spezifiziert
bereit. Kits der vorliegenden Erfindung umfassen jegliches Array
und einen Satz von Tags. Da die Verfahren zur Verwendung der Arrays
und Tags gegebenenfalls PCR, LCR und andere in vitro-Amplifikationstechniken
zur Amplifikation von Nukleinsäuretags
einschließen,
schließen
die Kits der vorliegenden Erfindung gegebenenfalls auch Reagenzien zur
Durchführung
von in vitro-Amplifikationsverfahren, so wie taq-Polymerase, Nukleotide,
Computersoftware mit Programmen zur Selektionierung von Tags und
dergleichen ein. Die Kits umfassen gegebenenfalls auch Reagenzien
zur Markierung von Nukleinsäuren,
Anleitungen, Behälter
und andere Gegenstände,
die für
den Fachmann beim weiteren Lesen offensichtlich sein werden.
-
Die
Erfindung wird durch die angehängten
Ansprüche
definiert.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
eine gescannte Darstellung eines 1,28 cm auf 1,28 cm Arrays mit
hoher Dichte, das mit einem fluoreszenzmarkierten Kontrolloligonukleotid
hybridisiert ist. Das Array enthält
Sequenzen, welche komplementär
zu 4.500 wie in Tabelle 1 beschrieben ausgewählten 20-mer-Tags sind. Die Kontrolloligonukleotide werden
in den Ecken und in einem Fadenkreuzmuster über das Array synthetisiert,
um die Einheitlichkeit der Synthese und der Hybridisierungsbedingungen
zu verifizieren. Die Kontrolloligonukleotide wurden ebenfalls mit "DNA TAGS" beschriftet. Die
dunklen Bereiche zeigen die Lage der 4.500 20-Basen-Molekulartags an.
Es ist zu beachten, dass keine Kreuzhybridisierung der Kontrolloligonukleotide
und der molekularen Tagsequenzen stattfindet.
-
2 zeigt
eine PCR-Targetingstrategie, welche verwendet wird, um mit Tags
versehene Deletionsstränge
zu erzeugen. (a) Der ORF (open reading frame) wird anhand der Sequenzinformation
aus der Datenbank identifiziert. Regionen, die den ORF unmittelbar
flankieren werden verwendet, um den Deletionsstrang zu erzeugen.
(b) Der selektierbare Marker (kanr) wird
unter Verwendung eines Paares von langen Primern amplifiziert, um
ein ORF-spezifisches Deletionskonstrukt zu erzeugen. Der stromaufwärts gelegene
86-mer-Primer besteht
aus (5' bis 3'): 30 Hefe-Homologie-Basen,
einer gemeinsamen 18-Basen-Tag- Primingstelle,
einem 20-Basen molekularen Tag und einer Sequenz von 22 Basen, welche
zu einer Seite des Markers homolog ist. Das stromabwärts gelegene
Oligonukleotid besteht aus 50 Basen von Hefehomologie zur anderen
Seite des anvisierten ORF und 16 Basen, welche homolog zur anderen
Seite des Markers sind. Die gestrichelte Linie, welche die langen
Oligonukleotide repräsentiert,
zeigt, dass die Primer ungereinigt sind und dass an ihrem 5'-Ende eine Sequenz fehlt. (c) Ein zweiter
PCR-Durchgang mit 20-meren, welche zu den Enden des ursprünglichen
PCR-Produkts homolog waren, wurde verwendet, um die zerfetzten Enden,
welche von ungereinigtem Oligonukleotid im ersten Durchgang verursacht
wurden, "wegzuspülen". (d) Der auf beiden
Seiten von Hefe-ORF-Homologie flankierte resultierende Marker wird
direkt in haploiden Hefestrang transformiert und eine homologe Rekombination
führt zu
einer Ersetzung des anvisierten ORF durch den Marker, das 20-mer-Tag
und die Tag-Primingstelle.
-
3 zeigt
Oligonukleotide, welche verwendet werden, um den mit einem ADE1-Tag
versehenen Deletionsstrang zu erzeugen. Ähnliche Sätze von Oligonukleotiden wurden
für die
anderen zehn auxotrophen ORFs synthetisiert.
-
4 zeigt
die Transformationsergebnisse und die Taginformation für elf auxotrophe
ORFs. Mittels Replika-Plattierung und PCR wurden acht Kolonien aus
jeder Transformation analysiert. Die daraus resultierende Targeting-Effizienz
ist für
jeden der ORFs gezeigt. Für
die molekularen Tags, welche zur eindeutigen Markierung der verschiedenen
Deletionsstränge
verwendet wurden, sind die Sequenz und die x, y-Koordinaten gezeigt.
-
5 zeigt
die in Beispiel 1 beschriebene Tag-Amplifikationsstrategie. (a)
Es wurde ein Deletionspool erzeugt, indem gleiche Anzahlen der elf
in 3 beschriebenen mit Tags versehenen Deletionsstränge kombiniert
wurden. Aus einem repräsentativen
Aliquot des Pools isolierte genomische DNA wurde als Template für eine Tag-Amplifikationsreaktion
verwendet. (b) Die Tags wurden amplifiziert unter Verwendung eines
einzelnen Primerpaares, welches homolog ist zu den gemeinsamen Primingstellen,
die jedes Tag flankieren. Einer der gemeinsamen Primer ist mit 5'-Fluoreszein markiert
und beinhaltete einen 10-fachen Überschuss
gegenüber dem
unmarkierten Primer. (c) Die asymmetrische Natur der PCR erzeugt
eine Population von einzelsträngigen fluoreszenzmarkierten
60-mer-Tag-Amplikons, welche direkt an das 20-mer-Array mit hoher
Dichte hybridisiert sind, welches dann gewaschen und gescannt wird.
(d) Ein reales gescanntes Bild des Arrays zeigt das (vorausgesagte)
Hybridisierungsmuster für
die Tags mit praktisch keiner Kreuzhybridisierung auf dem Rest des Chips.
Eine vergrößerte Ansicht
der linken Ecke zeigt die Lage der Tags für jeden der unterschiedlichen
Deletionsstränge.
-
6 zeigt die Analyse eines Deletionspools
enthaltend 11 mit Tags versehene auxotrophe Deletionsstränge. Es
wurde ein Deletionspool erzeugt, indem gleiche Anzahlen von Zellen aus
jedem der 11 in 3 beschriebenen Deletionsstränge kombiniert
wurden. Repräsentative
Aliquots wurden in (A) kompletten Medien (SDC), (B) in Medien ohne
Adenin (SDC-ADE), (C) oder in Medien ohne Tryptophan (SDC-TRP) gezüchtet. Die
Zellen wurden zu den angegebenen Zeitpunkten geerntet und genomische
DNA wurde isoliert. Die Tags wurden aus der genomischen DNA amplifiziert
und markierte Amplikons wurden für
30 Minuten direkt an das Array mit hoher Dichte hybridisiert, gewaschen
und gescannt. Eine Vergrößerung der
oberen linken Ecke ist für
jeden der Scans gezeigt.
-
DEFINITIONEN
-
Sofern
nicht anderweitig definiert, haben die hierin verwendeten technischen
und naturwissenschaftlichen Fachbegriffe die gleiche Bedeutung,
wie sie gemeinhin von einem Fachmann auf dem Gebiet der vorliegenden
Erfindung verstanden wird. Singleton et al. (1994) Dictionary of
Microbiology and Molecular Biology, zweite Auflage, John Wiley and
Sons (New York), und March (March, Advanced Organic Chemistry Reactions, Mechanisms
and Structure, 4. Aufl., J. Wiley and Sons (New York, 1992), liefern
dem Fachmann einen allgemeinen Leitfaden für viele der in der vorliegenden
Erfindung verwendeten Begriffe.
-
Wenngleich
der Fachmann erkennen wird, dass es viele Verfahren und Materialien
zur möglichen
Verwendung bei der praktischen Durchführung der vorliegenden Erfindung
gibt, die den hierin beschriebenen ähnlich oder gleichwertig sind,
so werden dennoch die bevorzugten Verfahren und Materialien beschrieben.
Für die
Zwecke der vorliegenden Erfindung werden nachstehend die folgenden
Begriffe definiert.
-
"Eukaryotische" Zellen sind Zellen,
welche zumindest einen Nukleus enthalten, in dem die genomische
DNA der Zelle organisiert ist, oder welche differenzierte Abkömmlinge
von Zellen sind, die zumindest einen Nukleus enthielten. Eukaryoten
unterscheiden sich von Prokaryoten, welche zelluläre Organismen
sind, die ihre genomische DNA im Zytoplasma der Zelle tragen.
-
Ein "Nukleosid" ist ein Pentoseglykosid,
in welchem das Aglykon eine heterozyklische Base ist; beim Hinzufügen einer
Phosphatgruppe wird die Verbindung zu einem Nukleotid. Die bedeutendsten
biologischen Nukleoside sind β-Glykosidderivate
von D-Ribose oder D-2-Desoxyribose.
Nukleotide sind Phosphatester von Nukleosiden, welche aufgrund ihrer
Hydroxygruppen auf dem Phosphat azidisch sind. Die polymerisierten
Nukleotide Desoxyribonukleinsäure
(DNA) und Ribonukleinsäure
(RNA) speichern die genetische Information, welche alle Aspekte
der Interaktion eines Organismus mit seiner Umgebung steuert. Die
Nukleoside von DNA und RNA sind über
Phosphateinheiten, welche an der 3- Position einer bestimmten Pentose und
der 5-Position der nächsten
Pentose befestigt sind, miteinander verbunden.
-
Eine "Nukleinsäure" ist ein Desoxyribonukleotid-
oder Ribonukleotidpolymer in entweder einzel- oder doppelsträngiger Form
und umfasst, soweit nicht anderweitig beschränkt, bekannte Analoga von natürlichen Nukleotiden,
die in ähnlicher
Weise funktionieren wie natürlich
vorkommende Nukleotide.
-
Ein "Oligonukleotid" ist ein Nukleinsäurepolymer,
welches aus zwei oder mehr Nukleotiden oder Nukleotidanaloga zusammengesetzt
ist. Ein Oligonukleotid kann aus natürlichen Quellen derivatisiert
werden, wird aber oftmals chemisch synthetisiert. Es kann eine beliebige
Größe aufweisen.
-
Ein "Oligonukleotidarray" ist ein räumlich definiertes
Muster von Oligonukleotidsonden auf einem festen Träger. Ein "präselektioniertes
Array aus Oligonukleotiden" ist
ein Array aus räumlich
definierten Oligonukleotiden auf einem festen Träger, der vor seiner Konstruktion
geplant wird (d.h. die Anordnung von Polymeren auf einem/dem festen
Substrat während
der Synthese ist nicht zufällig,
sondern beabsichtigt).
-
Ein
in der standardgemäßen automatisierten
Oligonukleotidsynthese verwendetes "Nukleinsäurereagens" trägt
typischerweise ein geschütztes
Phosphat auf dem 3'-Hydroxyl
der Ribose. Folglich werden Nukleinsäurereagenzien als Nukleotide,
Nukleotidreagenzien, Nukleosidreagenzien, Nukleosidphosphate, Nukleosid-3'-Phosphate, Nukleosidphosphoramidite,
Phosphoramidite, Nukleosidphosphonate, Phosphonate und dergleichen
bezeichnet. Es wird im Allgemeinen verstanden, dass Nukleotidreagenzien
eine geschützte
Phosphatgruppe tragen, um eine Phosphodiester-Kopplung zu bilden.
-
Eine "Schutzgruppe", wie hierin verwendet,
bezeichnet eine jede der Gruppen, welche dafür vorgesehen sind, eine reaktive
Stelle in einem Molekül
zu blockieren während
eine chemische Reaktion an einer anderen reaktiven Stelle durchgeführt wird.
Genauer gesagt kann es sich bei den hierin verwendeten schützenden
Gruppen um eine jede der Gruppen handeln, welche beschrieben sind
in Greene, et al., Protective Groups In Organic Chemistry, 2. Aufl.,
John Wiley & Sons,
New York, NY, 1991, welches hierin durch Bezugnahme einbezogen ist.
Die korrekte Auswahl von schützenden
Gruppen für
eine bestimmte Synthese wird durch die insgesamt in der Synthese
angewandten Verfahren bestimmt. Beispielsweise handelt es sich bei
den schützenden
Gruppen bei der hierin besprochenen "lichtgesteuerten" Synthese typischerweise um photolabile Schutzgruppen
so wie NVOC, MeNPoc sowie die Gruppen, welche in der ebenfalls anhängigen Anmeldung PCT/US93/10162
(eingereicht am 22. Oktober 1993), hierin durch Bezugnahme einbezogen,
offenbart sind. In anderen Verfahren werden Schutzgruppen durch
chemische Verfahren entfernt und schließen Gruppen ein wie FMOC, DMT
und andere dem Fachmann bekannte Gruppen.
-
Ein "festes Substrat" weist eine fixierte
organisatorische Trägermatrix
auf, so wie Siliziumdioxid, Polymermaterialien oder Glas. In manchen
Ausführungsformen
ist mindestens eine Oberfläche
des Substrats partiell eben. In anderen Ausführungsformen ist es wünschenswert,
Bereiche des Substrats physikalisch voneinander zu trennen, um Synthesebereiche
abzugrenzen, z. B. durch Furchen, Rillen, Wells oder dergleichen. Beispiele
für feste
Substrate schließen
Slides, Beads und polymere Chips ein. Ein fester Träger wird "funktionalisiert", um die Kopplung
von bei der Polymersynthese verwendeten Monomeren zu gestatten.
Beispielsweise wird ein fester Träger gegebenenfalls durch eine
kovalente Kopplung an den 3'-Kohlenstoff
auf einer Furanose an ein Nukleosidmonomer gekoppelt. Typischerweise
sind feste Trägermaterialien
während
der Polymersynthese nicht reaktiv und stellen so einer Grundlage
zur Verankerung des wachsenden Polymers bereit. Feste Trägermaterialien
schließen
ein, sind jedoch nicht beschränkt
auf, Glas, Siliziumdioxid, poröses
Glas ("controlled
pore glass" CPG),
Polystyrol, Polystyrol/Latex und mit Carboxyl modifiziertes Teflon.
Die festen Substrate sind biologisch, nicht-biologisch, organisch,
anorganisch oder eine beliebige Kombination daraus; sie liegen vor
als Partikeln, Stränge,
Niederschläge,
Gels, Sheets, Röhren,
Kugeln, Container, Kapillaren, Pads, Filme, Platten, Objektträger etc.,
je nach ihrer spezifischen Verwendung. Bei lichtgesteuerten Syntheseverfahren ist
das feste Substrat oft eben, nimmt aber gegebenenfalls alternative
Oberflächenkonfigurationen
an. Beispielsweise enthält
das feste Substrat gegebenenfalls erhöhte oder vertiefte Bereiche,
auf welchen die Synthese stattfindet. In manchen Ausführungsformen
ist das feste Substrat so ausgewählt,
dass es geeignete Lichtabsorptionseigenschaften aufweist. Beispielsweise
kann es sich bei dem Substrat handeln um einen polymerisierten Langmuir-Blodgett-Film,
funktionalisiertes Glas, Si, Ge, GaAs, GaP, SiO2,
SiN4, modifiziertes Silizium oder jegliches
aus einer Vielzahl von Gels oder Polymeren, so wie (Poly-) Tetrafluorethylen,
(Poly-) Vinylidendifluorid, Polystyrol, Polycarbonat oder Kombinationen
davon. Andere geeignete Materialien für feste Substrate werden für den Fachmann
leicht offensichtlich sein. Vorzugsweise wird die Oberfläche des
festen Substrats reaktive Gruppen so wie Carboxyl, Amino, Hydroxyl,
Thiol und dergleichen enthalten. Noch mehr bevorzugt ist die Oberfläche optisch
transparent und weist Oberflächen-Si-OH-Funktionalitäten auf,
so wie sie auf Siliziumdioxidoberflächen vorzufinden sind. Ein
Substrat ist ein Material mit einer starren oder halbstarren Oberfläche. In
Spritz- oder Fließ-VLSIPSTM-Techniken
ist gegebenenfalls mindestens eine Oberfläche auf dem festen Substrat
eben, wenngleich es in vielen Ausführungsformen wünschenswert
ist, Synthesebereiche für verschiedene
Polymere z. B. durch Wells, erhöhte
Bereiche, geätzte
Furchen oder dergleichen physikalisch abzutrennen. In manchen Ausführungsformen
enthält
das Substrat selbst Wells, Furchen, Durchflussbereiche etc, welche
die Bereiche, auf denen die Polymersynthese stattfindet, ganz oder
partiell ausmachen.
-
In
Bezug auf eine Zelle oder ein Virus verwendet, zeigt der Begriff "rekombinant" an, dass die Zelle oder
das Virus eine DNA oder RNA kodiert, deren Ursprung außerhalb
der Zelle oder des Virus liegt. Folglich exprimieren rekombinante
Zellen z. B. gegebenenfalls Nukleinsäuren (z. B. RNA), welche in
der nativen (nicht-rekombinanten) Form der Zelle nicht vorzufinden
sind.
-
"Stringente" Hybridisierungsbedingungen
sind sequenzabhängig
und werden bei verschiedenen Umgebungsparametern (Salzkonzentrationen),
Anwesenheit von organischen Substanzen, etc.) unterschiedlich sein.
Im Allgemeinen werden stringente Bedingungen so ausgewählt, dass
sie bei einer definierten Ionenstärke und definiertem pH-Wert
etwa 5°C
bis 20°C
niedriger als der thermische Schmelzpunkt (Tm)
der spezifischen Nukleinsäuresequenz
sind. Vorzugsweise sind stringente Bedingungen etwa 5°C bis 10°C niedriger
als der thermische Schmelzpunkt für eine spezifische Nukleinsäure, welche
an eine komplementäre
Nukleinsäure gebunden
ist. Tm ist die Temperatur (bei definierter
Ionenstärke
und definiertem pH-Wert), bei der 50% einer Nukleinsäure (z.
B. Tagnukleinsäure)
an eine perfekt gepaarte Sonde hybridisieren. Die "thermische Bindungsstabilität" ist ein Maß für die temperaturabhängige Stabilität eines
Nukleinsäureduplexes
in Lösung.
Die thermische Bindungsstabilität
für ein
Duplex hängt
ab von dem Lösungsmittel,
der Basenzusammensetzung des Duplexes, der Anzahl und dem Typ von
Basenpaaren, der Position von Basenpaaren in dem Duplex, der Länge des
Duplexes und dergleichen.
-
"Stringente" Waschbedingungen
werden für
gewöhnlich
für die
Hybridisierung eines jeden Satz von Tags an ein korrespondierendes
Sondenarray empirisch bestimmt. Die Arrays werden zunächst hybridisiert
(typischerweise unter stringenten Hybridisierungsbedingungen) und
dann mit Puffern gewaschen, welche immer geringer werdende Konzentrationen
von Salzen und/oder immer höher
werdende Konzentrationen an Detergenzien und/oder steigende Temperaturen
aufweisen, bis der Störabstand
zwischen spezifischer und nichtspezifischer Hybridisierung ausreichend
groß ist,
um die Detektion der spezifischen Hybridisierung zu erleichtern.
-
Stringente
Temperaturbedingungen schließen üblicherweise
Temperaturen über
etwa 30°C,
noch gebräuchlicher über etwa
37°C und
gelegentlich über
etwa 45°C
ein. Stringente Salzbedingungen sind normalerweise geringer als
etwa 1.000 mM, üblicherweise
geringer als etwa 500 mM, noch gebräuchlicher geringer als etwa
400 mM, typischerweise geringer als etwa 300 mM, bevorzugt geringer
als etwa 200 mM und noch mehr bevorzugt geringer als etwa 150 mM.
Die Kombination der Parameter ist jedoch wichtiger als die Größe eines beliebigen
einzelnen Parameters. Siehe z. B. Wetmur und Davidson (1968) J.
Mol. Biol. 31: 349-370 und Wetmur (1991) Critical Reviews in Biochemistry
and Molecular Biology 26(3/4), 227-259.
-
Der
Begriff "identisch" im Zusammenhang
mit zwei Nukleinsäuresequenzen
bezieht sich auf die Reste in den beiden Sequenzen, welche bei einer
Ausrichtung für
maximale Korrespondenz gleich sind. Die optimale Ausrichtung der
Sequenzen zum Vergleich kann z. B. durchgeführt werden mittels des Homologielokalenalgorithmus
von Smith und Waterman, Adv. Appl. Math. 2: 482 (1981), mittels
des Homologieausrichtungsalgorithmus von Needleman und Wunsch, J.
Mol. Biol. 48: 443 (1970), mittels des Ähnlichkeitensuchverfahrens
von Pearson und Lipman, Proc. Natl. Acad. Sci. (U.S.A.) 85: 2444
(1988), mittels computerisierter praktischer Umsetzungen dieser
Algorithmen (GAP, BESTFIT, FASTA und TFASTA im Wisconsin Genetics
Software Paket, Genetics Computer Group, 575 Science Dr., Madison,
WI), oder mittels Kontrolle.
-
Ein
Nukleinsäure "tag" ist eine ausgewählte Nukleinsäure mit
einer spezifizierten Nukleinsäuresequenz.
Eine Nukleinsäure "sonde" hybridisiert an
einen Nukleinsäure "tag". In einer typischen
Konfiguration werden Nukleinsäuretags
als Markierungen in biologische Bibliotheken eingebaut und die Nukleinsäuretags werden
unter Verwendung eines VLSIPSTM-Arrays aus
Sonden detektiert. Folglich funktioniert der Nukleinsäure "tag" in analoger Weise
wie eine Barcodemarkierung und das VLSIPSTM-Array
aus Sonden funktioniert in analoger Weise wie ein Barcodemarkierungslesegerät. Eine "Liste von Nukleinsäuretags" ist ein Pool von
Nukleinsäuretags
oder eine Darstellung (d.h. in elektronischer oder gedruckter Form)
der Sequenzen in dem Pool von Nukleinsäuretags. Der Pool von Tags
kann z. B. aus allen in Frage kommenden Tags einer spezifizierten Länge (d.h.
alle 20-mere) oder einer Teilmenge davon bestehen.
-
Ein
Satz von Nukleinsäuretags
bindet mit "minimaler
Kreuzhybridisierung" an
eine Sonde, wenn eine einzelne Spezies (oder ein "Typ") von Tag in dem
Satz von Tags die Mehrheit aller Tags ausmacht, welche unter stringenten
Bedingungen an ein Array umfassend eine Sondenspezies binden. Typischerweise
sind unter stringenten Bedingungen etwa 80% oder mehr der an die
Sondenspezies gebundenen Tags von einer einzigen Spezies. Üblicherweise
sind unter stringenten Bedingungen etwa 90% oder mehr der an die
Sondenspezies gebundenen Tags von einer einzigen Spezies. Bevorzugt
sind unter stringenten Bedingungen 95% oder mehr der an die Sondenspezies
gebundenen Tags von einer einzigen Spezies.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
Die
vorliegende Offenbarung stellt Verfahren zu Auswahl und Detektion
von Sätzen
von Nukleinsäuretags
bereit. Zusätzlich
stellt die vorliegende Offenbarung Arrays aus Nukleinsäuresonden
zur Detektion von Nukleinsäuretags,
Sätzen
von Nukleinsäuretags
und Zellen, welche Nukleinsäuretags
umfassen, bereit. Die Nukleinsäuretags, Nukleinsäuresondenarrays
und mit Nukleinsäuretags
transformierten Zellen finden eine Vielzahl von Verwendungen. Am
gebräuchlichsten
werden die Nukleinsäuretags
der vorliegenden Erfindung verwendet, um Zellen mit bekannten genotypischen
Markern zu markieren (Mutanten, Polymorphismen etc.) und um die
Auswirkung von Veränderungen
in der Umgebung auf die Lebensfähigkeit
der mit Tags versehenen Zellen zu verfolgen.
-
Beispielsweise
wurden bei Abschluss der Sequenzierung von S. cerevisiae Tausende
von offenen Leserahmen (ORFs) identifiziert. Eine Strategie zur
Bestimmung der Funktion der identifizierten ORFs ist es, Deletionsmutanten
für jeden
ORF zu kreieren und danach die resultierenden Deletionsmutanten
unter einer großen
Vielzahl von selektiven Bedingungen zu analysieren. Typischerweise
ist es das Ziel einer solchen Analyse, einen Phänotypen zu bestimmen, welcher
die Funktion des fehlenden ORF aufzeigt. Würde die Analyse für jede Deletionsmutante
in einem separaten Experiment durchgeführt, so wären sowohl der Zeit- als auch
der Kostenaufwand zur Überwachung
der Auswirkung einer Veränderung
eines Umgebungsparameters auf jede Deletionsmutante viel zu groß. Beispielsweise
würden
zur Identifizierung der ORFs, welche zur Synthese einer Aminosäure notwendig
sind, alle der Tausenden von ORF-Deletionsmutanten einzeln auf die
Fähigkeit
der Mutante getestet werden, in Medien ohne die betreffende Aminosäure zu wachsen.
Selbst wenn die Analyse parallel durchgeführt würde, z. B. unter Verwendung
von 96-Well-Platten, so wäre
der erforderliche Aufwand zur Plattierung, Organisation, Markierung
und Verfolgung eines jeden Klons viel zu groß. Die vorliegende Erfindung
stellt eine wesentlich kostengünstigere
Vorgehensweise für
das Screening von Zellen bereit.
-
In
den Verfahren der vorliegenden Erfindung können alle der zuvor beschriebenen
Tausenden von Deletionsmutanten parallel in einem einzigen Experiment
getestet werden. Die Deletionsmutanten werden jeweils mit einem
Nukleinsäuretag
versehen und die Deletionsmutanten werden dann gepoolt. Die gepoolten,
mit Tags versehenen Deletionsmutanten werden dann gleichzeitig hinsichtlich
ihrer Antwort auf einen Umgebungsreiz getestet (z. B. Wachstum in
Medium, welchem eine Aminosäure
fehlt). Die deletionszellenspezifischen Tags werden dann unter Verwendung
eines Sondenarrays, so wie eines VLSIPSTM-Arrays,
ausgelesen. Analog agieren die deletionszellenspezifischen Nukleinsäuretags
folglich als Barcode-Markierungen für die Zellen und das VLSIPSTM-Array agiert als ein Barcodelesegerät.
-
Während das
zuvor genannte Beispiel spezifisch die Markierung von Hefezellen
diskutiert, wird der Fachmann leicht erkennen können, dass im wesentlichen
jeder Zelltyp mit den erfindungsgemäßen Nukleinsäuretags
markiert werden kann, einschließlich
Prokaryoten, Eukaryoten und Archebakterien. Auch kann im Wesentlichen
jedes Virus in ähnlicher
Weise markiert werden, ebenso wie zelluläre Organellen mit Nukleinsäuren (Mitochondrien,
Chloroplasten, etc.). Genau genommen ist die Markierung mittels
Nukleinsäuretags
und die Detektion mittels Sondenarrays in keiner Weise auf biologische
Materialien beschränkt.
Der Fachmann wird erkennen, dass viele andere Zusammensetzungen
ebenfalls mittels Nukleinsäuretags
markiert und mittels Sondenarrays detektiert werden können. Im
wesentlichen kann alles, was von der Anfügung einer Markierung profitiert,
markiert und mittels der Tags, Arrays und Verfahren der vorliegenden
Erfindung detektiert werden. Beispielsweise können große Geldscheine, Originalkunstwerke,
wertvolle Briefmarken, bedeutende juristische Dokumente so wie Testamente,
Besitzurkunden und Verträge
mit Nukleinsäuretags
markiert und die Tags unter Verwendung von Sondenarrays ausgelesen
werden. Verfahren zur Befestigung an und Abtrennung von vielen Substraten
sind in der Technik wohlbekannt, einschließend Glas, Polymere, Papier,
Keramik und dergleichen, und diese Techniken können bei den Nukleinsäuretags
der vorliegenden Erfindung angewandt werden.
-
Der
Fachmann wird ebenfalls anerkennen, dass, während viele der Beispiele hierin
die Verwendung eines einzelnen Nukleinsäuretags zur Markierung einer
Zelle beschreiben, auch multiple Tags zur Markierung einer jeglichen
Zelle verwendet werden können,
z. B. durch Klonierung multipler Nukleinsäuretags in die Zelle. In ähnlicher
Weise können
multiple Nukleinsäuretags
verwendet werden, um eine Substanz, so wie die zuvor beschriebenen,
zu markieren. Tatsächlich
werden multiple Markierungen typischerweise bevorzugt, wenn der Zweck
der Nukleinsäuretags
die Entdeckung von Fälschungen
ist. Beispielsweise können
die Nukleinsäuretags
der vorliegenden Offenbarung verwendet werden, um einen großen Geldschein
mit Hunderten oder gar Tausenden von individuellen Tags zu markieren,
so dass die Visualisierung des Hybridisierungsmusters der Tags auf
einem VLSIPSTM-Array verifiziert, dass der
Geldschein echt ist.
-
Der
Fachmann wird ebenfalls erkennen, dass es nicht notwendig ist, ein
Tag direkt an ein Sondenarray zu hybridisieren, um den im Wesentlichen
gleichen Effekt zu erzielen. Beispielsweise werden Nukleinsäuretags
optional (und bevorzugt) z. B. mittels PCR oder LCR oder anderer
bekannter Amplifikationstechniken amplifiziert und die Amplifikationsprodukte
("Amplikons") an das Array hybridisiert.
Beispielsweise schließt
ein Nukleinsäuretag
optional PCR-Primer-Bindungsstellen ein, oder befindet sich in deren
Nähe, welche,
wenn sie unter Verwendung von standardgemäßen PCR-Techniken amplifiziert
werden, das Nukleinsäuretag
oder eine Untersequenz davon amplifizieren. Folglich können Zellen
oder andere mit Tags versehene Objekte selbst dann detektiert werden,
wenn die Nukleinsäuretags
in nur sehr geringen Mengen vorhanden sind. Der Fachmann wird erkennen,
dass ein einzelnes Molekül
eines Nukleinsäuretags
nach der Amplifikation, z. B. mittels PCR, leicht detektiert werden
kann. Die Verminderung der Komplexität der Amplifikation einer ausgewählten Mischung
von Tags (d.h. es liegen im Vergleich zu einem Pool genomischer
DNA relativ wenige Amplikon-Nukleinsäurespezies vor) erleichtert
die Analyse des Gemischs von Tags.
-
In
einer bevorzugten Ausführungsform
werden die Tags so ausgewählt,
dass jedem ausgewählten
Tag ein komplementäres
ausgewähltes
Tag zugeordnet ist. Wird ein Tag z. B. in einen Organismus kloniert,
so kann das Tag mittels LCR, PCR oder anderer Amplifikationsverfahren
amplifiziert werden. Das amplifizierte Tag ist oftmals doppelsträngig. In
bevorzugten Ausführungsformen
werden Tagsätzen,
welche komplementäre
Tagsätze
einschließen,
korrespondierende Sonden für
jedes komplementäre
Tag zugeordnet. Beide Stränge
eines doppelsträngigen
Tag-Amplifikationsprodukts werden von dem Sondenarray separat überwacht.
Die Hybridisierung eines jeden der Stränge des doppelsträngigen Tags
bietet unabhängiges
Auslesen hinsichtlich der An- oder Abwesenheit des Nukleinsäuretags
in einer Probe.
-
Auswahl von Tag-Nukleinsäuren.
-
Die
vorliegende Offenbarung stellt Methoden zur Auswahl von Nukleinsäuretagsätzen bereit,
welche zweckmäßig zur
Markierung von Zellen und anderen Zusammensetzungen sind, wie zuvor
beschrieben. Die durch die Auswahlmethoden bereitgestellten Tagsätze weisen
einheitliche Hybridisierungseigenschaften auf (d.h. eine ähnliche
thermische Bindungsstabilität
an komplementäre
Nukleinsäuren),
wodurch sich die Tagsätze
zur Detektion mittels VLSIPSTM- und anderer
Sondenarrays, so wie Southern oder Northern Blots, eignen. Da die
Hybridisierungseigenschaften der Tags einheitlich sind, können alle
Tags in dem Satz typischerweise unter Verwendung eines einzigen
Satzes von Hybridisierungs- und Waschbedingungen detektiert werden.
Wie in den nachfolgenden Beispielen beschrieben, wurden verschiedene
Auswahlverfahren verwendet, um Listen von etwa 10.000 geeigneten
20-mer-Nukleinsäuretags
aus allen in Frage kommenden 20-mer-Sequenzen (etwa 1,200,000,000,000) zu
erstellen. Die Synthese eines einzigen Arrays mit 10.000 zu den
10.000 Nukleinsäuretags
komplementären
Sonden (d.h. zur Detektion der Tags) wurde unter Verwendung von
standardgemäßen VLSIPSTM-Techniken durchgeführt, um ein VLSIPSTM-Array
herzustellen.
-
Wünschenswerte
Nukleinsäuretags
weisen verschiedene Eigenschaften auf. Diese schließen unter anderem
ein, dass die Hybridisierung der Tags an ihre komplementäre Sonde
(d.h. in dem VLSIPSTM-Array) stark und einheitlich
ist, dass einzelne Tags nur an ihre komplementären Sonden hybridisieren und
nicht signifikant mit zu anderen Sequenztags komplementären Sonden
kreuzhybridisieren und dass, falls es mit den Tags assoziierte konstante
Regionen gibt (z. B. Klonierungsstellen oder PCR-Primer-Bindungsstellen),
die konstanten Regionen nicht an einen korrespondierenden Sondensatz
hybridisieren. Weist der ausgewählte Satz
von Tags die beschriebenen Eigenschaften auf, so kann jede beliebige
Mischung von Tags an ein korrespondierendes Array hybridisiert werden
und die Abwesenheit oder Anwesenheit des Tags kann eindeutig bestimmt
und quantifiziert werden. Ein weiterer Vorteil eines solchen Satz
von Tagses besteht darin, dass das Ausmaß der Bindung eines jeden Satz
von Tagses quantifiziert werden kann, was das relative Verhältnis jedes beliebigen
individuellen Nukleinsäuretags
zu jedem beliebigen anderen Nukleinsäuretag in dem Satz von Tags anzeigt.
-
Die
zuvor umrissenen Eigenschaften werden durch das Befolgen einiger
oder aller der nachstehend aufgeführten Auswahlschritte zur Selektionierung
von Tagsequenzmerkmalen erhalten.
- (1) Bestimmung
aller in Frage kommenden Nukleinsäuretags einer ausgewählten Länge oder
mit ausgewählten
Hybridisierungseigenschaften. Wenngleich die nachstehenden Beispiele
zum Zwecke der Veranschaulichung Methoden zur Auswahl von Tags aus
Tagpools einer einzigen Länge
bereitstellen, so wird der Fachmann doch erkennen, dass die Tags
verschiedene Längen
aufweisen können,
z. B. in Fällen,
in denen die Tags die gleichen (oder sehr ähnliche) Schmelztemperaturen
gegen perfekt komplementäre
Targets aufweisen. Der Fachmann wird ebenfalls erkennen, dass je
nach Anwendung eine Teilmenge aller in Frage kommenden Tags verwendet
werden kann. Werden die Tags dazu verwendet, einen Organismus zu
detektieren, können
z. B. 20-mere, welche nicht in dem Genom des Organismus vorkommen,
als Ausgangspunkt für
einen Pool von in Frage kommenden Nukleinsäuretags verwendet werden. Beispielsweise
ist das gesamte Genom von S. cerevisiae verfügbar. Werden Tags in den Organismus
kloniert, so ist es bevorzugt, alle 20-mere, welche natürlich in
dem Genom vorkommen, von der Erwägung
als Tagsequenzen auszuschließen,
damit eingeführte
Tagsequenzen in Hybridisierungsassays nicht mit endogenen Sequenzen
verwechselt werden.
Die Auswahl der Länge des Nukleinsäuretags
hängt von
den gewünschten
Hybridisierungs- und
Diskriminierungseigenschaften des Sondenarrays zur Detektion des
Tags ab. Im Allgemeinen gilt: je länger das Tag, desto größer die
Stringenz der Hybridisierungen und des Waschens der hybridisierten
Nukleinsäuren
auf dem Array. Längere
Tags werden jedoch nicht genauso leicht auf dem Array diskriminiert,
da eine einzige Fehlpaarung auf einem langen Nukleinsäureduplex
eine weniger destabilisierende Auswirkung auf die Hybridisierung
hat als eine einzelne Fehlpaarung auf einem kurzen Nukleinsäureduplex.
Es wird vorausgesetzt, dass der Fachmann mit der Theorie und Praxis
der Nukleinsäurehybridisierung
an ein Nukleinsäurearray
umfassend vertraut ist. Zusätzlich
zu den Patenten und der vorstehend zitierten Literatur bezüglich der
Synthese von VLSIPSTM-Arrays, stellen Gait, ed. Oligonucleotide
Synthesis: A Practical Approach, IRL Press, Oxford (1984); W.H.A.
Kuijpers, Nucleic Acids Research 18(17), 5197 (1994); K.L. Dueholm,
J. Org. Chem. 59, 5767-5773 (1994); S. Agrawal (ed.), Methods in
Molecular Biology, Band 20 und Tijssen, (1993) Laboratory Techniques
in biochemistry and molecular biology- hybridization with nucleic acid probes,
z. B. Teil I, Kapitel 2 "overview
of principles of hybridization and the strategy of nucleic acid
probe assays", Elsevier,
New York, einen grundlegenden Leitfaden zur Nukleinsäurehybridisierung
bereit.
Im typischsten Fall weisen Tags eine Länge zwischen
8 und 100 Nukleotiden und vorzugsweise zwischen etwa 10 und 30 Nukleotiden
auf. Am meisten bevorzugt weisen die Tags eine Länge zwischen 15 und 25 Nukleotiden
auf. Beispielsweise weisen die Nukleinsäuretags in einer bevorzugten
Ausführungsform
eine Länge
von etwa 20 Nukleotiden auf.
- (2) Die Tags werden so ausgewählt, dass keine Komplementarität zwischen
einer beliebigen Sonde in einem Array, welches zur Hybridisierung
an den Satz von Tags selektioniert wurde, und einer beliebigen konstanten
Tagregion vorliegt (konstante Tagregionen werden optional bereitgestellt,
um Primerbindungsstellen zu liefern, z. B. zur PCR-Amplifikation
des Restes des Tags oder um die ausgewählten Tags wie nachstehend
beschrieben zu limitieren). Mit anderen Worten: die komplementäre Nukleinsäure der
variablen Region eines Nukleinsäuretags
kann nicht an eine beliebige konstante Region des Nukleinsäuretags
hybridisieren. Der Fachmann wird erkennen, dass konstante Regionen
in Tagsequenzen optional sind und typischerweise dann verwendet
werden, wenn eine PCR- oder eine andere Primerbindungsstelle innerhalb des
Tags verwendet wird.
- (3) Die Tags werden so ausgewählt, dass kein Tag an eine
Sonde mit nur einer Fehlpaarung hybridisiert (alle Tags unterscheiden
sich um mindestens zwei Nukleotide). Je nach Anwendung können gegebenenfalls
Tags ausgewählt
werden, welche mindestens 2 Fehlpaarungen, 3 Fehlpaarungen, 4 Fehlpaarungen, 5
Fehlpaarungen oder mehr gegenüber
einer Sonde aufweisen, die zu dem Tag nicht perfekt komplementär ist. Typischerweise
werden alle Tagsequenzen so ausgewählt, dass sie nur an eine perfekt
komplementäre Sonde
hybridisieren und die nächstgelegene
Möglichkeit
zur Fehlpaarungshybridisierung mindestens zwei Hybridisierungsfehlpaarungen
aufweist. Folglich unterscheiden sich die Tagsequenzen typischerweise
um mindestens zwei Nukleotide, wenn sie zur maximalen Korrespondenz
ausgerichtet sind. Vorzugsweise unterscheiden sich die Tags um etwa
5 Nukleotide, wenn sie zur maximalen Korrespondenz ausgerichtet
sind (z. B. wenn die Tags 20-mere sind).
Die Tags werden oftmals
so ausgewählt,
dass sie keine identischen Serien von Nukleotiden einer bestimmten
Länge aufweisen.
Sind die Tags z. B. 20-mere, so werden die Tags vorzugsweise so
ausgewählt,
dass keine zwei Tags Serien von 9 oder mehr Nukleotiden gemeinsam
haben. Der Fachmann wird erkennen, dass die Länge der unzulässigen Identität in Abhängigkeit
von der ausgewählten
Länge des
Tags variiert. Es wurde empirisch bestimmt, dass Kreuzhybridisierung
in Tagsätzen
vorkommt, wenn 20-mer-Tags mehr als etwa 8 aufeinanderfolgende Nukleotide
gemeinsam haben.
- (4) Die Tags werden so ausgewählt, dass keine Sekundärstruktur
innerhalb der zur Detektion der zu den Tags komplementären Tags
verwendeten komplementären
Sonden vorliegt. Dies wird typischerweise bewerkstelligt, indem
Tags, welche Untersequenzen von 4 oder mehr komplementären Nukleotiden
aufweisen, aus einem ausgewählten
Satz von Tags eliminiert werden.
- (5) Die Tags werden so ausgewählt, dass sich zwischen einem
Tag und einer beliebigen assoziierten konstanten Sequenz keine Sekundärstruktur
ausbildet. Selbstkomplementäre
Tags weisen in Arrays schwache Hybridisierungseigenschaften auf,
da die komplementären
Abschnitte der Sonden (und der korrespondierenden Tags) aneinander
hybridisieren (z. B. Haarnadelstrukturen ausbilden).
- (6) Die Tags werden so ausgewählt, dass zu den Tags komplementäre Sonden
nicht aneinander hybridisieren, wodurch eine Duplexbildung der Tags
in Lösung
verhindert wird.
- (7) Weist das Tag mehr als eine konstante Region auf, so werden
die konstanten Regionen des Tags so ausgewählt, dass sie nicht mit sich
selbst hybridisieren oder keine Haarnadelstrukturen ausbilden.
- (8) Sind die Tags von einer einzigen Länge, so werden die Tags so
ausgewählt,
dass sie ungefähr
die gleiche und bevorzugt exakt die gleiche gesamte Basenzusammensetzung
aufweisen (d.h. das gleiche A + T zu G + C-Verhältnis von Nukleinsäuren). Weisen
die Tags unterschiedliche Längen
auf, so wird das A + T zu G + C-Verhältnis bestimmt, indem eine
thermische Schmelztemperatur für
die Tags ausgewählt
wird und ein A + T zu G + C-Verhältnis
und eine Sondenlänge
für jedes
Tag mit der ausgewählten
thermischen Schmelztemperatur ausgewählt werden.
-
Der
Fachmann wird erkennen, dass es eine Reihe von möglichen Arten gibt, die obigen
Auswahlschritte durchzuführen.
Im typischsten Fall werden die Auswahlschritte unter Verwendung
von einfachen Computerprogrammen zur Durchführung der Auswahl in jedem
der zuvor umrissenen Schritte durchgeführt; alle diese Schritte werden
jedoch optional auch manuell ausgeführt. Die folgenden Strategien
werden zu exemplarischen Zwecken bereitgestellt; der Fachmann wird
erkennen, dass zum Erhalt ähnlicher
Ergebnisse eine Reihe von ähnlichen
Strategien angewandt werden können.
-
In
einer Ausführungsform
wurde die Sekundärstruktur
mittels des Tags verhindert und die Hybridisierung unter oder zwischen
Paaren von komplementären
Sonden (Vorgaben 4, 5 und 6, oben) wurde verhindert, indem 4 Basenuntersequenzen
innerhalb der Tags analysiert wurden, welche dynamisch ausgeschlossen
wurden, sobald eine beliebige der folgenden Eigenschaften zutraf:
- (a) Alle Tags mit komplementären Regionen
von 4 oder mehr Basen, einschließlich derer, welche sich in der
Sequenz überschneiden,
und selbstkomplementärer
4-mere. Um die Hybridisierung variabler Tagsequenzen an die konstanten
Primersequenzen zu verhindern wurden Regionen von 4 oder mehr Basen
in einem Tag, welche vollständig
oder teilweise komplementär
zu 4 in der konstanten Sequenz enthaltenen Basensequenzen sind,
welche durch mindestens 3 Basen voneinander getrennt waren (d.h.
die minimale zur Ausbildung einer Haarnadelstruktur erforderliche
Trennung).
- (b) Um die Einheitlichkeit der Hybridisierungsstärke zu gewährleisten
wurden Serien von 4-meren
ausgeschlossen, welche sich lediglich aus 4 As, 4 Ts oder 4 G oder
C-Resten zusammensetzten. Der Ausschluss von Serien von T/A und
G/A ist ebenfalls wünschenswert.
-
Gegebenenfalls
wird eine weitere Auswahl vorgenommen, um Aspekte der zuvor umrissenen
Auswahlschritte zu verfeinern. Beispielsweise können zur Auswahl von Tags,
welche mit geringerer Wahrscheinlichkeit kreuzhybridisieren, fixiertere
oder beschränktere
Basen zum Zwecke der Ausrichtung hinzugefügt werden, die Tags können verlängert werden
und es können
zusätzliche
Codierungserfordernisse auferlegt werden. In einer Ausführungsform
wird die durch das obige Verfahren ausgewählten Tags durchgeführt und
eine Teilmenge von Tags mit reduzierter Hybridisierung wird ausgewählt. Beispielsweise
wird ein erstes Tag aus dem zuvor erzeugten Satz ausgewählt und
ein zweites Tag wird aus dem Satz von Tags ausgewählt. Wenn das
zweite Tag nicht mit dem ersten Tag kreuzhybridisiert, so verbleibt
das zweite Tag in dem Satz von Tags. Wenn es doch kreuzhybridisiert,
wird das Tag verworfen. Folglich wird jedes Tag aus der mittels
der zuvor umrissenen Verfahren ausgewählten Gruppe mit jedem anderen
Tag in der Gruppe verglichen und wird basierend auf dem Vergleich
der Hybridisierungseigenschaften ausgewählt oder verworfen. Dieser
Vorgang des Vergleichs von einem Tag mit jedem anderen in Frage
kommenden Tag in einem Pool von Tags wird als paarweiser Vergleich
bezeichnet. Ähnlich
wie in den zuvor umrissenen Schritten kann die Kreuzhybridisierung
in einem dynamischen Programmierungsverfahren, wie zuvor zur Sequenzausrichtung
verwendet, bestimmt werden.
-
Eine
Verfeinerung der zuvor genannten Verfahren beinhaltet eine Verrechnung
der Unterschiede bei der durch positionelle Auswirkungen von Fehlpaarungen
in dem Sonden-Tag-Duplex
verursachten Destabilisierung. Die Gesamtanzahl von Fehlpaarungen
ist nicht die beste Einschätzung
des Hybridisierungspotentials, da das Ausmaß der Destabilisierung in höchstem Maße von sowohl
den Positionen als auch den Arten der Fehlpaarungen abhängt. Beispielsweise
wirken sich zwei benachbarte fehlgepaarte Basen in einem 20-Nukleotid- Duplex im Allgemeinen
weniger destabilisierend aus als zwei in gleichmäßigen Abständen verteilte Fehlpaarungen.
Eine genauerer Einschätzung
des Kreuzhybridisierungspotentials kann erreicht werden, indem man
die beiden Tags unter Verwendung von dynamischer Programmierung
oder anderer Verfahren direkt miteinander vergleicht. In diesen
Ausführungsformen
wird unter Einhaltung der folgenden Regeln (in welchen die Anwesenheit
einer konstanten Region in den Tags optional ist) ein Satz von Tagsequenzen
erzeugt:
- (A) Alle Tags weisen die gleiche Länge N und
eine ähnliche
Basenzusammensetzung auf. Bestimmte Serien von Basen und potentielle
Haarnadelstrukturen sind unzulässig
(siehe oben).
- (B) Keine zwei Tagsequenzen enthalten eine identische Untersequenz
der Länge
n, für
einige Schwellenlänge
n. Die zweite Regel gestattet schnelles Screening der Mehrzahl der
kreuzhybridisierenden Sonden (das Auswahlverfahren ist linear),
wobei eine engere Auswahl verbleibt, aus der jedes Sondenpaar hinsichtlich
der Ähnlichkeit
verglichen wird (dies nimmt eine zum Quadrat der Anzahl der Sonden
proportionale Zeitspanne in Anspruch). Bei dem Verfahren handelt
es sich im Wesentlichen um eine alphabetische Baumstruktursuche
mit der Hinzufügung
eines Arrays, um verfolgen zu können,
welche n-mere in zuvor erzeugten Tags verwendet wurden. Jedes Mal
wenn die Hinzufügung
einer Base an das wachsende Tag ein n-mer erzeugt, welches bereits
in einem vorhergehenden Tag verwendet wurde, verfolgt das Verfahren
den Weg zurück
und probiert den nächsten
Wert der Base.
- (C) In diesem Schritt werden Paare von Tags unter Verwendung
einer komplexeren Hybridisierungsenergieregel miteinander verglichen.
Für jedes
Paar von Tags wird die Energie der Hybridisierung eines jeden Tags
an das Komplement des anderen berechnet. Überschreitet die Energie einen
gewissen Schwellenwert, so wird eines der Tags aus der Liste entfernt.
Sonden werden so lange entfernt bis keine den Schwellenwert überschreitenden
Paare mehr auf der Liste vorhanden sind. Beispielsweise lautet in
einer Ausführungsform
die Energieregel wie folgt: ein Punkt für eine Paarung (zwei angrenzende
passende Basenpaare), minus 2 Punkte für Fehler, bei denen sich eine
einzelne Base auf einem Strang nach außen wölbt und minus 3 Punkte für alle anderen
Fehler, einschließlich
langer und asymmetrischer Schleifen. Der höchste Ausrichtungswert zwischen
jedem Paar von Tags wurde bestimmt unter Verwendung eines dynamischen Programmieralgorithmus
mit einem Präprozessor,
welcher zur Einleitung eines Vergleichs eine kurze Paarung von mindestens
5 Basen benötigt.
-
Komplexere
Energieregeln können
durch Verfeinerung der Hybridisierungsregeln in dieses System integriert
werden. Zusätzlich
können
komplexere Regeln zur Berechnung der Hybridisierungsenergie in jedem beliebigen
der zuvor genannten Vorgänge
angewandt werden. Siehe Vesnaver et al. (1989), Proc. Natl. Acad. Sci.
USA 86, 3614-3618; Wetmur (1991), Critical Reviews in Biochemistry
and Molecular Biology 26(3/4), 227-259 und Breslauer et al. (1986),
Proc. Natl. Acad. Sci. USA 83, 3746-3750.
-
Der
unter Anwendung des paarweisen Vergleichs ausgewählte Satz von Tags ist nicht
eindeutig. Er ist abhängig
von der Reihenfolge der Auswertung der Tags. Beispielsweise enthält die abschließende Liste
mehr Tags, die mit A anfangen als mit T, wenn die Tags in alphabetischer
Reihenfolge ausgewertet werden. Es kann auch eine komplexere Vorgehensweise
zur Erzeugung des größtmöglichen
Satzes solcher Tags mit Debruijn-Sequenzen
(Sequenzen, in welchen jedes n-mer für irgendeine Länge n exakt
einmal vorkommt) angewandt werden. Beispielsweise könnte eine
Debruijn-Sequenz, welche alle n-mere integriert, mit Überschneidungen
von n-1 in 20-mere aufgeteilt werden und somit die maximale Anzahl
der 20-mere ergeben, welche kein n-mer gemeinsam haben. Diese Vorgehensweise
wird dahingehend modifiziert, die anderen zuvor umrissenen Vorgaben
für Tags
zu berücksichtigen.
Beispielsweise werden Basenserien typischerweise aus der ursprünglichen
Debruijn-Sequenz entfernt und 20-mere mit unausgewogener Basenzusammensetzung
oder Palindrome (welche in einer Größenordnung größer als
n auftreten) werden in einem der Verarbeitung nachgeschalteten Schritt
entfernt.
-
Es
sind viele alternative Vorgehensweisen zur Auswahl und zum Ausschluss
von Tags möglich.
Beispielsweise können
alle paarweise auftretenden Energien berechnet werden, bevor irgendwelche
in Frage kommenden Tags verworfen werden, und das Tag, das die meisten
den Energieschwellenwert überschreitenden
Beinahe-Paarungen aufweist, kann verworfen werden. Das verbleibende
Tag mit den meisten Beinahe-Paarungen (nicht einschließend die
Beinahe-Paarungen mit Tags, die bereits verworfen wurden) kann verworfen
werden. Dieser Vorgang wird so lange wiederholt, bis keine Beinahe-Paarungen
mehr vorhanden sind.
-
Beispielsweise
fehlt den Tags in einer bevorzugten Ausführungsform der zuvor genannten
Auswahlverfahren eine konstante Region. Die Tags werden ausgewählt, indem
man alle in Frage kommenden n-mere z. B. 20-mere auswählt und
Sequenzen eliminiert welche:
- (i) Serien von
4 × aufweisen,
wobei x ein A, T, C, oder G ist (z. B. AAAA);
- (ii) eine Sekundärstruktur
aufweisen, in welcher es zu einer Serie von 4 aufeinanderfolgenden
Nukleotiden eine komplementäre
passende Serie von 4 Nukleotiden innerhalb des Tags gibt; oder
- (iii) eine 9-Basen-Untersequenz (oder eine andere ausgewählte Anzahl
von Untersequenzen, typischerweise von 5 bis 15) mit einem beliebigen
anderen Tag gemeinsam haben.
-
Alle
Tags werden dann so ausgewählt,
dass sie den gleichen GC-Gehalt aufweisen, wodurch alle Tags ähnliche
Schmelztemperaturen bei der Bindung an eine komplementäre Sonde aufweisen.
Die Durchführung der
zuvor genannten Schritte begrenzt die Anzahl der Tags in dem Satz
von Tags auf einen Pool von etwa 50.000 in Frage kommenden Tags,
wenn die Tags 20-mere sind.
-
Es
wird dann eine paarweise Auswahlstrategie ausgeführt, um einen endgültigen Satz
von Tags zu erhalten. Im paarweisen Vergleich wird ein erstes Tag
mit jedem anderen Tag in dem Satz von Tags hinsichtlich der Hybridisierung
an das Komplement des ersten Tags verglichen. Bindet das erste Tag
an ein Target mit einem Hybridisierungsschwellenwert, so wird ein
ausgewählter
Wert eingehalten, welcher höher
als jedes andere Tag in dem in Frage kommenden Satz ist. Bindet
ein anderes Tag in dem in Frage kommenden Satz von Tags mit einer über dem
ausgewählten
Schwellenwert liegenden Hybridisierungsenergie an das Komplement des
ersten Tags, so wird das erste Tag verworfen. Dieser Vorgang wird
für jedes
in dem Pool von in Frage kommenden Tags verbleibende Tag wiederholt.
In Beispiel 4 (Tags895.ccp) wird ein in "C" verfasstes
Computerprogramm bereitgestellt, welches die zuvor genannten Auswahlschritte
durchführt.
Eine Veränderung
des Schwellenwerts führte
zu Sätzen
von 0 bis 50.000 Tags. In einer bevorzugten Ausführungsform wurden 9.000 Tags
erzeugt.
-
Allgemeiner
ausgedrückt
werden Tags (oder zu den Tags komplementäre Sonden) ausgewählt, indem Tags,
welche kreuzhybridisieren (mit einer ähnlichen Hybridisierungsenergie
an die gleiche Nukleinsäure
binden), eliminiert werden. Tags binden komplementäre Nukleinsäure dann
mit einer ähnlichen
Hybridisierungsenergie, wenn eine zu einem Tag komplementäre Nukleinsäure mit
einer einen bestimmten Schwellenwert überschreitenden Energie an
ein anderes Tag bindet; ist z. B. ein Tag ein perfektes Match für die Sonde,
so wird ein zweites Tag ausgeschlossen, wenn es die gleiche Sonde
mit einer Hybridisierungsenergie bindet, welche der Hybridisierungsenergie
der perfekten Matchsonde ähnlich
ist. Bindet das zweite Tag mit typischerweise etwa 80 bis 95% oder
mehr, oder noch typischer etwa 90 bis 95% oder mehr, oder am typischsten
etwa 95% oder mehr der Energie eines perfekt komplementären Tags
an die Sonde, so wird das Tag aus dem Satz von Tags verworfen. Die
berechnete Energie kann basieren auf der Stapelenergie verschiedener
Basenpaare, dem Energieaufwand für
eine Schleife in der hybridisierten Sonden-Tag-Nukleinsäurekette und/oder auf zugeordneten
Werten für
die Hybridisierung von Basenpaaren oder auf anderen spezifischen
Hybridisierungsparametern. Im nachfolgenden Beispiel 2 wurden Tags
ausgewählt,
indem ähnliche
Tags aus einer umfangreichen auf Hybridisierungseigenschaften so
wie zugeordnete Stapelwerte für
Tag-Sonden-Hybride basierenden Liste in Frage kommender Tags eliminiert
wurden.
-
Es
werden auch Verfahren angewandt, welche keinen paarweisen Vergleich
beinhalten. In einer Ausführungsform
wurden die Tags so ausgewählt,
dass sie einen konstanten Abschnitt und einen variablen Abschnitt
enthielten. Der variable Abschnitt der Tagsequenz war auf Sequenzen
beschränkt,
welche nicht mehr als einen C-Rest enthalten. Als konstante Region
der Tagsequenz wurde 3'(ACTC)4CC ausgewählt. Diese Auswahl von spezifischen
Sequenzen erfüllt
die zuvor genannte Vorgabe 7 (die konstante Region wurde so ausgewählt, dass
sie nicht selbstkomplementär
ist). Der Fachmann wird erkennen, dass auch andere konstante Regionen
ausgewählt
werden können,
z. B. wenn eine Primerbindungsstelle oder eine Restriktionsendonukleasenstelle
in die Tags integriert ist.
-
Die
Vorgabe 2 wird ebenfalls erfüllt,
da die Sonde (welche zum variablen Abschnitt des Tags komplementär ist) keine
aufeinanderfolgende Region von hybridisierenden Basen aufweist,
mit der Ausnahme einer einzelnen auf einigen der Sonden vorhandenen
AGT- oder TGA-Sequenz,
und selbst diese Sequenzen sind nicht benachbart zu dem variablen
Abschnitt des Tags, wo die primäre
Hybridisierung stattfindet. Um die Vorgaben (1) und (8) zu erfüllen, werden
die Tags so ausgewählt,
dass sie die gleiche Länge
und den gleichen Gesamtgehalt an G + C aufweisen.
-
Um
eine Kreuzhybridisierung zwischen einem Tag und zu anderen Tags
komplementären
Sonden zu verhindern, wurde ein Satz von Tags ausgewählt, der
nicht mit weniger als zwei Fehlern ausgerichtet werden konnte, wobei
ein "Fehler" entweder eine Fehlpaarungshybridisierung
oder ein überhängendes
Nukleotid ist. Dies wurde durch Fixierung der Sequenz der Basen
an den Enden der Tags bewerkstelligt. Insbesondere wurde erzwungen,
dass die Basen an den Enden der Tags gleich sind. Es wurde erzwungen,
dass die Reste an den Enden gleich sind. Insbesondere wurden die
Basen so ausgewählt,
dass sie am 5'-Ende
mit den Resten GA begannen und am 3'-Ende mit entweder einem A- oder einem
T-Rest endeten,
gefolgt von einem G-Rest. Diese Anordnung hält die Tags von der Paarung
mit passenden Sonden mit einem einzelnen überhängenden Nukleotid und ohne
andere Fehler ab, da ein Überhang
entweder eine G-A- oder eine G-T-Fehlpaarung erzwingt. Diese Anordnung
hält des
weiteren die Tags davon ab, eine Paarung mit einem einzelnen Deletionsfehler
einzugehen, da eine einzelne Deletion dazu führen würde, dass die Sonde und das
Tag an einem Ende fehlausgerichtet wären, was eine Fehlpaarung zur
Folge hätte.
Der Fachmann wird erkennen, dass diese Strategie auf vielerlei Arten
modifiziert werden kann, um gleichwertige Ergebnisse zu liefern,
z. B. durch eine Basenauswahl, welche zu C-T- oder C-A-Fehlpaarungen führt.
-
Um
bei der Tag-Sonden-Hybridisierung Einzelfehlpaarungsfehler zu vermeiden,
wurden die nächste bis
letzte Base vom 5'-Ende
aus so ausgewählt,
dass die Anzahl von As plus der Anzahl von Gs in der variablen Region
gerade war (wie zuvor bereits bemerkt, ist die nächste bis letzte Base vom 5'-Ende aus entweder
ein T oder ein A). Diese Base verhält sich dadurch analog zu einem
Paritätsbit
in der Codierungstheorie, dass sie erfordert, dass mindestens zwei
Unterschiede zwischen jedem beliebigen Paar von Tags in dem Satz
von Tags bestehen. Dies trifft zu, weil der GC-Gehalt von allen
der ausgewählten
Tags der gleiche ist (siehe oben); daher müssen jegliche Basenunterschiede
in der variablen Region die Substitution von G- und C-Resten oder
von T- und A-Resten umfassen. Die Substitution von weniger als zwei
Basen führt
jedoch zu einer ungeraden Anzahl von G + A-Resten. Folglich unterscheiden
sich mindestens zwei Basen in jedem beliebigen Paar von Tags in dem
Satz von Tags, was obiger Vorgabe (3) entspricht. In ähnlicher
Weise könnte
die Strategie verändert
werden, indem man z. B. einen anderen Rest in dem Tag als Paritätsbase auswählt, welcher
zuordnet, ob der A + G-Gehalt
des Tags gerade ist, oder indem man die obige Strategie so anpasst,
dass sie eine gerade Anzahl von T + G-Resten liefert.
-
Es
wurde ein Computerprogramm in der Standardprogrammiersprache "C" verfasst, um jeden der Auswahlschritte
auszuführen.
Der Vollständigkeit
halber ist dieses Programm nachfolgend in Beispiel 3 angegeben,
es wird jedoch erwartet, dass der Fachmann ähnliche Programme verfassen
kann oder die zuvor umrissenen Auswahlschritte manuell durchführen kann,
um im wesentlichen ähnliche
Ergebnisse zu erhalten. Anstatt jede Sequenz einer ausgewählten Länge hinsichtlich
der erwünschten
Sequenzmerkmale zu testen, bedient sich Tags.ccp einer reduzierten
Baumstruktursuche, um alle Sequenzen zu finden, welche den obigen Vorgaben
entsprechen. Wenngleich damit ein hochentwickeltes Auswahlprogramm
mit wenigen Verarbeitungsschritten zur Verfügung steht, wird der Fachmann
doch erkennen, dass andere Programme verwendet werden können, welche
jedes in Frage kommende Tag hinsichtlich einer gewünschten
Sequenz testen. Tags.ccp wählt
Tagsätze
in Abhängigkeit
von einer Vielzahl an Parametern aus, einschließlich der konstanten Sequenz,
der variablen Sequenz, des GC-Gehalts, der Vorgabe, dass das A +
G-Verhältnis
ausgeglichen sein soll, und des Verhältnisses der konstanten und
variablen Regionen in den Tags des Satz von Tagses. Beispielsweise
wurden in einem Experiment eine konstante und eine variable Region
ausgewählt.
Es wurde eine Länge
von 15 Nukleotiden als Länge
der variablen Region ausgewählt,
als G + C-Gehalt der variablen Region wurden 7 Nukleotide ausgewählt und
die gesamte Basenanzahl von A + G wurde so ausgewählt, dass
sie gerade war, mit einem Muster von ??N11[AT]?,
wobei ? eine ausgewählte
fixierte Base ist. Die Parameter ergaben einen Satz von etwa 8.000
Tagsequenzen.
-
Allgemeiner
ausgedrückt
weist das Problem, einen Satz von Tagsequenzen zu konstruieren,
welche nicht kreuzhybridisieren, eine große Ähnlichkeit zu dem Problem auf,
in der Codierungstheorie fehlerkorrigierende Codes zu konstruieren.
Der primäre
Unterschied besteht darin, dass es in der Codierungstheorie kein Korrelat
für Insertionen
und Deletionen gibt. Dieses Problem ist, wie zuvor gezeigt, dadurch
zu erklären,
dass innerhalb der Sondensequenzen konstante Regionen vorhanden
sind. Diese Strategie wird verallgemeinert durch eine Veränderung
des Ortes des Paritätsbits,
der erforderlichen Parität
oder der Orte der konstanten Regionen. Komplexere Codes sind ebenfalls
zweckmäßig, z.
B. Codes, welche mehr Unterschiede zwischen Paaren von Tags erfordern.
Siehe Blahut (1983), Theory and Practice of Error Control Codes,
Addison-Wesley Publishing Company, Menlo Park, CA.
-
Der
Fachmann wird ebenfalls erkennen, dass Verfahren des paarweisen
Vergleichs in Verbindung mit einem beliebigen anderen Auswahlverfahren
angewandt werden. Beispielsweise können die gemäß spezifischer
Regeln, so wie die von tags.ccp implementierten, erzeugten Tags
unter Verwendung eines beliebigen der hierin beschriebenen Verfahren
des paarweisen Vergleichs weiter selektioniert werden.
-
Synthese von Oligonukleotidarrays
-
Oligonukleotidarrays
werden so ausgewählt,
dass sie zu den zuvor beschriebenen Nukleinsäuretags komplementäre Oligonukleotide
aufweisen. Die Synthese von Oligonukleotidarrays ist im Allgemeinen
bekannt. Die Entwicklung einer Technologie zur Synthese von immobilisierten
Polymeren im großen
Maßstab (VLSIPSTM) stellt Verfahren zur Anordnung großer Anzahlen
von Oligonukleotidsonden in sehr kleinen Arrays bereit. Pirrung
et al., US Patent Nr. 5,143,854 (siehe auch PCT-Anmeldung Nr. WO
90/15070), McGall et al., US Patent Nr. 5,412,087, Chee et al.,
SN PCT/US94/12305 und Fodor et al., PCT-Anmeldung Nr. WO 92/10092
beschreiben Verfahren zur Herstellung von sehr umfangreichen Oligonukleotidarrays
unter Verwendung von z. B. lichtgesteuerten Synthesetechniken. Siehe
auch Fodor et al. (1991), Science 251: 767-777; Lipshutz et al.
(1995), BioTechniques 19(3): 442-447; Fodor et al. (1993), Nature
364: 555-556; und Medlin (1995), Environmental Health Perspectives
244-246.
-
Wie
zuvor beschrieben, sind verschiedene Verfahren zur Herstellung von
Oligonukleotidarrays bekannt; dem entsprechend wird hierin kein
Versuch unternommen, alle bekannten Verfahren zu beschreiben oder
zu katalogisieren. Zu exemplarischen Zwecken werden lichtgesteuerte
VLSIPSTM-Verfahren im Nachfolgenden kurz
beschrieben. Der Fachmann wird verstehen, dass alternative Verfahren
zur Herstellung von Oligonukleotidarrays, so wie das Aufspritzen
und/oder Fließenlassen
von Reagenzien über
definierte Bereiche eines festen Substrats und auf Beads oder Pins
basierende Verfahren, ebenfalls bekannt und auf die vorliegende
Erfindung anwendbar sind (siehe z. B. US Pat. Nr. 5,384,261, hierin
durch Bezugnahme für
alle Zwecke einbezogen). In den in diesen Anmeldungen offenbarten
Verfahren werden Reagenzien typischerweise dadurch auf das Substrat
aufgebracht, dass man Reagenzien zur Polymersynthese auf vorbestimmte
Bereiche des festen Substrats fließen lässt oder aufspritzt.
-
Lichtgesteuerte
VLSIPSTM-Verfahren sind z. B. in den US
Patenten Nr. 5,143,854 und Nr. 5,412,087 zu finden. In den im '854er Patent besprochenen
lichtgesteuerten Verfahren wird typischerweise so vorgegangen, dass
vorbestimmte Bereiche eines Substrats oder eines festen Trägers aktiviert
werden und dann das Substrat mit einer präselektionierten Monomerlösung in
Kontakt gebracht wird. Die vorbestimmten Bereiche werden mittels
einer Lichtquelle aktiviert, typischerweise durch eine photolithographische
Maske. Andere Bereiche des Substrats bleiben inaktiv, da sie durch
die Maske von der Illumination abgeschirmt werden. Folglich wird
durch ein Lichtmuster definiert, welche Bereiche auf dem Substrat
mit einem gegebenen Monomer reagieren. Durch wiederholte Aktivierung
von unterschiedlichen Gruppen von vorbestimmten Bereichen und Kontaktieren
von verschiedenen Monomerlösungen
mit dem Substrat wird auf dem Substrat ein diverses Array von Oligonukleotiden
erzeugt. Wenn nötig,
werden andere Schritte angewandt, so wie das Abwaschen der unreagierten
Monomerlösung
von dem Substrat.
-
Die
Oberfläche
eines festen Trägers
wird typischerweise mit Kopplungsgruppen, welche photolabile Schutzgruppen
(z. B. NVOC oder MeNPoc) aufweisen, modifiziert und durch eine photolithographische
Maske illuminiert, wodurch sich in den illuminierten Bereichen reaktive
Gruppen bilden (z. B. typischerweise Hydroxylgruppen). Beispielsweise
wird während
der Oligonukleotidsynthese ein durch 3'-O-Phosphoramidit (oder ein anderes
Nukleinsäuresynthesereagens)
aktiviertes Desoxynukleosid (am 5'-Hydroxyl durch eine photolabile Gruppe
geschützt)
an der Oberfläche
präsentiert
und eine Kopplung erfolgt an den Stellen, welche im vorangegangenen
Schritt dem Licht ausgesetzt waren. Nach der Bedeckung und der Oxidation
wird das Substrat abgespült
und die Oberfläche
wird durch eine zweite Maske illuminiert, um zusätzliche Hydroxylgruppen zur Kopplung
zu exponieren. Ein zweites 5'-geschütztes, durch
3'-O-Phosphoramidit
aktiviertes Desoxynukleosid (oder ein anderes geeignetes Oligonukleotidmonomer)
wird dann dem resultierenden Array präsentiert. Die Zyklen von selektiver
Lichtaussetzung und Kopplung werden so lange wiederholt, bis der
gewünschte
Satz von Oligonukleotiden hergestellt ist.
-
Zusätzlich zu
VLSIPSTM-Arrays können auch andere Sondenarrays
hergestellt werden. Beispielsweise kann die standardgemäße Southern-
oder Northern-Blot-Technologie angewandt werden, um Nukleinsäuresonden
an verschiedenen Substraten so wie Papier, Nitrocellulose, Nylon
und dergleichen zu fixieren. Da die Herstellung von großen Arrays
unter Verwendung von standardgemäßen Technologien
schwierig ist, werden VLSIPSTM-Arrays bevorzugt.
-
Herstellung von Tag-Nukleinsäuren und
Oligonukleotiden zur Kopplung in Arrays; Synthese von Testnukleinsäuren; Klonierung
von Nukleinsäuretags
in Zellen
-
Wie
zuvor beschrieben, sind einige Verfahren zur Synthese von Oligonukleotidarrays
bekannt. In bevorzugten Ausführungsformen
werden die Oligonukleotide direkt auf einer festen Oberfläche synthetisiert,
wie zuvor beschrieben. In bestimmten Ausführungsformen ist es jedoch
zweckmäßig, zunächst die
Oligonukleotide zu synthetisieren und diese dann an das feste Substrat
zu koppeln, um das gewünschte
Array zu bilden. In ähnlicher
Weise können
Nukleinsäuren
im allgemeinen (z. B. Nukleinsäuretags)
auf einem festen Substrat synthetisiert und dann von dem Substrat
abgetrennt werden, oder sie können
in Lösung
synthetisiert werden (unter Anwendung chemischer oder enzymatischer
Verfahren), oder sie können
natürlich
vorkommen (d.h. in einer biologischen Probe vorhanden sein).
-
Molekulare
Klonierung und Expressionstechniken zur Herstellung von biologischen
und synthetischen Oligonukleotiden und Nukleinsäuren sind im Stand der Technik
bekannt. Eine große
Vielzahl von Klonierungs-, Expressions- und in vitro-Amplifikationsverfahren,
welche zur Konstruktion von Nukleinsäuren geeignet sind, sind dem
Fachmann wohl bekannt. Beispiele für Techniken und Instruktionen,
welche ausreichen, um den Fachmann bei vielen Klonierungsanwendungen
zur Expression und Aufreinigung von biologischen Nukleinsäuren (DNA
und RNA) anzuleiten, sind zu finden in Berger und Kimmel, Guide
to Molecular Cloning Techniques, Methods in Enzymology, Band 152,
Academic Press, Inc., San Diego, CA (Berger); Sambrook et al. (1989),
Molecular Cloning – A
Laboratory Manual (2. Auflage) Bd. 1-3, Cold Spring Harbor Laboratory,
Cold Spring Harbor Press, NY, (Sambrook); und Current Protocols
in Molecular Biology, F.M. Ausubel et al., eds., Current Protocols,
ein Gemeinschaftsunternehmen von Greene Publishing Associates, Inc.
und John Wiley & Sons,
Inc., (1994 Supplement) (Ausubel). Nukleinsäuren so wie Tag-Nukleinsäuren können unter
Anwendung von standardgemäßen Klonierungsprotokollen,
so wie in Berger, Sambrook und Ausubel beschrieben, in Zellen kloniert
werden (wobei rekombinante mit Tags versehene Zellen erzeugt werden).
-
Beispiele
für Techniken,
welche ausreichend sind, um den Fachmann anzuleiten bei in vitro-Verfahren zur Nukleinsäuresynthese
und Amplifikation von Tags und Sonden in Lösung, einschließlich enzymatischer Verfahren
so wie der Polymerase-Kettenreaktion (PCR), der Ligase-Kettenreaktion
(LCR), der Qβ-Replikasen-Amplifikation
(QBR), der auf Nukleinsäuresequenzen
basierenden Amplifikation (NASBA), des SDA-Verfahrens (strand displacement
amplification), der zyklischen Sondenamplifikationsreaktion (CPR),
verzweigte DNA (bDNA) und andere durch DNA- und RNA-Polymerase vermittelte
Techniken, sind bekannt. Beispiele für diese und damit verwandte
Techniken sind zu finden in Berger, Sambrook und Ausubel, ebenso
wie in Mullis et al., (1987), US Patent Nr. 4,683,202; PCR Protocols
A Guide to Methods and Applications (Innis et al. eds) Academic
Press Inc. San Diego, CA (1990) (Innis); Arnheim & Levinson (1.
Oktober 1990); WO 94/11383; Vooijs et al. (1993), Am J. Hum. Genet.
52: 586-597; C & EN
36-47; The Journal Of NIH Research (1991) 3, 81-94; Kwoh et al.
(1989), Proc. Natl. Acad. Sci. USA 86, 1173; Guatelli et al. (1990),
Proc. Natl. Acad. Sci. LISA 87, 1874; Lomell et al. (1989) J. Clin.
Chem 35, 1826; Landegren et al., (1988) Science 241, 1077-1080; Van
Brunt (1990), Biotechnology 8, 291-294; Wu und Wallace, (1989), Gene 4,
560; Sooknanan und Malek (1995) Bio/Technology 13, 563-564; Walker
et al,. Proc. Natl. Acad. Sci. LISA 89, 392-396) und Barringer et
al. (1990), Gene 89, 117. Verbesserte Verfahren zur Klonierung von
in vitro amplifizieren Nukleinsäuren
sind in Wallace et al., US Pat. Nr. 5,426,039 beschrieben. In einer
bevorzugten Ausführungsform
werden Nukleinsäuretags
vor der Hybridisierung mit VLSIPSTM-Arrays,
wie zuvor beschrieben, amplifiziert. Werden Nukleinsäuretags
z. B. in Zellen in einer zellulären
Bibliothek kloniert, so können
die Tags unter Verwendung von PCR amplifiziert werden.
-
Standardgemäße Festphasensynthese
von Nukleinsäuren
ist ebenfalls bekannt. Oligonukleotidsynthese wird optional auf
im Handel erhältlichen
Festphasen-Oligonukleotidsynthesegeräten durchgeführt (siehe Needham-Van
Devanter et al. (1984), Nucleic Acids Res. 12: 6159-6168) oder sie
wird manuell durchgeführt unter
Anwendung des von Beaucage et al. (Beaucage et al. (1981), Tetrahedron
Letts. 22 (20): 1859-1862) beschriebenen Festphasen-Phosphoramidit-Triester-Verfahrens.
Schließlich
werden, wie zuvor beschrieben, Nukleinsäuren optional unter Verwendung
von VLSIPSTM-Verfahren in Arrays synthetisiert
und gegebenenfalls von dem Array abgetrennt. Die Nukleinsäuren können dann
gegebenenfalls wieder an einem festen Substrat befestigt werden,
um ein zweites Array zu bilden, falls zweckmäßig, oder, falls zweckmäßig, als
Nukleinsäuretags
verwendet werden oder als Tagsequenzen zur Klonierung in eine Zelle
verwendet werden.
-
Markierungen
-
Der
Begriff "Markierung" bezieht sich auf
eine Zusammensetzung, welche mit spektroskopischen, photochemischen,
biochemischen, immunchemischen oder chemischen Mitteln detektiert
werden kann. Zweckmäßige Nukleinsäuremarkierungen
schließen
z. B. ein: 32P, 35S, Fluoreszenzfarbstoffe, Reagenzien mit hoher
Elektronendichte, Enzyme (z. B. wie üblicherweise in einem ELISA
verwendet), Biotin, Digoxigenin oder Haptene und Proteine, für welche
Antiseren oder monoklonale Antikörper
erhältlich
sind.
-
Eine
große
Vielzahl von Markierungen, welche zur Markierung von Nukleinsäuren und
für Konjugationstechniken
geeignet sind, sind bekannt und ausführlich sowohl in der Patent-
als auch in der wissenschaftlichen Literatur beschrieben; sie sind
allgemein anwendbar auf die vorliegende Erfindung zur Markierung
von Nukleinsäuretags
oder amplifizierten Nukleinsäuren
zur Detektion durch die Arrays der vorliegenden Erfindung. Geeignete
Markierungen schließen
ein: Radionukleotide, Enzyme, Substrate, Cofaktoren, Inhibitoren, fluoreszierende
Reste, chemilumineszente Reste, magnetische Partikeln und dergleichen.
Markierungsagenzien schließen
z. B. gegebenenfalls ein: monoklonale Antikörper, polyklonale Antikörper, Proteine
oder andere Polymere so wie Affinitätsmatrices, Kohlenhydrate oder
Lipide. Die Detektion der Nukleinsäuretags erfolgt gemäß einem
beliebigen bekannten Verfahren, einschließend Immunblotting, Verfolgen
von radioaktiven oder biolumineszenten Markern, Southern Blotting,
Northern Blotting, Southwestern Blotting, Northwestern Blotting oder
andere Verfahren, welche ein Molekül aufgrund seiner Größe, Ladung
oder Affinität
verfolgen. Die jeweilige verwendete Markierung oder detektierbare
Gruppe und das jeweilige Assay sind keine ausschlaggebenden Aspekte
der vorliegenden Erfindung. Der detektierbare Rest kann aus jedem
beliebigen Material bestehen, welches eine detektierbare physikalische
oder chemische Eigenschaft aufweist. Solche detektierbaren Markierungen
wurden auf den Gebieten der Gele, Säulen und der festen Substrate
weit entwickelt und im Allgemeinen können in solchen Verfahren zweckmäßige Markierungen
auf die vorliegende Erfindung angewandt werden. Folglich ist eine
Markierung jede beliebige Zusammensetzung, welche mit spektroskopischen,
photochemischen, biochemischen, immunchemischen, elektrischen, optischen
oder chemischen Mitteln detektiert werden kann. Zweckmäßige Markierungen
in der vorliegenden Erfindung schließen ein: Fluoreszenzfarbstoffe (z.
B. Fluoresceinisothiocyanat, Texasrot, Rhodamin und dergleichen),
Radiomarkierungen (z. B. 3H, 125I, 35S, 14C oder 32P), Enzyme (z.
B. LacZ, CAT, Meerrettichperoxidase, alkalische Phosphatase und
andere, üblicherweise
verwendet als detektierbare Enzyme, entweder als Markergenprodukte
oder in einem ELISA), Nukleinsäureinterkalatoren
(z. B. Ethidiumbromid) und kolorimetrische Markierungen so wie Beads
aus kolloidalem Gold oder gefärbtem
Glas oder Kunststoff (z. B. Polystyrol, Polypropylen, Latex, etc.).
-
Die
Markierung wird gemäß im Stand
der Technik bestens bekannten Verfahren direkt oder indirekt an die
gewünschte
Nukleinsäure
gekoppelt. Wie zuvor angedeutet, wird eine große Vielzahl an Markierungen
verwendet, wobei die Auswahl der Markierung von der erforderlichen
Empfindlichkeit, der Konjugierbarkeit der Zusammensetzung, Stabilitätskriterien,
dem verfügbaren
Instrumentarium und von Entsorgungsvorschriften abhängt. Nicht
radioaktive Markierungen werden oft indirekt befestigt. Im Allgemeinen
wird ein Ligandenmolekül (z.
B. Biotin) kovalent an ein Polymer gebunden. Der Ligand bindet dann
an ein Anti-Liganden (z. B. Streptavidin)-Molekül, welches entweder selbst
detektierbar oder kovalent an ein Signalsystem gebunden ist, so
wie ein detektierbares Enzym, eine fluoreszierende Verbindung oder
eine chemilumineszente Verbindung. Es können eine Reihe von Liganden
und Anti-Liganden verwendet werden. Besitzt ein Ligand einen natürlichen
Anti-Liganden, z. B. bei Biotin, Thyroxin und Cortisol, so kann
er in Verbindung mit markierten Anti-Liganden verwendet werden.
Alternativ kann jede beliebige Hapten- oder Antigenverbindung in
Kombination mit einem Antikörper
verwendet werden. Markierungen können
ebenfalls direkt an signalerzeugende Verbindungen konjugiert werden,
z. B. durch Konjugation mit einem Enzym oder einem Fluorophor. Als
Markierungen in Frage kommende Enzyme werden in erster Linie Hydrolasen,
insbesondere Phosphatasen, Esterasen und Glykosidasen oder Oxidoreduktasen,
insbesondere Peroxidasen sein. Fluoreszierende Verbindungen schließen ein: Fluoreszein
und dessen Derivate, Rhodamin und dessen Derivate, Dansyl, Umbelliferon
und dergleichen. Chemilumineszierende Verbindungen schließen Luziferin
und 2,3-Dihydrophthalazinedione, z. B. Luminol, ein. Dem Fachmann
sind Mittel zur Detektion von Markierungen bestens bekannt. Handelt
es sich bei der Markierung um eine radioaktive Markierung, so schließen Mittel
zur Detektion folglich einen Szintillationszähler oder einen photographischen
Film wie in der Autoradiographie ein. Handelt es sich bei der Markierung
um eine fluoreszierende Markierung, so kann sie detektiert werden,
indem das Fluorochrom mit der geeigneten Wellenlänge angeregt wird und die daraus
resultierende Fluoreszenz detektiert wird, z. B. mittels Mikroskopie,
visueller Inspektion, über
einen photographischen Film, durch die Verwendung von elektronischen
Detektoren so wie Ladungskopplungsspeicher (CCDs) oder Photomultiplier
und dergleichen. Zur Detektion in VLSIPSTM-Arrays
werden fluoreszierende Markierungen und Detektionstechniken, insbesondere
Mikroskopie, bevorzugt. In ähnlicher
Weise können
enzymatische Markierungen durch die Bereitstellung von geeigneten
Substraten für das
Enzym und die Detektion des daraus resultierenden Reaktionsprodukts
detektiert werden. Schließlich
werden einfache kolorimetrische Markierungen oftmals einfach durch
Wahrnehmen der mit der Markierung assoziierten Farbe detektiert.
So erscheint in zahlreichen Dipstick-Assays konjugiertes Gold oftmals
pink, während viele
konjugierte Beads in der Farbe des Beads erscheinen.
-
Substrate
-
Wie
zuvor erwähnt,
können
je nach Assay die Tag-Nukleinsäuren
oder zu den Tag-Nukleinsäuren komplementäre Sonden
an eine feste Oberfläche
gebunden werden. Im Stand der Technik sind viele Verfahren zur Immobilisierung
von Nukleinsäuren
an eine Vielzahl von festen Oberflächen bekannt. Beispielsweise
handelt es sich bei der festen Oberfläche gegebenenfalls um Papier,
oder eine Membran (z. B. Nitrozellulose), eine Mikrotiterplatte
(z. B. PVC, Polypropylen oder Polystyrol), ein Reagenzglas (Glas
oder Kunststoff), ein Dipstick (z. B. Glas, PVC, Polypropylen, Polystyrol,
Latex und dergleichen), ein Mikrozentrifugenröhrchen, oder ein Bead aus Glas,
Siliziumdioxid, Kunststoff, Metall oder Polymeren oder um ein anderes
wie hierin beschriebenes Substrat. Die gewünschte Verbindung kann kovalent
an das Substrat gebunden oder durch nicht-spezifische Bindung nicht-kovalent
an dem Substrat befestigt sein.
-
Eine
große
Vielzahl an organischen und anorganischen Polymeren, sowohl natürlich vorkommend
als auch synthetisch hergestellt, können als das Material für die feste
Oberfläche
verwendet werden. Beispielhafte Polymere schließen ein: Polyethylen, Polypropylen,
Poly (4-Methylbuten),
Polystyrol, Polymethacrylat, Poly (Ethylenterephthalat), Rayon,
Nylon, Poly (Vinylbutyrat), Poylvinylidendifluorid (PVDF), Silikone,
Polyformaldehyd, Zellulose, Zelluloseacetat, Nitrocellulose und
dergleichen. Andere Materialien, welche je nach Assay geeignet sind,
schließen
ein: Papier, Glas, Keramik, Metalle, Metalloide, halbleitende Materialien,
Zement und dergleichen. Zusätzlich
können
gelbildende Substanzen so wie Proteine (z. B. Gelatine), Lipopolysaccharide, Silicate,
Agarose und Polyacrylamide verwendet werden. Ebenfalls geeignet
sind Polymere, welche mehrere wässrige
Phasen bilden, so wie Dextrane, Polyalkylenglykole oder oberflächenaktive
Substanzen so wie Phospholipide, langkettige (12–24 Kohlenstoffatome) Alkylammoniumsalze
und dergleichen. Ist die feste Oberfläche porös, so können je nach der Natur des
Systems verschiedene Porengrößen verwendet
werden.
-
Bei
der Vorbereitung der Oberfläche
wird gegebenenfalls eine Mehrzahl verschiedener Materialien eingesetzt,
z. B. als Laminate, um verschiedene Merkmale zu erhalten. So können z.
B. Proteinbeschichtungen so wie Gelatine verwendet werden, um die
nicht-spezifische Bindung zu verhindern, die kovalente Konjugation
zu vereinfachen, die Signaldetektion zu verstärken oder dergleichen. Ist
eine kovalente Bindung zwischen einer Verbindung und der Oberfläche gewünscht, so
wird die Oberfläche
im Allgemeinen polyfunktional sein oder polyfunktionalisiert werden
können.
Funktionelle Gruppen, welche auf der Oberfläche anwesend sein und zur Kopplung
verwendet werden können,
können
einschließen:
Karbonsäuren,
Aldehyde, Aminogruppen, Cyanogruppen, Ethylengruppen, Hydroxylgruppen,
Mercaptogruppen und dergleichen. Zusätzlich zur kovalenten Bindung
können
eine Reihe von Verfahren zur nicht-kovalenten Bindung einer Assaykomponente
angewandt werden.
-
BEISPIELE
-
Beispiel 1: Parallele
Analyse von Deletionssträngen
von S. cerevisiae.
-
Die
vollständige
Sequenz des Genoms von S. cerevisiae ist bekannt. Bei der Sequenzierung
des Genoms wurden Tausende von offenen Leserahmen identifiziert,
welche potentielle Gene oder Genfragmente repräsentieren. Die Funktion von
vieler dieser ORFs ist nicht bekannt.
-
Die
Genunterbrechung ist ein wirksames Instrument zur Bestimmung der
Funktion von unbekannten ORFs in Hefe. Anhand der Sequenz eines
ORF ist es möglich,
unter Verwendung von standardgemäßen Genunterbrechungstechniken
einen Deletionsstrang zu erzeugen. Der Deletionsstrang wird dann
unter einer Reihe von selektiven Bedingungen herangezüchtet, um
einen Phänotypen
zu identifizieren, welcher die Funktion des fehlenden ORF offenbart.
Die individuelle Analyse von Tausenden von Deletionssträngen zur
Bewertung einer großen
Anzahl selektiver Bedingungen ist jedoch impraktikabel.
-
Zur
Lösung
dieses Problems wurden individuelle ORF-Deletionen mit einem charakteristischen
molekularen Tag versehen. Die deletionsspezifischen Tags wurden
durch Hybridisierung an ein Oligonukleotidsondenarray mit hoher
Dichte ausgelesen, welches zu jedem Tag komplementäre Sondensätze umfasste.
-
Die
Molekulartagstrategie beinhaltet eine vier Schritte umfassende Vorgehensweise
zur Erzeugung von mit Tags versehenen Deletionssträngen, welche
durch selektive Wachstumsassays parallel gepoolt und analysiert
werden können.
-
Einzelne
Deletionsstränge
wurden unter Anwendung einer PCR-Targetingstrategie (Baudin, Ozier-Kalogeropoulos
et al. 1993 Nuc. Acids Res. 21(14): 3329-3330) erzeugt. ORF-spezifische molekulare
Tags wurden während
der Transformation integriert (2). Mit
Tags versehene Deletionsstränge
wurden gepoolt und es wurden repräsentative Aliquots unter verschiedenen
selektiven Bedingungen herangezüchtet.
Die molekularen Tags wurden aus den überlebenden Strängen amplifiziert
und an ein Array mit hoher Dichte hybridisiert, welches Komplemente
zu den Tagsequenzen enthielt (2). Das
Array wurde dann gewaschen und unter Verwendung eines hochempfindlichen
konfokalen Mikroskops gescannt. Das normierte Signal für jedes
Tag spiegelt die relative Abundanz der verschiedenen Deletionsstränge in dem
Pool wider. Die Tauglichkeit der Deletionsstränge in dem Pool wurde durch
Vergleich der vor und nach dem selektiven Heranzüchten erhaltenen Hybridisierungsmuster
bestimmt.
-
Um
die Durchführbarkeit
der molekularen Tagstrategie zu testen, wurde unter Anwendung des
Computerprogramms tags.ccp eine Liste von 9.105 eindeutigen 20-mer-Tagsequenzen
erzeugt (siehe unten und Tabelle 1).
-
-
-
Ein
1,28 cm × 1,28
cm-Array, welches zu den Tagsequenzen komplementäre Sonden umfasste, wurde mittels
standardgemäßer lichtgesteuerter
VLSIPSTM-Verfahren hergestellt. Das resultierende
Sondenarray mit hoher Dichte stellt Sondensätze an bekannten Stellen in
dem Array bereit. Fluoreszenz-Imaging unter Verwendung eines konfokalen
Mikroskops gestattete die Quantifizierung der Hybridisierungssignale
für jeden
der 4.500 Sätze
von 20-meren auf
dem Array (1). Hybridisierungsexperimente
mit 120 fluoreszierend markierten 20-mer-Oligonukleotiden zeigte,
dass die Arrays empfindlich, quantitativ und in höchstem Maße spezifisch sind.
-
Als
Bestandteil einer Durchführbarkeitsstudie
wurden unter Verwendung der in 2 beschriebenen Strategie
mit Tags versehene Deletionsstränge
für elf
charakterisierte auxotrophe Hefegene (ADE1, ADE2, ADE3, ADE4, ADES,
AROA, AR07, TRP2, TRP3, TRP4 und TPR5) erzeugt. Die zur Erzeugung
der Deletionsstränge
verwendeten Oligonukleotide sind in 3 beschrieben
und die Transformationsergebnisse sind in 4 gezeigt.
-
Die
Stränge
wurden gepoolt und in kompletten Medien und verschiedenen Drop-out-Medien
herangezüchtet.
Aus dem Pool extrahierte genomische DNA diente als Template für eine asymmetrische
Tagamplifikation unter Verwendung eines zu gemeinsamen, jedes Tag
flankierenden Regionen homologen Primerpaares (4).
Der Schwund von spezifischen Strängen
aus dem Pool wurde quantitativ gemessen, indem die amplifizierten
Tags an die Arrays mit hoher Dichte hybridisiert wurden (6A–C).
-
Beispiel 2: Ein Verfahren
zur Auswahl von Tags aus einem Pool von Tags
-
Tags
(oder zu den Tags komplementäre
Sonden) werden ausgewählt,
indem man Tags, welche mit einer ähnlichen Hybridisierungsenergie
an das gleiche Target binden, eliminiert. Tags binden dann komplementäre Nukleinsäuren mit
einer ähnlichen
Hybridisierungsenergie, wenn eine zu einem Tag komplementäre Nukleinsäure mit
einer einen spezifischen Schwellenwert überschreitenden Energie an
ein anderes Tag bindet. Die berechnete Energie basiert auf z. B.
der Stapelenergie von verschiedenen Basenpaaren und dem Energiebedarf
für eine
Schleife in der Kette und/oder auf zugeordneten Werten für die Hybridisierung
von Basenpaaren oder auf anderen spezifischen Hybridisierungsparametern.
In diesem Beispiel wurden Tags ausgewählt, indem ähnliche Tags eliminiert wurden
aus einer langen Liste von in Frage kommenden Tags, welche auf Hybridisierungseigenschaften
so wie zugeordneten Stapelwerten für Tag-Sonden-Hybride basierte.
-
Probecmp
wurde geschrieben, um eine Liste nicht ähnlicher Tags aus einer langen
Liste von Tags zu erzeugen. Tags werden dann als ähnlich angesehen,
wenn ein perfektes Match zu einem Tag mit einer einen gewissen spezifischen
Schwellenwert überschreitenden
Energie an ein anderes Tag bindet. Probecmp vereint drei individuelle
Grundideen bei der Auswahl von Tags. Diese Ideen sind:
- 1) ein Modell zur Berechnung des Bedarfs an Hybridisierungsenergie
für Stapel-
und Schleifenbildung;
- 2) Algorithmen zur schnellen Berechnung dieser Energie einschließlich eines
rekursiven, stark reduzierten Algorithmus und eines dynamischen
Programmieralgorithmus; und
- 3) eine Hash-Tabelle zum schnellen Auffinden von perfekt passenden
Segmenten.
-
Das Modell zur Berechnung
des Bedarfs an Hybridisierungsenergie für Stapel- und Schleifenbildung
-
Die
berechnete Energie basiert auf der Stapelenergie von verschiedenen
Basenpaaren und auf dem Energiebedarf für eine Schleife in der Kette.
Beispielsweise kann der Benutzer vorgeben, dass die Energie aus einer
TA-Stapelung 2 sei, GC und CG 4 sei, und AC, AG, TC, GT oder TG
3 sei. Mit diesen Werten beträgt
A G G T A C G = 3 + 4 + 3 + 2 + 3 + 4 = 19. Der Energiebedarf für Schleifen
wird mittels einer Matrix der Schleifengröße auf jedem Strang angegeben:
-
Kommt
z. B. die folgende Paarung vor, so ergibt sich eine Schleifengröße von 1
auf dem ersten Strang und von 0 auf dem zweiten Strang. Ein Blick
auf die Tabelle zeigt einen Schleifenzuschlag von 5 und eine daraus
resultierende Stapelenergie von 14.
-
-
Die Algorithmen zur schnellen
Berechnung der Hybridisierungsenergie
-
Die
Hybridisierungsenergie kann unter Verwendung entweder eines rekursiven
Algorithmus oder eines dynamischen Programmieralgorithmus berechnet
werden. Der rekursive Algorithmus ist schnell, wenn der Energiebedarf
für Schleifen
im Verhältnis
zur Stapelenergie groß ist.
Der dynamische Programmieralgorithmus ist schnell, wenn der Energiebedarf
für Schleifen
im Verhältnis
zur Stapelenergie gering ist.
-
-
Beide
Algorithmen zur Berechnung der Energie beginnen mit 2 Tags, welche
eine perfekte Paarungssequenz mehrerer Basen aufweisen. Dann berechnen
sie die Energie der perfekten Paarungssequenz, finden dann die Paarungen,
die jeweils zur höchsten
Energie vor und nach der Region der perfekten Matches führen. Die
gesamte Paarungsenergie ist die Summe aus diesen drei Energien.
Da es in diesem Modell keine vorgeschriebene Richtung gibt, kann
der gleiche Algorithmus sowohl für
die Energie vor dem Match als auch die Energie nach dem Match angewandt
werden, indem die Reihenfolgen der Fragmente vor dem Match umgekehrt
werden.
-
Ein rekursiver, stark
reduzierter Algorithmus
-
Der
rekursive Algorithmus probiert alle Zweige der Baumstruktur aus
und zieht alle Schleifengrößen in Betracht,
die einen Energiebedarf aufweisen, der gering genug ist, dass die
größtmögliche Energie
für die
verbleibenden Paarungen ausreicht. Der Code für den Algorithmus lautet wie
folgt:
-
Ein dynamischer Programmieralgorithmus
-
Der
dynamische Programmieralgorithmus beginnt mit der Erstellung einer
Matrix von zulässigen
oder "legalen" Verbindungen zwischen
den beiden Fragmenten.
-
-
Dann
wird, ausgehend von der linken oberen Ecke, jede legale Verbindung
in Betracht gezogen und alle vorangegangenen Basen werden identifiziert.
Bei vorangegangenen Basen handelt es sich um jedes beliebige legale
Basenpaar in dem Rechteck links oberhalb der in Betracht gezogenen
Base. In der nachstehenden Figur besitzen die ersten drei legalen
Paarungen keine vorangegangene legale Verbindung außer dem (angenommenen)
perfekten Match vor dem Fehlpaarungssegment.
-
-
Die
Werte in diesen Zellen werden durch die Summe der Stapelenergie
und des Energiebedarfs für die
Schleifen ersetzt.
-
-
Der
Vorgang wird dann für
jede legale Verbindung weiter außen in der Matrix wiederholt.
Ist mehr als eine legale Schleife vorhanden, so wird die Schleife
mit dem höchsten
Wert verwendet. Ist dieser Vorgang abgeschlossen, so ist der Weg,
der zum höchsten
Zellwert führte,
die beste Paarung.
-
-
Eine Hash-Tabelle zum
schnellen Auffinden von perfekten Matchsegmenten
-
Um
den Vergleich eines Tags mit allen anderen Tags in der Liste zu
beschleunigen, bedient sich das Programm einer Hash-Tabelle, welche
auf alle Ereignisse eines beliebigen gegebenen n-mers in dem Satz
von Tags hinweist. Die Hash-Tabelle ist ausgeführt als zwei Arrays aus Strukturen,
welche auf Stellen in Tags zeigen. Das erste Array ist 4 hoch n
Datensätze
lang und das zweite hat die Größe der gesamten
Liste von Tags.
-
-
So
wird eine Datei mit einer Liste aller Tags (oder Sonden) generiert,
aus denen die gewünschten
Tags auszuwählen
sind. Typischerweise sind die Tags einzeln pro Zeile in einer Spalte
aufgelistet, z. B. mit der Überschrift "Sonde" oder "Tag". Die obige Analyse
wird auf die Datei angewandt und es wird basierend auf dem obigen
Verfahren eine Ausgabedatei erzeugt, was eine Liste von Tags ergibt,
in welcher kein Tag an das Komplement eines anderen Tag mit einer
einen spezifischen Schwellenwert überschreitenden Stapelenergie
hybridisiert.
-
Beispiel 3: "tags.ccp"
-
Im
Folgenden wird das Computerprogramm tags.ccp, welches in "C" verfasst und bereits zuvor erwähnt wurde,
bereitgestellt:
-
Beispiel 4: Tags895.ccp
-
Ein
bevorzugtes Verfahren zur Auswahl von Sondenarrays umfasst das Verwerfen
aller Sonden aus einem Pool, welche identische 9-mer-Serien aufweisen
(und damit die Eliminierung von vielen Tags, die kreuzhybridisieren
werden), gefolgt von einem paarweisen Vergleich der verbleibenden
Nukleinsäuretags
und der Eliminierung der Tags, die an das gleiche Target hybridisieren.
Ein beispielhaftes Programm (Tags895.ccp), in "C" verfasst,
wird im Folgenden bereitgestellt.
-
-
-
-
-
-
-
-
-
Die
Erfindung wird durch die angehängten
Ansprüche
definiert.