DE69736215T2

DE69736215T2 - Verfahren zur Detektion von Zielnukleinsäuren unter Verwendung von Markernukleinsäuren

Info

Publication number: DE69736215T2
Application number: DE69736215T
Authority: DE
Inventors: Macdonald S. Felton Morris; Daniel D. Stanford Schoemaker; Ronald W. Palo Alto Davis; Michael P. Palo Alto Mittmann
Original assignee: Affymetrix Inc
Current assignee: Affymetrix Inc
Priority date: 1996-04-04
Filing date: 1997-04-03
Publication date: 2007-06-14
Anticipated expiration: 2017-04-04
Also published as: EP1721993A2; EP0799897B1; US6458530B1; ATE331810T1; EP0799897A1; US20040146901A1; US20030104436A1; DE69736215D1; EP1721993A3

Description

GEBIET DER ERFINDUNG
Die vorliegende Offenbarung bezieht sich auf Sätze von Nukleinsäuretags, Oligonukleotidsondenarrays, mit Nukleinsäuretags versehene Sätze von rekombinanten Zellen und andere Zusammensetzungen und Verfahren zur Selektionierung von Oligonukleotidsondenarrays. Die Offenbarung betrifft die Selektionierung und Interaktion von Nukleinsäuren und auf festen Substraten immobilisierten Nukleinsäuren, einschließlich der damit in Verbindung stehenden chemischen, biologischen und medizindiagnostischen Verwendungen.
HINTERGRUND DER ERFINDUNG
Verfahren zur Herstellung großer Arrays aus Oligonukleotiden und anderen Polymeren auf einem festen Substrat sind bekannt. Pirrung et al., U.S. Patent Nr. 5,143,854 (siehe auch PCT-Anmeldung Nr. WO 90/15070), McGall et al., U.S. Patent Nr. 5,412,087, Chee et al. SN PCT/US94/12305 und Fodor et al., PCT-Veröffentlichung Nr. WO 92/10092 beschreiben Verfahren zur Herstellung von Arrays aus Oligonukleotiden und anderen Polymeren unter Verwendung von z. B. lichtgesteuerten Synthesetechniken.
In der Veröffentlichung von Fodor et al. werden Verfahren zur Verwendung von computergesteuerten Systemen zur Steuerung der Polymerarraysynthese beschrieben. Unter Verwendung des Ansatzes von Fodor wird ein heterogenes Array aus Polymeren durch gleichzeitige Kopplung an multiplen Reaktionsstellen in ein anderes heterogenes Array umgewandelt. Siehe auch Fodor et al. (1991) Science, 251: 767-777; Lipshutz et al. (1995) BioTechniques 19(3): 442-447; Fodor et al. (1993) Nature 364: 555-556 und Medlin (1995) Environmental Health Perspectives 244-246. Die Arrays werden typischerweise auf einer festen Oberfläche mit einer Fläche von weniger als 1 inch² platziert, wenngleich optional auch wesentlich größere Oberflächen verwendet werden.
Weitere zur Polymersynthese auf einem Substrat anwendbare Verfahren sind z. B. beschrieben in U.S. Patent Nr. 5,384,261, welches hierin durch Bezugnahme für alle Zwecke einbezogen ist. In den in diesen Anmeldungen offenbarten Verfahren werden Reagenzien an das Substrat herangebracht, indem Polymersynthesereagenzien auf vorbestimmte Bereiche des festen Substrats fließen gelassen oder aufgespritzt werden. In jedem Fall werden bestimmte aktivierte Bereiche des Substrats physikalisch von anderen Bereichen abgetrennt, wenn die Monomerlösungen an die verschiedenen Reaktionsstellen gebracht werden, z. B. mittels Rillen, Wells und dergleichen.
Verfahren zur Synthese von Polymerarrays werden hierin als VLSIPS^TM ("very large scale immobilized polymer synthesis")-Verfahren bezeichnet. Oligonukleotid-VLSIPS^TM-Arrays sind z. B. zweckmäßig bei einer Vielzahl von Verfahren zur Überwachung von Testnukleinsäuren in einer Probe. In Sondenarrays mit multiplen Sondensätzen können viele individuelle Hybridisierungsinteraktionen gleichzeitig überwacht werden. Jedoch kann eine unerwünschte Hybridisierung zwischen Sonden oder zwischen Sonden und anderen Nukleinsäuren die Analyse von multiplen Hybridisierungen problematisch machen. Die vorliegende Erfindung löst diese und andere Probleme.
ZUSAMMENFASSUNG DER ERFINDUNG
Mit der vorliegenden Erfindung ist es nunmehr möglich, viele individuelle Komponenten, die unter anderem in molekularen, zellulären oder viralen Bibliotheken vorliegen, unter Verwendung einer begrenzten Anzahl von Hybridisierungsbedingungen zu markieren und zu detektieren. Die Komponenten werden mit speziell ausgewählten Nukleinsäuretags markiert und die Anwesenheit von individuellen Tags wird durch die Hybridisierung an ein Sondenarray (typischerweise ein VLSIPS^TM-Array aus Oligonukleotidsonden) überwacht. Folglich sind die Nukleinsäuretags Markierungen für die individuellen Komponenten und das Sondenarray stellt einen Markierungsleser bereit, welcher die gleichzeitige Detektion einer großen Anzahl von Nukleinsäuretags gestattet. Dies ermöglicht eine breit angelegte parallele Analyse aller Komponenten einer Mischung in einem einzigen Assay.
So können z. B., wie hierin erläutert, alle Mitglieder einer zellulären Bibliothek unter Verwendung einer Mischung aller Mitglieder der zellulären Bibliothek hinsichtlich der Antwort auf einen Umgebungsreiz in einem einzigen Assay getestet werden. Dies wird z. B. dadurch erreicht, dass jedes Mitglied der zellulären Bibliothek markiert wird, z. B. durch Klonieren eines Nukleinsäuretags in jeden Zelltyp in der Bibliothek, jeder Zelltyp in der Bibliothek in einer geeigneten Lösung vermischt wird und ein Teil dieser Lösung dem ausgewählten Umgebungsreiz ausgesetzt wird. Die Verteilung von Nukleinsäuren in der Bibliothek vor und nach dem Umgebungsreiz wird durch Hybridisierung der Nukleinsäuren an ein VLSIPS^TM-Array verglichen, was die Detektion der Zellen gestattet, welche spezifisch von dem Umgebungsreiz betroffen sind.
Dem entsprechend stellt die vorliegende Offenbarung unter anderem bereit: Nukleinsäuretags, Sätze von Nukleinsäuretags, Verfahren zur Selektionierung von Nukleinsäuretags, Bibliotheken von Zellen, Viren oder dergleichen enthaltend Nukleinsäuretags, Arrays aus Oligonukleotidsonden, Arrays aus VLSIPS^TM-Sonden, Verfahren zur Selektionierung von Arrays aus Oligonukleotidsonden, Verfahren zur Detektion von Nukleinsäuretags mit VLSIPS^TM-Arrays und andere Merkmale, welche beim weiteren Lesen deutlich werden.
In einer Kategorie von Ausführungsformen stellt die vorliegende Offenbarung ein Verfahren zur Selektionierung eines Satzes von Nukleinsäuretags bereit, welche zur minimalen Kreuzhybridisierung an ein VLSIPS^TM-Array bestimmt sind. Die Abwesenheit der Kreuzhybridisierung ermöglicht die Analyse von Hybridisierungsmustern an VLSIPS^TM-Arrays, da sie Mehrdeutigkeiten in der Interpretation von Hybridisierungsergebnissen reduziert, welche auftreten, weil multiple Nukleinsäurespezies an eine einzelne Sondenspezies auf dem VLSIPS^TM-Array binden. Folglich werden in den Selektionierungsverfahren der vorliegenden Offenbarung potentielle Tags aus dem Satz von Tags ausgeschlossen, sofern sie unter stringenten Bedingungen an die gleiche Nukleinsäure binden wie ausgewählte Tags. Typischerweise schließen die Selektionierungsverfahren die folgenden Schritte ein: Auswahl einer spezifischen thermischen Bindungsstabilität für die Säuretags gegen komplementäre Sonden und Ausschluss von Tags, welche selbstkomplementäre Regionen enthalten. Oftmals wird die thermische Bindungsstabilität der Tags ausgewählt, indem die Bindungsstabilität beeinflussende Parameter angegeben werden, ebenso wie die Länge und die Basenzusammensetzung (z. B. durch Auswahl von Tags mit dem gleichen Nukleotidverhältnis von AT zu GC) für die Nukleinsäuretags ausgewählt wird. In dieser Hinsicht benötigen Tags, welche bei der Bindung an eine komplementäre Sonde mehr GC-Bindungen bilden, weniger Basen insgesamt, um die gleiche Bindungsstabilität mit einer komplementären Sonde zu erreichen, wie Tags mit weniger GC-Resten. Die Bindungsstabilität wird auch von Basen stapelnden Interaktionen, der Bildung von Sekundärstrukturen und der Auswahl des Lösungsmittels, in welchem ein Tag an eine Sonde gebunden ist, beeinflusst.
Die Größe der Tags kann beträchtlich variieren, typischerweise beträgt ihre Länge jedoch zwischen etwa 8–150 Nukleotiden, noch typischer zwischen 10 und 100 Nukleotiden, oftmals etwa zwischen 15 und 30 Nukleotiden, im allgemeinen zwischen etwa 15 und 25 Nukleotiden und, in einer bevorzugten Ausführungsform, etwa 20 Nukleotide. In einigen Anwendungen sind die Tags beträchtlich länger als die Sonden, an welche sie hybridisieren. Die Verwendung von längeren Tags erhöht die Anzahl der Tags, aus denen nicht kreuzhybridisierende Sonden ausgewählt werden können.
Optional werden die Nukleinsäuretags so ausgewählt, dass sie konstante und variable Regionen aufweisen, was die Eliminierung einer aus der Eigenkomplementarität entstehenden Sekundärstruktur ermöglicht und strukturelle Eigenschaften zur Klonierung und Amplifikation der Tags bereitstellt. Beispielsweise werden gegebenenfalls PCR-Bindungsstellen oder Restriktionsenzymstellen in konstante Regionen der Tags eingebaut. In anderen Ausführungsformen werden gemäß codierungstheoretischer Verfahren kurze konstante Regionen hinzugefügt, um eine Fehlausrichtung der Tags zu vermeiden. Optional werden konstante Regionen während der Prozessierungsschritte von dem Tag abgetrennt, z. B. durch Spaltung der Nukleinsäuretags mit Klasse II-Restriktionsenzymen.
Oftmals ist es wünschenswert, Tags zu eliminieren, welche Serien von 4 Nukleotiden ausgewählt aus der Gruppe bestehend aus 4 X-Resten, 4 Y-Resten und 4 Z-Resten, wobei X ausgewählt ist aus der Gruppe bestehend aus G und C, Y ausgewählt ist aus der Gruppe bestehend aus G und A und Z ausgewählt ist aus der Gruppe bestehend aus A und T. Die Eliminierung von solche Serien von Nukleotiden enthaltenden Tags aus einem Satz von Tags vermindert die Bildung von Sekundärstruktur in den ausgewählten Tags in dem Satz von Tags. In manchen Ausführungsformen sind bestimmte Serien gestattet, während andere ausgeschlossen werden. Beispielsweise sind in einer Ausführungsform Serien von 4 A/T- oder G/C-Nukleotiden unzulässig.
In vielen Ausführungsformen sind Tags ausgeschlossen, die sich um weniger als etwa 80% der Gesamtzahl an Nukleotiden, welche die Tags umfassen, unterscheiden. Beispielsweise unterscheiden sich vorzugsweise alle ausgewählten Tags in einem ausgewählten Satz von Tags um mindestens etwa 4–5 Nukleotide. Es ist ebenfalls wünschenswert, Tags auszuschließen, welche umfangreiche Regionen der Sequenzidentität gemeinsam haben, da die identischen Regionen an Nukleinsäuren kreuzhybridisieren können, die eine zur identischen Region komplementäre Untersequenz aufweisen. Beispielsweise werden 20-mer-Tags typischerweise ausgeschlossen, sofern sie über Regionen von 9 oder mehr Nukleotiden identisch sind.
Die Tags in den Tagsätzen der vorliegenden Erfindung unterscheiden sich typischerweise um mindestens zwei Nukleotide, und vorzugsweise um 3–5 Nukleotide für ein typisches 20-mer. Eine Liste von Tags, welche sich um mindestens zwei Nukleotide unterscheiden, kann durch paarweisen Vergleich eines jeden Tags oder durch andere Verfahren erstellt werden. Beispielsweise können die Tagsequenzen für maximale Korrespondenz ausgerichtet und Tags mit einer einzelnen Fehlpaarung verworfen werden. In einer Kategorie von Ausführungsformen wird die Anzahl von A + G-Nukleotiden in jeder der variablen Regionen eines jeden Tags so ausgewählt, dass sie gerade (oder alternativ ungerade) ist. So wird eine "Paritätsbase" oder "Error-Korrekturbase" bereitgestellt, welche sicherstellt, dass jedes Tag mindestens zwei Hybridisierungsfehlpaarungen zwischen jedem Tag in dem Satz von Tags und jeder einzelnen komplementären Nukleinsäuresonde (außer der Sonde, die ein perfektes Komplement zu dem Tag ist) aufweist. Andere Verfahren zur Sicherstellung, dass mindestens zwei Fehlpaarungen zwischen jedem Tag in einem Satz von Tags und jeder einzelnen Hybridisierungssonde existieren, sind ebenfalls geeignet.
Im Allgemeinen ermöglicht die Auswahl der Nukleinsäuretags die Auswahl der Nukleinsäuresonden, z. B. auf VLSIPS^TM-Arrays, welche zur Überwachung der Nukleinsäuretags durch Hybridisierung verwendet werden. Genauer gesagt werden die Sonden auf dem Array hinsichtlich ihrer Fähigkeit ausgewählt, an variable Sequenzen in dem Satz von Nukleinsäuretags zu hybridisieren (die "variable" Region eines Tags, welches keine konstante Region einschließt, ist das gesamte Tag). Folglich können alle Regeln zur Auswahl von Nukleinsäuretags auf die Auswahl von Nukleinsäuresonden angewandt werden, z. B. mittels Durchführung der Schritte zur Tagauswahl und nachfolgender Bestimmung des komplementären Satzes von Nukleinsäuresonden.
In einer weiteren Kategorie von Ausführungsformen stellt die vorliegende Offenbarung Zusammensetzungen umfassend Sätze von Nukleinsäuretags einschließend eine Vielzahl von Nukleinsäuretags bereit. In bevorzugten Ausführungsformen umfasst der Satz von Nukleinsäuretags von 100 bis 100.000 Tags. Typischerweise wird ein Satz von Tags zwischen etwa 500 und 15.000 Tags einschließen. Üblicherweise liegt die Anzahl von Tags in einem Satz von Tags zwischen etwa 5.000 und etwa 14.000 Tags. In einer bevorzugten Ausführungsform umfasst ein Satz von Tags gemäß der vorliegenden Erfindung etwa 8.000 bis 9.000 Tags. Die Tagsequenzen umfassen typischerweise eine variable Region, wobei die variable Region eines jeden Nukleinsäuretags in dem Satz von Nukleinsäuretags das gleiche Verhältnis von G + C zu A + T, in etwa die gleiche T_m und die gleiche Länge aufweist und nicht an eine einzelne komplementäre Nukleinsäuresonde kreuzhybridisiert. Im typischsten Fall können die Nukleinsäuretags in dem Satz von Nukleinsäuretags nicht mit weniger als zwei Unterschieden zwischen jedem Paar von Nukleinsäuretags in dem Satz von Nukleinsäuretags ausgerichtet werden, und oftmals existieren mindestens 5 Unterschiede zwischen jedem Paar von Tags in einem Satz von Tags. In einer Ausführungsform umfassen die Tags ebenfalls eine konstante Region, so wie eine PCR-Primerbindungsstelle zur Amplifikation des Tags.
In einer Kategorie von Ausführungsformen stellt die vorliegende Offenbarung ein Verfahren zur Markierung einer Zusammensetzung bereit, umfassend die Assoziierung eines Nukleinsäuretags mit der Zusammensetzung, wobei das Nukleinsäuretag ausgewählt ist aus einer Gruppe von Nukleinsäuretags, welche nicht kreuzhybridisieren und welche eine im wesentlichen ähnliche T_m aufweisen. Typischerweise werden die Tagmarkierungen mit einem VLSIPS^TM-Array detektiert, welches zu den für die Markierung der Zusammensetzung verwendeten Tags komplementäre Sonden umfasst.
Wie hierin beschrieben, schließen bevorzugte Zusammensetzungen Bestandteile zellulärer, viraler oder molekularer Bibliotheken ein, so wie rekombinante Zellen, rekombinante Viren oder Polymere. Der Fachmann wird jedoch leicht erkennen, dass auch andere Zusammensetzungen unter Verwendung der Nukleinsäuretags markiert werden können und dass die Tags unter Verwendung von VLSIPS^TM-Arrays detektiert werden können. Beispielsweise können Geldscheine von beträchtlichem Wert mit einem Satz von Nukleinsäuretags markiert werden und Fälschungen können durch Überwachung der Hybridisierung beim Waschen der Scheine (oder z. B. bei einer PCR-Amplifikation von angefügten Nukleinsäuren, welche Tagsequenzen kodieren) mit einem geeigneten VLSIPS^TM-Array detektiert werden.
In einer weiteren Kategorie von Ausführungsformen stellt die vorliegende Offenbarung Verfahren zur Vorauswahl von experimentellen Sonden in einem Oligonukleotidsondenarray bereit, wobei die Sonden im Wesentlichen einheitliche Hybridisierungseigenschaften aufweisen und nicht an ein Zielnukleinsäuretag kreuzhybridisieren. In diesen Verfahren wird ein den experimentellen Sonden in dem Array gemeinsames Verhältnis von G + C- zu A + T-Nukleotiden ausgewählt und alle in Frage kommenden 4-Nukleotid-Untersequenzen für die Sonden auf dem Array werden bestimmt. Alle potentiellen Sonden des Arrays, welche unzulässige 4-Nukleotid-Untersequenzen enthalten, werden von den experimentellen Sonden des Arrays ausgeschlossen. 4-Nukleotid-Untersequenzen sind dann unzulässig, wenn die Nukleotid-Untersequenzen ausgewählt sind aus der Gruppe bestehend aus selbstkomplementären Sonden, A₄-Sonden, T₄-Sonden und [G, C]₄-Sonden. Auch im Falle, dass das Zielnukleinsäuretag eine konstante Region umfasst, sind alle Sonden, welche zu der Untersequenz der konstanten Region des Zielnukleinsäuretags komplementär sind, unzulässig und sind nicht Bestandteil des Satz von Tags. Typischerweise wird eine Länge für die Sonden des Arrays ausgewählt, wenngleich nicht hybridisierende Abschnitte der Sonde (d.h. Nukleotide, welche nicht an eine Zielnukleinsäure hybridisieren) gegebenenfalls zwischen verschiedenen Klassen von Sonden variieren. "Experimentelle Sonden" hybridisieren an ein Zielnukleinsäuretag, während "Kontrollsonden" entweder nicht an ein Zielnukleinsäuretag binden oder an eine Nukleinsäure binden, welche Hybridisierungseigenschaften aufweist, die sich von denen der Zielnukleinsäuretags in einem Satz von Nukleinsäuretags unterscheiden. Beispielsweise werden Kontrollsonden gegebenenfalls in VLSIPS^TM-Arrays verwendet, um die Hybridisierungsstringenz gegen eine bekannte Nukleinsäure zu überprüfen.
In einer Kategorie von Verfahren der vorliegenden Erfindung, welche in Anspruch 2 spezifiziert ist, wird eine Vielzahl von Testnukleinsäuren gleichzeitig in einer Probe detektiert. In diesen Verfahren wird ein Array von experimentellen Sonden, welche unter stringenten Bedingungen nicht an ein Target kreuzhybridisieren, verwendet, um die Zielnukleinsäuren zu detektieren. Typischerweise ist das Verhältnis von G + C-Basen in jeder experimentellen Sonde im Wesentlichen identisch. Die Sonden des Arrays werden in Sondensätzen angeordnet, wobei jeder Sondensatz eine homogene Population von Oligonukleotidsonden umfasst. Beispielsweise werden viele einzelne Sonden mit der gleichen Nukleotidsequenz zueinander benachbart in einem bestimmten geometrischen Muster auf der Oberfläche eines Arrays angeordnet. Sondensätze werden zueinander benachbart zu einem Sondenarray angeordnet. Beispielsweise werden, falls es sich bei dem Sondenarray um ein VLSIPS^TM-Array handelt, die Sondensätze gegebenenfalls in Quadraten auf der Oberfläche eines Substrats angeordnet, wodurch auf dem Substrat ein Schachbrettmuster aus Sondensätzen gebildet wird.
Unter stringenten Hybridisierungsbedingungen hybridisieren die Sonden des Arrays spezifisch an mindestens eine Testnukleinsäure in der Probe. Das Verfahren umfasst des Weiteren die Detektion der Hybridisierung der Testnukleinsäuren an das Array aus Oligonukleotidsonden. Typischerweise umfassen die Testnukleinsäuren Tagsequenzen, welche an die experimentellen Sonden des Arrays binden.
In einer Kategorie von Ausführungsformen stellt die vorliegende Offenbarung ein Array aus Oligonukleotidsonden bereit umfassend eine Vielzahl von auf einem festen Substrat befestigten experimentellen Oligonukleotidsondensätzen, wobei unter stringenten Hybridisierungsbedingungen jeder experimentelle Oligonukleotidsondensatz in dem Array an eine andere Zielnukleinsäure hybridisiert. Jede experimentelle Oligonukleotidsonde in den Sondensätzen des Arrays umfasst eine konstante Region und eine variable Region. Die variable Region kreuzhybridisiert unter stringenten Hybridisierungsbedingungen nicht mit der konstanten Region, und die Nukleinsäuresonden kreuzhybridisieren nicht an Zielnukleinsäuren. Typischerweise unterscheiden sich die Sonden aus jedem Sondensatz von den Sonden eines jeden anderen Sondensatzes in dem Array hinsichtlich der Anordnung von mindestens zwei Nukleotiden in den Sonden des Sondensatzes. Im allgemeinen ist das Verhältnis von G + C-Basen in jeder Sonde für jeden experimentellen Sondensatz im Wesentlichen identisch (was bedeutet, dass das G + C-Verhältnis um nicht mehr als 5% variiert), was gewährleistet, dass sie unter ähnlichen Hybridisierungsbedingungen an ein Target mit ähnlicher Reaktionsfreudigkeit hybridisieren. Gegebenenfalls umfassen die Arrays Kontrollsonden, z. B. um die Hybridisierungsbedingungen durch Überwachung der Bindung einer bekannten quantifizierten Nukleinsäure an die Kontrollsonde zu bewerten.
Die vorliegende Offenbarung stellt Arrays aus auf festen Substraten befestigten Oligonukleotiden bereit. Typischerweise werden die Oligonukleotidsonden in dem Array an definierten Stellen in dem Array in Sondensätzen angeordnet, um die Signalprozessierung der Hybridisierungsreaktionen zwischen den Oligonukleotidsonden und den Testnukleinsäuren in einer Probe zu verstärken. Die Oligonukleotidarrays können praktisch jede Anzahl an verschiedenen Oligonukleotidsätzen aufweisen, größtenteils bestimmt durch die Anzahl oder Vielfalt der Testnukleinsäuren oder Nukleinsäuretags, welche in einer gegebenen Anwendung gegen das Array gescreent werden sollen. In einer Kategorie von Ausführungsformen weist das Array von 10 bis zu 100 Oligonukleotidsätze auf. In weiteren Kategorien von Ausführungsformen weisen die Arrays zwischen 100 und 100.000 Sätze auf. In bestimmten Ausführungsformen weisen die Arrays zwischen 10.000 und 100.000 Sätze auf und in wiederum weiteren Ausführungsformen weisen die Arrays zwischen 100.000 und 1.000.000 Sätze auf. Am meisten bevorzugte Ausführungsformen werden zwischen 7.500 und 12.500 Sätze aufweisen. Beispielsweise werden die Arrays in einer bevorzugten Ausführungsform etwa 8.000 Sätze von Oligonukleotidsonden umfassen. In bevorzugten Ausführungsformen wird das Array eine Dichte von mehr als 100 Sätzen von Oligonukleotiden an bekannten Stellen pro cm² aufweisen, oder noch bevorzugter mehr als 1.000 Sätze pro cm². In manchen Ausführungsformen weisen die Arrays eine Dichte von mehr als 10.000 Sätzen pro cm² auf.
Die vorliegende Erfindung stellt ebenfalls Kits wie in Anspruch 1 spezifiziert bereit. Kits der vorliegenden Erfindung umfassen jegliches Array und einen Satz von Tags. Da die Verfahren zur Verwendung der Arrays und Tags gegebenenfalls PCR, LCR und andere in vitro-Amplifikationstechniken zur Amplifikation von Nukleinsäuretags einschließen, schließen die Kits der vorliegenden Erfindung gegebenenfalls auch Reagenzien zur Durchführung von in vitro-Amplifikationsverfahren, so wie taq-Polymerase, Nukleotide, Computersoftware mit Programmen zur Selektionierung von Tags und dergleichen ein. Die Kits umfassen gegebenenfalls auch Reagenzien zur Markierung von Nukleinsäuren, Anleitungen, Behälter und andere Gegenstände, die für den Fachmann beim weiteren Lesen offensichtlich sein werden.
Die Erfindung wird durch die angehängten Ansprüche definiert.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine gescannte Darstellung eines 1,28 cm auf 1,28 cm Arrays mit hoher Dichte, das mit einem fluoreszenzmarkierten Kontrolloligonukleotid hybridisiert ist. Das Array enthält Sequenzen, welche komplementär zu 4.500 wie in Tabelle 1 beschrieben ausgewählten 20-mer-Tags sind. Die Kontrolloligonukleotide werden in den Ecken und in einem Fadenkreuzmuster über das Array synthetisiert, um die Einheitlichkeit der Synthese und der Hybridisierungsbedingungen zu verifizieren. Die Kontrolloligonukleotide wurden ebenfalls mit "DNA TAGS" beschriftet. Die dunklen Bereiche zeigen die Lage der 4.500 20-Basen-Molekulartags an. Es ist zu beachten, dass keine Kreuzhybridisierung der Kontrolloligonukleotide und der molekularen Tagsequenzen stattfindet.
2 zeigt eine PCR-Targetingstrategie, welche verwendet wird, um mit Tags versehene Deletionsstränge zu erzeugen. (a) Der ORF (open reading frame) wird anhand der Sequenzinformation aus der Datenbank identifiziert. Regionen, die den ORF unmittelbar flankieren werden verwendet, um den Deletionsstrang zu erzeugen. (b) Der selektierbare Marker (kan^r) wird unter Verwendung eines Paares von langen Primern amplifiziert, um ein ORF-spezifisches Deletionskonstrukt zu erzeugen. Der stromaufwärts gelegene 86-mer-Primer besteht aus (5' bis 3'): 30 Hefe-Homologie-Basen, einer gemeinsamen 18-Basen-Tag- Primingstelle, einem 20-Basen molekularen Tag und einer Sequenz von 22 Basen, welche zu einer Seite des Markers homolog ist. Das stromabwärts gelegene Oligonukleotid besteht aus 50 Basen von Hefehomologie zur anderen Seite des anvisierten ORF und 16 Basen, welche homolog zur anderen Seite des Markers sind. Die gestrichelte Linie, welche die langen Oligonukleotide repräsentiert, zeigt, dass die Primer ungereinigt sind und dass an ihrem 5'-Ende eine Sequenz fehlt. (c) Ein zweiter PCR-Durchgang mit 20-meren, welche zu den Enden des ursprünglichen PCR-Produkts homolog waren, wurde verwendet, um die zerfetzten Enden, welche von ungereinigtem Oligonukleotid im ersten Durchgang verursacht wurden, "wegzuspülen". (d) Der auf beiden Seiten von Hefe-ORF-Homologie flankierte resultierende Marker wird direkt in haploiden Hefestrang transformiert und eine homologe Rekombination führt zu einer Ersetzung des anvisierten ORF durch den Marker, das 20-mer-Tag und die Tag-Primingstelle.
3 zeigt Oligonukleotide, welche verwendet werden, um den mit einem ADE1-Tag versehenen Deletionsstrang zu erzeugen. Ähnliche Sätze von Oligonukleotiden wurden für die anderen zehn auxotrophen ORFs synthetisiert.
4 zeigt die Transformationsergebnisse und die Taginformation für elf auxotrophe ORFs. Mittels Replika-Plattierung und PCR wurden acht Kolonien aus jeder Transformation analysiert. Die daraus resultierende Targeting-Effizienz ist für jeden der ORFs gezeigt. Für die molekularen Tags, welche zur eindeutigen Markierung der verschiedenen Deletionsstränge verwendet wurden, sind die Sequenz und die x, y-Koordinaten gezeigt.
5 zeigt die in Beispiel 1 beschriebene Tag-Amplifikationsstrategie. (a) Es wurde ein Deletionspool erzeugt, indem gleiche Anzahlen der elf in 3 beschriebenen mit Tags versehenen Deletionsstränge kombiniert wurden. Aus einem repräsentativen Aliquot des Pools isolierte genomische DNA wurde als Template für eine Tag-Amplifikationsreaktion verwendet. (b) Die Tags wurden amplifiziert unter Verwendung eines einzelnen Primerpaares, welches homolog ist zu den gemeinsamen Primingstellen, die jedes Tag flankieren. Einer der gemeinsamen Primer ist mit 5'-Fluoreszein markiert und beinhaltete einen 10-fachen Überschuss gegenüber dem unmarkierten Primer. (c) Die asymmetrische Natur der PCR erzeugt eine Population von einzelsträngigen fluoreszenzmarkierten 60-mer-Tag-Amplikons, welche direkt an das 20-mer-Array mit hoher Dichte hybridisiert sind, welches dann gewaschen und gescannt wird. (d) Ein reales gescanntes Bild des Arrays zeigt das (vorausgesagte) Hybridisierungsmuster für die Tags mit praktisch keiner Kreuzhybridisierung auf dem Rest des Chips. Eine vergrößerte Ansicht der linken Ecke zeigt die Lage der Tags für jeden der unterschiedlichen Deletionsstränge.
6 zeigt die Analyse eines Deletionspools enthaltend 11 mit Tags versehene auxotrophe Deletionsstränge. Es wurde ein Deletionspool erzeugt, indem gleiche Anzahlen von Zellen aus jedem der 11 in 3 beschriebenen Deletionsstränge kombiniert wurden. Repräsentative Aliquots wurden in (A) kompletten Medien (SDC), (B) in Medien ohne Adenin (SDC-ADE), (C) oder in Medien ohne Tryptophan (SDC-TRP) gezüchtet. Die Zellen wurden zu den angegebenen Zeitpunkten geerntet und genomische DNA wurde isoliert. Die Tags wurden aus der genomischen DNA amplifiziert und markierte Amplikons wurden für 30 Minuten direkt an das Array mit hoher Dichte hybridisiert, gewaschen und gescannt. Eine Vergrößerung der oberen linken Ecke ist für jeden der Scans gezeigt.
DEFINITIONEN
Sofern nicht anderweitig definiert, haben die hierin verwendeten technischen und naturwissenschaftlichen Fachbegriffe die gleiche Bedeutung, wie sie gemeinhin von einem Fachmann auf dem Gebiet der vorliegenden Erfindung verstanden wird. Singleton et al. (1994) Dictionary of Microbiology and Molecular Biology, zweite Auflage, John Wiley and Sons (New York), und March (March, Advanced Organic Chemistry Reactions, Mechanisms and Structure, 4. Aufl., J. Wiley and Sons (New York, 1992), liefern dem Fachmann einen allgemeinen Leitfaden für viele der in der vorliegenden Erfindung verwendeten Begriffe.
Wenngleich der Fachmann erkennen wird, dass es viele Verfahren und Materialien zur möglichen Verwendung bei der praktischen Durchführung der vorliegenden Erfindung gibt, die den hierin beschriebenen ähnlich oder gleichwertig sind, so werden dennoch die bevorzugten Verfahren und Materialien beschrieben. Für die Zwecke der vorliegenden Erfindung werden nachstehend die folgenden Begriffe definiert.
"Eukaryotische" Zellen sind Zellen, welche zumindest einen Nukleus enthalten, in dem die genomische DNA der Zelle organisiert ist, oder welche differenzierte Abkömmlinge von Zellen sind, die zumindest einen Nukleus enthielten. Eukaryoten unterscheiden sich von Prokaryoten, welche zelluläre Organismen sind, die ihre genomische DNA im Zytoplasma der Zelle tragen.
Ein "Nukleosid" ist ein Pentoseglykosid, in welchem das Aglykon eine heterozyklische Base ist; beim Hinzufügen einer Phosphatgruppe wird die Verbindung zu einem Nukleotid. Die bedeutendsten biologischen Nukleoside sind β-Glykosidderivate von D-Ribose oder D-2-Desoxyribose. Nukleotide sind Phosphatester von Nukleosiden, welche aufgrund ihrer Hydroxygruppen auf dem Phosphat azidisch sind. Die polymerisierten Nukleotide Desoxyribonukleinsäure (DNA) und Ribonukleinsäure (RNA) speichern die genetische Information, welche alle Aspekte der Interaktion eines Organismus mit seiner Umgebung steuert. Die Nukleoside von DNA und RNA sind über Phosphateinheiten, welche an der 3- Position einer bestimmten Pentose und der 5-Position der nächsten Pentose befestigt sind, miteinander verbunden.
Eine "Nukleinsäure" ist ein Desoxyribonukleotid- oder Ribonukleotidpolymer in entweder einzel- oder doppelsträngiger Form und umfasst, soweit nicht anderweitig beschränkt, bekannte Analoga von natürlichen Nukleotiden, die in ähnlicher Weise funktionieren wie natürlich vorkommende Nukleotide.
Ein "Oligonukleotid" ist ein Nukleinsäurepolymer, welches aus zwei oder mehr Nukleotiden oder Nukleotidanaloga zusammengesetzt ist. Ein Oligonukleotid kann aus natürlichen Quellen derivatisiert werden, wird aber oftmals chemisch synthetisiert. Es kann eine beliebige Größe aufweisen.
Ein "Oligonukleotidarray" ist ein räumlich definiertes Muster von Oligonukleotidsonden auf einem festen Träger. Ein "präselektioniertes Array aus Oligonukleotiden" ist ein Array aus räumlich definierten Oligonukleotiden auf einem festen Träger, der vor seiner Konstruktion geplant wird (d.h. die Anordnung von Polymeren auf einem/dem festen Substrat während der Synthese ist nicht zufällig, sondern beabsichtigt).
Ein in der standardgemäßen automatisierten Oligonukleotidsynthese verwendetes "Nukleinsäurereagens" trägt typischerweise ein geschütztes Phosphat auf dem 3'-Hydroxyl der Ribose. Folglich werden Nukleinsäurereagenzien als Nukleotide, Nukleotidreagenzien, Nukleosidreagenzien, Nukleosidphosphate, Nukleosid-3'-Phosphate, Nukleosidphosphoramidite, Phosphoramidite, Nukleosidphosphonate, Phosphonate und dergleichen bezeichnet. Es wird im Allgemeinen verstanden, dass Nukleotidreagenzien eine geschützte Phosphatgruppe tragen, um eine Phosphodiester-Kopplung zu bilden.
Eine "Schutzgruppe", wie hierin verwendet, bezeichnet eine jede der Gruppen, welche dafür vorgesehen sind, eine reaktive Stelle in einem Molekül zu blockieren während eine chemische Reaktion an einer anderen reaktiven Stelle durchgeführt wird. Genauer gesagt kann es sich bei den hierin verwendeten schützenden Gruppen um eine jede der Gruppen handeln, welche beschrieben sind in Greene, et al., Protective Groups In Organic Chemistry, 2. Aufl., John Wiley & Sons, New York, NY, 1991, welches hierin durch Bezugnahme einbezogen ist. Die korrekte Auswahl von schützenden Gruppen für eine bestimmte Synthese wird durch die insgesamt in der Synthese angewandten Verfahren bestimmt. Beispielsweise handelt es sich bei den schützenden Gruppen bei der hierin besprochenen "lichtgesteuerten" Synthese typischerweise um photolabile Schutzgruppen so wie NVOC, MeNPoc sowie die Gruppen, welche in der ebenfalls anhängigen Anmeldung PCT/US93/10162 (eingereicht am 22. Oktober 1993), hierin durch Bezugnahme einbezogen, offenbart sind. In anderen Verfahren werden Schutzgruppen durch chemische Verfahren entfernt und schließen Gruppen ein wie FMOC, DMT und andere dem Fachmann bekannte Gruppen.
Ein "festes Substrat" weist eine fixierte organisatorische Trägermatrix auf, so wie Siliziumdioxid, Polymermaterialien oder Glas. In manchen Ausführungsformen ist mindestens eine Oberfläche des Substrats partiell eben. In anderen Ausführungsformen ist es wünschenswert, Bereiche des Substrats physikalisch voneinander zu trennen, um Synthesebereiche abzugrenzen, z. B. durch Furchen, Rillen, Wells oder dergleichen. Beispiele für feste Substrate schließen Slides, Beads und polymere Chips ein. Ein fester Träger wird "funktionalisiert", um die Kopplung von bei der Polymersynthese verwendeten Monomeren zu gestatten. Beispielsweise wird ein fester Träger gegebenenfalls durch eine kovalente Kopplung an den 3'-Kohlenstoff auf einer Furanose an ein Nukleosidmonomer gekoppelt. Typischerweise sind feste Trägermaterialien während der Polymersynthese nicht reaktiv und stellen so einer Grundlage zur Verankerung des wachsenden Polymers bereit. Feste Trägermaterialien schließen ein, sind jedoch nicht beschränkt auf, Glas, Siliziumdioxid, poröses Glas ("controlled pore glass" CPG), Polystyrol, Polystyrol/Latex und mit Carboxyl modifiziertes Teflon. Die festen Substrate sind biologisch, nicht-biologisch, organisch, anorganisch oder eine beliebige Kombination daraus; sie liegen vor als Partikeln, Stränge, Niederschläge, Gels, Sheets, Röhren, Kugeln, Container, Kapillaren, Pads, Filme, Platten, Objektträger etc., je nach ihrer spezifischen Verwendung. Bei lichtgesteuerten Syntheseverfahren ist das feste Substrat oft eben, nimmt aber gegebenenfalls alternative Oberflächenkonfigurationen an. Beispielsweise enthält das feste Substrat gegebenenfalls erhöhte oder vertiefte Bereiche, auf welchen die Synthese stattfindet. In manchen Ausführungsformen ist das feste Substrat so ausgewählt, dass es geeignete Lichtabsorptionseigenschaften aufweist. Beispielsweise kann es sich bei dem Substrat handeln um einen polymerisierten Langmuir-Blodgett-Film, funktionalisiertes Glas, Si, Ge, GaAs, GaP, SiO₂, SiN₄, modifiziertes Silizium oder jegliches aus einer Vielzahl von Gels oder Polymeren, so wie (Poly-) Tetrafluorethylen, (Poly-) Vinylidendifluorid, Polystyrol, Polycarbonat oder Kombinationen davon. Andere geeignete Materialien für feste Substrate werden für den Fachmann leicht offensichtlich sein. Vorzugsweise wird die Oberfläche des festen Substrats reaktive Gruppen so wie Carboxyl, Amino, Hydroxyl, Thiol und dergleichen enthalten. Noch mehr bevorzugt ist die Oberfläche optisch transparent und weist Oberflächen-Si-OH-Funktionalitäten auf, so wie sie auf Siliziumdioxidoberflächen vorzufinden sind. Ein Substrat ist ein Material mit einer starren oder halbstarren Oberfläche. In Spritz- oder Fließ-VLSIPS^TM-Techniken ist gegebenenfalls mindestens eine Oberfläche auf dem festen Substrat eben, wenngleich es in vielen Ausführungsformen wünschenswert ist, Synthesebereiche für verschiedene Polymere z. B. durch Wells, erhöhte Bereiche, geätzte Furchen oder dergleichen physikalisch abzutrennen. In manchen Ausführungsformen enthält das Substrat selbst Wells, Furchen, Durchflussbereiche etc, welche die Bereiche, auf denen die Polymersynthese stattfindet, ganz oder partiell ausmachen.
In Bezug auf eine Zelle oder ein Virus verwendet, zeigt der Begriff "rekombinant" an, dass die Zelle oder das Virus eine DNA oder RNA kodiert, deren Ursprung außerhalb der Zelle oder des Virus liegt. Folglich exprimieren rekombinante Zellen z. B. gegebenenfalls Nukleinsäuren (z. B. RNA), welche in der nativen (nicht-rekombinanten) Form der Zelle nicht vorzufinden sind.
"Stringente" Hybridisierungsbedingungen sind sequenzabhängig und werden bei verschiedenen Umgebungsparametern (Salzkonzentrationen), Anwesenheit von organischen Substanzen, etc.) unterschiedlich sein. Im Allgemeinen werden stringente Bedingungen so ausgewählt, dass sie bei einer definierten Ionenstärke und definiertem pH-Wert etwa 5°C bis 20°C niedriger als der thermische Schmelzpunkt (T_m) der spezifischen Nukleinsäuresequenz sind. Vorzugsweise sind stringente Bedingungen etwa 5°C bis 10°C niedriger als der thermische Schmelzpunkt für eine spezifische Nukleinsäure, welche an eine komplementäre Nukleinsäure gebunden ist. T_m ist die Temperatur (bei definierter Ionenstärke und definiertem pH-Wert), bei der 50% einer Nukleinsäure (z. B. Tagnukleinsäure) an eine perfekt gepaarte Sonde hybridisieren. Die "thermische Bindungsstabilität" ist ein Maß für die temperaturabhängige Stabilität eines Nukleinsäureduplexes in Lösung. Die thermische Bindungsstabilität für ein Duplex hängt ab von dem Lösungsmittel, der Basenzusammensetzung des Duplexes, der Anzahl und dem Typ von Basenpaaren, der Position von Basenpaaren in dem Duplex, der Länge des Duplexes und dergleichen.
"Stringente" Waschbedingungen werden für gewöhnlich für die Hybridisierung eines jeden Satz von Tags an ein korrespondierendes Sondenarray empirisch bestimmt. Die Arrays werden zunächst hybridisiert (typischerweise unter stringenten Hybridisierungsbedingungen) und dann mit Puffern gewaschen, welche immer geringer werdende Konzentrationen von Salzen und/oder immer höher werdende Konzentrationen an Detergenzien und/oder steigende Temperaturen aufweisen, bis der Störabstand zwischen spezifischer und nichtspezifischer Hybridisierung ausreichend groß ist, um die Detektion der spezifischen Hybridisierung zu erleichtern.
Stringente Temperaturbedingungen schließen üblicherweise Temperaturen über etwa 30°C, noch gebräuchlicher über etwa 37°C und gelegentlich über etwa 45°C ein. Stringente Salzbedingungen sind normalerweise geringer als etwa 1.000 mM, üblicherweise geringer als etwa 500 mM, noch gebräuchlicher geringer als etwa 400 mM, typischerweise geringer als etwa 300 mM, bevorzugt geringer als etwa 200 mM und noch mehr bevorzugt geringer als etwa 150 mM. Die Kombination der Parameter ist jedoch wichtiger als die Größe eines beliebigen einzelnen Parameters. Siehe z. B. Wetmur und Davidson (1968) J. Mol. Biol. 31: 349-370 und Wetmur (1991) Critical Reviews in Biochemistry and Molecular Biology 26(3/4), 227-259.
Der Begriff "identisch" im Zusammenhang mit zwei Nukleinsäuresequenzen bezieht sich auf die Reste in den beiden Sequenzen, welche bei einer Ausrichtung für maximale Korrespondenz gleich sind. Die optimale Ausrichtung der Sequenzen zum Vergleich kann z. B. durchgeführt werden mittels des Homologielokalenalgorithmus von Smith und Waterman, Adv. Appl. Math. 2: 482 (1981), mittels des Homologieausrichtungsalgorithmus von Needleman und Wunsch, J. Mol. Biol. 48: 443 (1970), mittels des Ähnlichkeitensuchverfahrens von Pearson und Lipman, Proc. Natl. Acad. Sci. (U.S.A.) 85: 2444 (1988), mittels computerisierter praktischer Umsetzungen dieser Algorithmen (GAP, BESTFIT, FASTA und TFASTA im Wisconsin Genetics Software Paket, Genetics Computer Group, 575 Science Dr., Madison, WI), oder mittels Kontrolle.
Ein Nukleinsäure "tag" ist eine ausgewählte Nukleinsäure mit einer spezifizierten Nukleinsäuresequenz. Eine Nukleinsäure "sonde" hybridisiert an einen Nukleinsäure "tag". In einer typischen Konfiguration werden Nukleinsäuretags als Markierungen in biologische Bibliotheken eingebaut und die Nukleinsäuretags werden unter Verwendung eines VLSIPS^TM-Arrays aus Sonden detektiert. Folglich funktioniert der Nukleinsäure "tag" in analoger Weise wie eine Barcodemarkierung und das VLSIPS^TM-Array aus Sonden funktioniert in analoger Weise wie ein Barcodemarkierungslesegerät. Eine "Liste von Nukleinsäuretags" ist ein Pool von Nukleinsäuretags oder eine Darstellung (d.h. in elektronischer oder gedruckter Form) der Sequenzen in dem Pool von Nukleinsäuretags. Der Pool von Tags kann z. B. aus allen in Frage kommenden Tags einer spezifizierten Länge (d.h. alle 20-mere) oder einer Teilmenge davon bestehen.
Ein Satz von Nukleinsäuretags bindet mit "minimaler Kreuzhybridisierung" an eine Sonde, wenn eine einzelne Spezies (oder ein "Typ") von Tag in dem Satz von Tags die Mehrheit aller Tags ausmacht, welche unter stringenten Bedingungen an ein Array umfassend eine Sondenspezies binden. Typischerweise sind unter stringenten Bedingungen etwa 80% oder mehr der an die Sondenspezies gebundenen Tags von einer einzigen Spezies. Üblicherweise sind unter stringenten Bedingungen etwa 90% oder mehr der an die Sondenspezies gebundenen Tags von einer einzigen Spezies. Bevorzugt sind unter stringenten Bedingungen 95% oder mehr der an die Sondenspezies gebundenen Tags von einer einzigen Spezies.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Die vorliegende Offenbarung stellt Verfahren zu Auswahl und Detektion von Sätzen von Nukleinsäuretags bereit. Zusätzlich stellt die vorliegende Offenbarung Arrays aus Nukleinsäuresonden zur Detektion von Nukleinsäuretags, Sätzen von Nukleinsäuretags und Zellen, welche Nukleinsäuretags umfassen, bereit. Die Nukleinsäuretags, Nukleinsäuresondenarrays und mit Nukleinsäuretags transformierten Zellen finden eine Vielzahl von Verwendungen. Am gebräuchlichsten werden die Nukleinsäuretags der vorliegenden Erfindung verwendet, um Zellen mit bekannten genotypischen Markern zu markieren (Mutanten, Polymorphismen etc.) und um die Auswirkung von Veränderungen in der Umgebung auf die Lebensfähigkeit der mit Tags versehenen Zellen zu verfolgen.
Beispielsweise wurden bei Abschluss der Sequenzierung von S. cerevisiae Tausende von offenen Leserahmen (ORFs) identifiziert. Eine Strategie zur Bestimmung der Funktion der identifizierten ORFs ist es, Deletionsmutanten für jeden ORF zu kreieren und danach die resultierenden Deletionsmutanten unter einer großen Vielzahl von selektiven Bedingungen zu analysieren. Typischerweise ist es das Ziel einer solchen Analyse, einen Phänotypen zu bestimmen, welcher die Funktion des fehlenden ORF aufzeigt. Würde die Analyse für jede Deletionsmutante in einem separaten Experiment durchgeführt, so wären sowohl der Zeit- als auch der Kostenaufwand zur Überwachung der Auswirkung einer Veränderung eines Umgebungsparameters auf jede Deletionsmutante viel zu groß. Beispielsweise würden zur Identifizierung der ORFs, welche zur Synthese einer Aminosäure notwendig sind, alle der Tausenden von ORF-Deletionsmutanten einzeln auf die Fähigkeit der Mutante getestet werden, in Medien ohne die betreffende Aminosäure zu wachsen. Selbst wenn die Analyse parallel durchgeführt würde, z. B. unter Verwendung von 96-Well-Platten, so wäre der erforderliche Aufwand zur Plattierung, Organisation, Markierung und Verfolgung eines jeden Klons viel zu groß. Die vorliegende Erfindung stellt eine wesentlich kostengünstigere Vorgehensweise für das Screening von Zellen bereit.
In den Verfahren der vorliegenden Erfindung können alle der zuvor beschriebenen Tausenden von Deletionsmutanten parallel in einem einzigen Experiment getestet werden. Die Deletionsmutanten werden jeweils mit einem Nukleinsäuretag versehen und die Deletionsmutanten werden dann gepoolt. Die gepoolten, mit Tags versehenen Deletionsmutanten werden dann gleichzeitig hinsichtlich ihrer Antwort auf einen Umgebungsreiz getestet (z. B. Wachstum in Medium, welchem eine Aminosäure fehlt). Die deletionszellenspezifischen Tags werden dann unter Verwendung eines Sondenarrays, so wie eines VLSIPS^TM-Arrays, ausgelesen. Analog agieren die deletionszellenspezifischen Nukleinsäuretags folglich als Barcode-Markierungen für die Zellen und das VLSIPS^TM-Array agiert als ein Barcodelesegerät.
Während das zuvor genannte Beispiel spezifisch die Markierung von Hefezellen diskutiert, wird der Fachmann leicht erkennen können, dass im wesentlichen jeder Zelltyp mit den erfindungsgemäßen Nukleinsäuretags markiert werden kann, einschließlich Prokaryoten, Eukaryoten und Archebakterien. Auch kann im Wesentlichen jedes Virus in ähnlicher Weise markiert werden, ebenso wie zelluläre Organellen mit Nukleinsäuren (Mitochondrien, Chloroplasten, etc.). Genau genommen ist die Markierung mittels Nukleinsäuretags und die Detektion mittels Sondenarrays in keiner Weise auf biologische Materialien beschränkt. Der Fachmann wird erkennen, dass viele andere Zusammensetzungen ebenfalls mittels Nukleinsäuretags markiert und mittels Sondenarrays detektiert werden können. Im wesentlichen kann alles, was von der Anfügung einer Markierung profitiert, markiert und mittels der Tags, Arrays und Verfahren der vorliegenden Erfindung detektiert werden. Beispielsweise können große Geldscheine, Originalkunstwerke, wertvolle Briefmarken, bedeutende juristische Dokumente so wie Testamente, Besitzurkunden und Verträge mit Nukleinsäuretags markiert und die Tags unter Verwendung von Sondenarrays ausgelesen werden. Verfahren zur Befestigung an und Abtrennung von vielen Substraten sind in der Technik wohlbekannt, einschließend Glas, Polymere, Papier, Keramik und dergleichen, und diese Techniken können bei den Nukleinsäuretags der vorliegenden Erfindung angewandt werden.
Der Fachmann wird ebenfalls anerkennen, dass, während viele der Beispiele hierin die Verwendung eines einzelnen Nukleinsäuretags zur Markierung einer Zelle beschreiben, auch multiple Tags zur Markierung einer jeglichen Zelle verwendet werden können, z. B. durch Klonierung multipler Nukleinsäuretags in die Zelle. In ähnlicher Weise können multiple Nukleinsäuretags verwendet werden, um eine Substanz, so wie die zuvor beschriebenen, zu markieren. Tatsächlich werden multiple Markierungen typischerweise bevorzugt, wenn der Zweck der Nukleinsäuretags die Entdeckung von Fälschungen ist. Beispielsweise können die Nukleinsäuretags der vorliegenden Offenbarung verwendet werden, um einen großen Geldschein mit Hunderten oder gar Tausenden von individuellen Tags zu markieren, so dass die Visualisierung des Hybridisierungsmusters der Tags auf einem VLSIPS^TM-Array verifiziert, dass der Geldschein echt ist.
Der Fachmann wird ebenfalls erkennen, dass es nicht notwendig ist, ein Tag direkt an ein Sondenarray zu hybridisieren, um den im Wesentlichen gleichen Effekt zu erzielen. Beispielsweise werden Nukleinsäuretags optional (und bevorzugt) z. B. mittels PCR oder LCR oder anderer bekannter Amplifikationstechniken amplifiziert und die Amplifikationsprodukte ("Amplikons") an das Array hybridisiert. Beispielsweise schließt ein Nukleinsäuretag optional PCR-Primer-Bindungsstellen ein, oder befindet sich in deren Nähe, welche, wenn sie unter Verwendung von standardgemäßen PCR-Techniken amplifiziert werden, das Nukleinsäuretag oder eine Untersequenz davon amplifizieren. Folglich können Zellen oder andere mit Tags versehene Objekte selbst dann detektiert werden, wenn die Nukleinsäuretags in nur sehr geringen Mengen vorhanden sind. Der Fachmann wird erkennen, dass ein einzelnes Molekül eines Nukleinsäuretags nach der Amplifikation, z. B. mittels PCR, leicht detektiert werden kann. Die Verminderung der Komplexität der Amplifikation einer ausgewählten Mischung von Tags (d.h. es liegen im Vergleich zu einem Pool genomischer DNA relativ wenige Amplikon-Nukleinsäurespezies vor) erleichtert die Analyse des Gemischs von Tags.
In einer bevorzugten Ausführungsform werden die Tags so ausgewählt, dass jedem ausgewählten Tag ein komplementäres ausgewähltes Tag zugeordnet ist. Wird ein Tag z. B. in einen Organismus kloniert, so kann das Tag mittels LCR, PCR oder anderer Amplifikationsverfahren amplifiziert werden. Das amplifizierte Tag ist oftmals doppelsträngig. In bevorzugten Ausführungsformen werden Tagsätzen, welche komplementäre Tagsätze einschließen, korrespondierende Sonden für jedes komplementäre Tag zugeordnet. Beide Stränge eines doppelsträngigen Tag-Amplifikationsprodukts werden von dem Sondenarray separat überwacht. Die Hybridisierung eines jeden der Stränge des doppelsträngigen Tags bietet unabhängiges Auslesen hinsichtlich der An- oder Abwesenheit des Nukleinsäuretags in einer Probe.
Auswahl von Tag-Nukleinsäuren.
Die vorliegende Offenbarung stellt Methoden zur Auswahl von Nukleinsäuretagsätzen bereit, welche zweckmäßig zur Markierung von Zellen und anderen Zusammensetzungen sind, wie zuvor beschrieben. Die durch die Auswahlmethoden bereitgestellten Tagsätze weisen einheitliche Hybridisierungseigenschaften auf (d.h. eine ähnliche thermische Bindungsstabilität an komplementäre Nukleinsäuren), wodurch sich die Tagsätze zur Detektion mittels VLSIPS^TM- und anderer Sondenarrays, so wie Southern oder Northern Blots, eignen. Da die Hybridisierungseigenschaften der Tags einheitlich sind, können alle Tags in dem Satz typischerweise unter Verwendung eines einzigen Satzes von Hybridisierungs- und Waschbedingungen detektiert werden. Wie in den nachfolgenden Beispielen beschrieben, wurden verschiedene Auswahlverfahren verwendet, um Listen von etwa 10.000 geeigneten 20-mer-Nukleinsäuretags aus allen in Frage kommenden 20-mer-Sequenzen (etwa 1,200,000,000,000) zu erstellen. Die Synthese eines einzigen Arrays mit 10.000 zu den 10.000 Nukleinsäuretags komplementären Sonden (d.h. zur Detektion der Tags) wurde unter Verwendung von standardgemäßen VLSIPS^TM-Techniken durchgeführt, um ein VLSIPS^TM-Array herzustellen.
Wünschenswerte Nukleinsäuretags weisen verschiedene Eigenschaften auf. Diese schließen unter anderem ein, dass die Hybridisierung der Tags an ihre komplementäre Sonde (d.h. in dem VLSIPS^TM-Array) stark und einheitlich ist, dass einzelne Tags nur an ihre komplementären Sonden hybridisieren und nicht signifikant mit zu anderen Sequenztags komplementären Sonden kreuzhybridisieren und dass, falls es mit den Tags assoziierte konstante Regionen gibt (z. B. Klonierungsstellen oder PCR-Primer-Bindungsstellen), die konstanten Regionen nicht an einen korrespondierenden Sondensatz hybridisieren. Weist der ausgewählte Satz von Tags die beschriebenen Eigenschaften auf, so kann jede beliebige Mischung von Tags an ein korrespondierendes Array hybridisiert werden und die Abwesenheit oder Anwesenheit des Tags kann eindeutig bestimmt und quantifiziert werden. Ein weiterer Vorteil eines solchen Satz von Tagses besteht darin, dass das Ausmaß der Bindung eines jeden Satz von Tagses quantifiziert werden kann, was das relative Verhältnis jedes beliebigen individuellen Nukleinsäuretags zu jedem beliebigen anderen Nukleinsäuretag in dem Satz von Tags anzeigt.
Die zuvor umrissenen Eigenschaften werden durch das Befolgen einiger oder aller der nachstehend aufgeführten Auswahlschritte zur Selektionierung von Tagsequenzmerkmalen erhalten.

(1) Bestimmung aller in Frage kommenden Nukleinsäuretags einer ausgewählten Länge oder mit ausgewählten Hybridisierungseigenschaften. Wenngleich die nachstehenden Beispiele zum Zwecke der Veranschaulichung Methoden zur Auswahl von Tags aus Tagpools einer einzigen Länge bereitstellen, so wird der Fachmann doch erkennen, dass die Tags verschiedene Längen aufweisen können, z. B. in Fällen, in denen die Tags die gleichen (oder sehr ähnliche) Schmelztemperaturen gegen perfekt komplementäre Targets aufweisen. Der Fachmann wird ebenfalls erkennen, dass je nach Anwendung eine Teilmenge aller in Frage kommenden Tags verwendet werden kann. Werden die Tags dazu verwendet, einen Organismus zu detektieren, können z. B. 20-mere, welche nicht in dem Genom des Organismus vorkommen, als Ausgangspunkt für einen Pool von in Frage kommenden Nukleinsäuretags verwendet werden. Beispielsweise ist das gesamte Genom von S. cerevisiae verfügbar. Werden Tags in den Organismus kloniert, so ist es bevorzugt, alle 20-mere, welche natürlich in dem Genom vorkommen, von der Erwägung als Tagsequenzen auszuschließen, damit eingeführte Tagsequenzen in Hybridisierungsassays nicht mit endogenen Sequenzen verwechselt werden. Die Auswahl der Länge des Nukleinsäuretags hängt von den gewünschten Hybridisierungs- und Diskriminierungseigenschaften des Sondenarrays zur Detektion des Tags ab. Im Allgemeinen gilt: je länger das Tag, desto größer die Stringenz der Hybridisierungen und des Waschens der hybridisierten Nukleinsäuren auf dem Array. Längere Tags werden jedoch nicht genauso leicht auf dem Array diskriminiert, da eine einzige Fehlpaarung auf einem langen Nukleinsäureduplex eine weniger destabilisierende Auswirkung auf die Hybridisierung hat als eine einzelne Fehlpaarung auf einem kurzen Nukleinsäureduplex. Es wird vorausgesetzt, dass der Fachmann mit der Theorie und Praxis der Nukleinsäurehybridisierung an ein Nukleinsäurearray umfassend vertraut ist. Zusätzlich zu den Patenten und der vorstehend zitierten Literatur bezüglich der Synthese von VLSIPS^TM-Arrays, stellen Gait, ed. Oligonucleotide Synthesis: A Practical Approach, IRL Press, Oxford (1984); W.H.A. Kuijpers, Nucleic Acids Research 18(17), 5197 (1994); K.L. Dueholm, J. Org. Chem. 59, 5767-5773 (1994); S. Agrawal (ed.), Methods in Molecular Biology, Band 20 und Tijssen, (1993) Laboratory Techniques in biochemistry and molecular biology- hybridization with nucleic acid probes, z. B. Teil I, Kapitel 2 "overview of principles of hybridization and the strategy of nucleic acid probe assays", Elsevier, New York, einen grundlegenden Leitfaden zur Nukleinsäurehybridisierung bereit. Im typischsten Fall weisen Tags eine Länge zwischen 8 und 100 Nukleotiden und vorzugsweise zwischen etwa 10 und 30 Nukleotiden auf. Am meisten bevorzugt weisen die Tags eine Länge zwischen 15 und 25 Nukleotiden auf. Beispielsweise weisen die Nukleinsäuretags in einer bevorzugten Ausführungsform eine Länge von etwa 20 Nukleotiden auf.
(2) Die Tags werden so ausgewählt, dass keine Komplementarität zwischen einer beliebigen Sonde in einem Array, welches zur Hybridisierung an den Satz von Tags selektioniert wurde, und einer beliebigen konstanten Tagregion vorliegt (konstante Tagregionen werden optional bereitgestellt, um Primerbindungsstellen zu liefern, z. B. zur PCR-Amplifikation des Restes des Tags oder um die ausgewählten Tags wie nachstehend beschrieben zu limitieren). Mit anderen Worten: die komplementäre Nukleinsäure der variablen Region eines Nukleinsäuretags kann nicht an eine beliebige konstante Region des Nukleinsäuretags hybridisieren. Der Fachmann wird erkennen, dass konstante Regionen in Tagsequenzen optional sind und typischerweise dann verwendet werden, wenn eine PCR- oder eine andere Primerbindungsstelle innerhalb des Tags verwendet wird.
(3) Die Tags werden so ausgewählt, dass kein Tag an eine Sonde mit nur einer Fehlpaarung hybridisiert (alle Tags unterscheiden sich um mindestens zwei Nukleotide). Je nach Anwendung können gegebenenfalls Tags ausgewählt werden, welche mindestens 2 Fehlpaarungen, 3 Fehlpaarungen, 4 Fehlpaarungen, 5 Fehlpaarungen oder mehr gegenüber einer Sonde aufweisen, die zu dem Tag nicht perfekt komplementär ist. Typischerweise werden alle Tagsequenzen so ausgewählt, dass sie nur an eine perfekt komplementäre Sonde hybridisieren und die nächstgelegene Möglichkeit zur Fehlpaarungshybridisierung mindestens zwei Hybridisierungsfehlpaarungen aufweist. Folglich unterscheiden sich die Tagsequenzen typischerweise um mindestens zwei Nukleotide, wenn sie zur maximalen Korrespondenz ausgerichtet sind. Vorzugsweise unterscheiden sich die Tags um etwa 5 Nukleotide, wenn sie zur maximalen Korrespondenz ausgerichtet sind (z. B. wenn die Tags 20-mere sind). Die Tags werden oftmals so ausgewählt, dass sie keine identischen Serien von Nukleotiden einer bestimmten Länge aufweisen. Sind die Tags z. B. 20-mere, so werden die Tags vorzugsweise so ausgewählt, dass keine zwei Tags Serien von 9 oder mehr Nukleotiden gemeinsam haben. Der Fachmann wird erkennen, dass die Länge der unzulässigen Identität in Abhängigkeit von der ausgewählten Länge des Tags variiert. Es wurde empirisch bestimmt, dass Kreuzhybridisierung in Tagsätzen vorkommt, wenn 20-mer-Tags mehr als etwa 8 aufeinanderfolgende Nukleotide gemeinsam haben.
(4) Die Tags werden so ausgewählt, dass keine Sekundärstruktur innerhalb der zur Detektion der zu den Tags komplementären Tags verwendeten komplementären Sonden vorliegt. Dies wird typischerweise bewerkstelligt, indem Tags, welche Untersequenzen von 4 oder mehr komplementären Nukleotiden aufweisen, aus einem ausgewählten Satz von Tags eliminiert werden.
(5) Die Tags werden so ausgewählt, dass sich zwischen einem Tag und einer beliebigen assoziierten konstanten Sequenz keine Sekundärstruktur ausbildet. Selbstkomplementäre Tags weisen in Arrays schwache Hybridisierungseigenschaften auf, da die komplementären Abschnitte der Sonden (und der korrespondierenden Tags) aneinander hybridisieren (z. B. Haarnadelstrukturen ausbilden).
(6) Die Tags werden so ausgewählt, dass zu den Tags komplementäre Sonden nicht aneinander hybridisieren, wodurch eine Duplexbildung der Tags in Lösung verhindert wird.
(7) Weist das Tag mehr als eine konstante Region auf, so werden die konstanten Regionen des Tags so ausgewählt, dass sie nicht mit sich selbst hybridisieren oder keine Haarnadelstrukturen ausbilden.
(8) Sind die Tags von einer einzigen Länge, so werden die Tags so ausgewählt, dass sie ungefähr die gleiche und bevorzugt exakt die gleiche gesamte Basenzusammensetzung aufweisen (d.h. das gleiche A + T zu G + C-Verhältnis von Nukleinsäuren). Weisen die Tags unterschiedliche Längen auf, so wird das A + T zu G + C-Verhältnis bestimmt, indem eine thermische Schmelztemperatur für die Tags ausgewählt wird und ein A + T zu G + C-Verhältnis und eine Sondenlänge für jedes Tag mit der ausgewählten thermischen Schmelztemperatur ausgewählt werden.

Der Fachmann wird erkennen, dass es eine Reihe von möglichen Arten gibt, die obigen Auswahlschritte durchzuführen. Im typischsten Fall werden die Auswahlschritte unter Verwendung von einfachen Computerprogrammen zur Durchführung der Auswahl in jedem der zuvor umrissenen Schritte durchgeführt; alle diese Schritte werden jedoch optional auch manuell ausgeführt. Die folgenden Strategien werden zu exemplarischen Zwecken bereitgestellt; der Fachmann wird erkennen, dass zum Erhalt ähnlicher Ergebnisse eine Reihe von ähnlichen Strategien angewandt werden können.
In einer Ausführungsform wurde die Sekundärstruktur mittels des Tags verhindert und die Hybridisierung unter oder zwischen Paaren von komplementären Sonden (Vorgaben 4, 5 und 6, oben) wurde verhindert, indem 4 Basenuntersequenzen innerhalb der Tags analysiert wurden, welche dynamisch ausgeschlossen wurden, sobald eine beliebige der folgenden Eigenschaften zutraf:

(a) Alle Tags mit komplementären Regionen von 4 oder mehr Basen, einschließlich derer, welche sich in der Sequenz überschneiden, und selbstkomplementärer 4-mere. Um die Hybridisierung variabler Tagsequenzen an die konstanten Primersequenzen zu verhindern wurden Regionen von 4 oder mehr Basen in einem Tag, welche vollständig oder teilweise komplementär zu 4 in der konstanten Sequenz enthaltenen Basensequenzen sind, welche durch mindestens 3 Basen voneinander getrennt waren (d.h. die minimale zur Ausbildung einer Haarnadelstruktur erforderliche Trennung).
(b) Um die Einheitlichkeit der Hybridisierungsstärke zu gewährleisten wurden Serien von 4-meren ausgeschlossen, welche sich lediglich aus 4 As, 4 Ts oder 4 G oder C-Resten zusammensetzten. Der Ausschluss von Serien von T/A und G/A ist ebenfalls wünschenswert.

Gegebenenfalls wird eine weitere Auswahl vorgenommen, um Aspekte der zuvor umrissenen Auswahlschritte zu verfeinern. Beispielsweise können zur Auswahl von Tags, welche mit geringerer Wahrscheinlichkeit kreuzhybridisieren, fixiertere oder beschränktere Basen zum Zwecke der Ausrichtung hinzugefügt werden, die Tags können verlängert werden und es können zusätzliche Codierungserfordernisse auferlegt werden. In einer Ausführungsform wird die durch das obige Verfahren ausgewählten Tags durchgeführt und eine Teilmenge von Tags mit reduzierter Hybridisierung wird ausgewählt. Beispielsweise wird ein erstes Tag aus dem zuvor erzeugten Satz ausgewählt und ein zweites Tag wird aus dem Satz von Tags ausgewählt. Wenn das zweite Tag nicht mit dem ersten Tag kreuzhybridisiert, so verbleibt das zweite Tag in dem Satz von Tags. Wenn es doch kreuzhybridisiert, wird das Tag verworfen. Folglich wird jedes Tag aus der mittels der zuvor umrissenen Verfahren ausgewählten Gruppe mit jedem anderen Tag in der Gruppe verglichen und wird basierend auf dem Vergleich der Hybridisierungseigenschaften ausgewählt oder verworfen. Dieser Vorgang des Vergleichs von einem Tag mit jedem anderen in Frage kommenden Tag in einem Pool von Tags wird als paarweiser Vergleich bezeichnet. Ähnlich wie in den zuvor umrissenen Schritten kann die Kreuzhybridisierung in einem dynamischen Programmierungsverfahren, wie zuvor zur Sequenzausrichtung verwendet, bestimmt werden.
Eine Verfeinerung der zuvor genannten Verfahren beinhaltet eine Verrechnung der Unterschiede bei der durch positionelle Auswirkungen von Fehlpaarungen in dem Sonden-Tag-Duplex verursachten Destabilisierung. Die Gesamtanzahl von Fehlpaarungen ist nicht die beste Einschätzung des Hybridisierungspotentials, da das Ausmaß der Destabilisierung in höchstem Maße von sowohl den Positionen als auch den Arten der Fehlpaarungen abhängt. Beispielsweise wirken sich zwei benachbarte fehlgepaarte Basen in einem 20-Nukleotid- Duplex im Allgemeinen weniger destabilisierend aus als zwei in gleichmäßigen Abständen verteilte Fehlpaarungen. Eine genauerer Einschätzung des Kreuzhybridisierungspotentials kann erreicht werden, indem man die beiden Tags unter Verwendung von dynamischer Programmierung oder anderer Verfahren direkt miteinander vergleicht. In diesen Ausführungsformen wird unter Einhaltung der folgenden Regeln (in welchen die Anwesenheit einer konstanten Region in den Tags optional ist) ein Satz von Tagsequenzen erzeugt:

(A) Alle Tags weisen die gleiche Länge N und eine ähnliche Basenzusammensetzung auf. Bestimmte Serien von Basen und potentielle Haarnadelstrukturen sind unzulässig (siehe oben).
(B) Keine zwei Tagsequenzen enthalten eine identische Untersequenz der Länge n, für einige Schwellenlänge n. Die zweite Regel gestattet schnelles Screening der Mehrzahl der kreuzhybridisierenden Sonden (das Auswahlverfahren ist linear), wobei eine engere Auswahl verbleibt, aus der jedes Sondenpaar hinsichtlich der Ähnlichkeit verglichen wird (dies nimmt eine zum Quadrat der Anzahl der Sonden proportionale Zeitspanne in Anspruch). Bei dem Verfahren handelt es sich im Wesentlichen um eine alphabetische Baumstruktursuche mit der Hinzufügung eines Arrays, um verfolgen zu können, welche n-mere in zuvor erzeugten Tags verwendet wurden. Jedes Mal wenn die Hinzufügung einer Base an das wachsende Tag ein n-mer erzeugt, welches bereits in einem vorhergehenden Tag verwendet wurde, verfolgt das Verfahren den Weg zurück und probiert den nächsten Wert der Base.
(C) In diesem Schritt werden Paare von Tags unter Verwendung einer komplexeren Hybridisierungsenergieregel miteinander verglichen. Für jedes Paar von Tags wird die Energie der Hybridisierung eines jeden Tags an das Komplement des anderen berechnet. Überschreitet die Energie einen gewissen Schwellenwert, so wird eines der Tags aus der Liste entfernt. Sonden werden so lange entfernt bis keine den Schwellenwert überschreitenden Paare mehr auf der Liste vorhanden sind. Beispielsweise lautet in einer Ausführungsform die Energieregel wie folgt: ein Punkt für eine Paarung (zwei angrenzende passende Basenpaare), minus 2 Punkte für Fehler, bei denen sich eine einzelne Base auf einem Strang nach außen wölbt und minus 3 Punkte für alle anderen Fehler, einschließlich langer und asymmetrischer Schleifen. Der höchste Ausrichtungswert zwischen jedem Paar von Tags wurde bestimmt unter Verwendung eines dynamischen Programmieralgorithmus mit einem Präprozessor, welcher zur Einleitung eines Vergleichs eine kurze Paarung von mindestens 5 Basen benötigt.

Komplexere Energieregeln können durch Verfeinerung der Hybridisierungsregeln in dieses System integriert werden. Zusätzlich können komplexere Regeln zur Berechnung der Hybridisierungsenergie in jedem beliebigen der zuvor genannten Vorgänge angewandt werden. Siehe Vesnaver et al. (1989), Proc. Natl. Acad. Sci. USA 86, 3614-3618; Wetmur (1991), Critical Reviews in Biochemistry and Molecular Biology 26(3/4), 227-259 und Breslauer et al. (1986), Proc. Natl. Acad. Sci. USA 83, 3746-3750.
Der unter Anwendung des paarweisen Vergleichs ausgewählte Satz von Tags ist nicht eindeutig. Er ist abhängig von der Reihenfolge der Auswertung der Tags. Beispielsweise enthält die abschließende Liste mehr Tags, die mit A anfangen als mit T, wenn die Tags in alphabetischer Reihenfolge ausgewertet werden. Es kann auch eine komplexere Vorgehensweise zur Erzeugung des größtmöglichen Satzes solcher Tags mit Debruijn-Sequenzen (Sequenzen, in welchen jedes n-mer für irgendeine Länge n exakt einmal vorkommt) angewandt werden. Beispielsweise könnte eine Debruijn-Sequenz, welche alle n-mere integriert, mit Überschneidungen von n-1 in 20-mere aufgeteilt werden und somit die maximale Anzahl der 20-mere ergeben, welche kein n-mer gemeinsam haben. Diese Vorgehensweise wird dahingehend modifiziert, die anderen zuvor umrissenen Vorgaben für Tags zu berücksichtigen. Beispielsweise werden Basenserien typischerweise aus der ursprünglichen Debruijn-Sequenz entfernt und 20-mere mit unausgewogener Basenzusammensetzung oder Palindrome (welche in einer Größenordnung größer als n auftreten) werden in einem der Verarbeitung nachgeschalteten Schritt entfernt.
Es sind viele alternative Vorgehensweisen zur Auswahl und zum Ausschluss von Tags möglich. Beispielsweise können alle paarweise auftretenden Energien berechnet werden, bevor irgendwelche in Frage kommenden Tags verworfen werden, und das Tag, das die meisten den Energieschwellenwert überschreitenden Beinahe-Paarungen aufweist, kann verworfen werden. Das verbleibende Tag mit den meisten Beinahe-Paarungen (nicht einschließend die Beinahe-Paarungen mit Tags, die bereits verworfen wurden) kann verworfen werden. Dieser Vorgang wird so lange wiederholt, bis keine Beinahe-Paarungen mehr vorhanden sind.
Beispielsweise fehlt den Tags in einer bevorzugten Ausführungsform der zuvor genannten Auswahlverfahren eine konstante Region. Die Tags werden ausgewählt, indem man alle in Frage kommenden n-mere z. B. 20-mere auswählt und Sequenzen eliminiert welche:

(i) Serien von 4 × aufweisen, wobei x ein A, T, C, oder G ist (z. B. AAAA);
(ii) eine Sekundärstruktur aufweisen, in welcher es zu einer Serie von 4 aufeinanderfolgenden Nukleotiden eine komplementäre passende Serie von 4 Nukleotiden innerhalb des Tags gibt; oder
(iii) eine 9-Basen-Untersequenz (oder eine andere ausgewählte Anzahl von Untersequenzen, typischerweise von 5 bis 15) mit einem beliebigen anderen Tag gemeinsam haben.

Alle Tags werden dann so ausgewählt, dass sie den gleichen GC-Gehalt aufweisen, wodurch alle Tags ähnliche Schmelztemperaturen bei der Bindung an eine komplementäre Sonde aufweisen. Die Durchführung der zuvor genannten Schritte begrenzt die Anzahl der Tags in dem Satz von Tags auf einen Pool von etwa 50.000 in Frage kommenden Tags, wenn die Tags 20-mere sind.
Es wird dann eine paarweise Auswahlstrategie ausgeführt, um einen endgültigen Satz von Tags zu erhalten. Im paarweisen Vergleich wird ein erstes Tag mit jedem anderen Tag in dem Satz von Tags hinsichtlich der Hybridisierung an das Komplement des ersten Tags verglichen. Bindet das erste Tag an ein Target mit einem Hybridisierungsschwellenwert, so wird ein ausgewählter Wert eingehalten, welcher höher als jedes andere Tag in dem in Frage kommenden Satz ist. Bindet ein anderes Tag in dem in Frage kommenden Satz von Tags mit einer über dem ausgewählten Schwellenwert liegenden Hybridisierungsenergie an das Komplement des ersten Tags, so wird das erste Tag verworfen. Dieser Vorgang wird für jedes in dem Pool von in Frage kommenden Tags verbleibende Tag wiederholt. In Beispiel 4 (Tags895.ccp) wird ein in "C" verfasstes Computerprogramm bereitgestellt, welches die zuvor genannten Auswahlschritte durchführt. Eine Veränderung des Schwellenwerts führte zu Sätzen von 0 bis 50.000 Tags. In einer bevorzugten Ausführungsform wurden 9.000 Tags erzeugt.
Allgemeiner ausgedrückt werden Tags (oder zu den Tags komplementäre Sonden) ausgewählt, indem Tags, welche kreuzhybridisieren (mit einer ähnlichen Hybridisierungsenergie an die gleiche Nukleinsäure binden), eliminiert werden. Tags binden komplementäre Nukleinsäure dann mit einer ähnlichen Hybridisierungsenergie, wenn eine zu einem Tag komplementäre Nukleinsäure mit einer einen bestimmten Schwellenwert überschreitenden Energie an ein anderes Tag bindet; ist z. B. ein Tag ein perfektes Match für die Sonde, so wird ein zweites Tag ausgeschlossen, wenn es die gleiche Sonde mit einer Hybridisierungsenergie bindet, welche der Hybridisierungsenergie der perfekten Matchsonde ähnlich ist. Bindet das zweite Tag mit typischerweise etwa 80 bis 95% oder mehr, oder noch typischer etwa 90 bis 95% oder mehr, oder am typischsten etwa 95% oder mehr der Energie eines perfekt komplementären Tags an die Sonde, so wird das Tag aus dem Satz von Tags verworfen. Die berechnete Energie kann basieren auf der Stapelenergie verschiedener Basenpaare, dem Energieaufwand für eine Schleife in der hybridisierten Sonden-Tag-Nukleinsäurekette und/oder auf zugeordneten Werten für die Hybridisierung von Basenpaaren oder auf anderen spezifischen Hybridisierungsparametern. Im nachfolgenden Beispiel 2 wurden Tags ausgewählt, indem ähnliche Tags aus einer umfangreichen auf Hybridisierungseigenschaften so wie zugeordnete Stapelwerte für Tag-Sonden-Hybride basierenden Liste in Frage kommender Tags eliminiert wurden.
Es werden auch Verfahren angewandt, welche keinen paarweisen Vergleich beinhalten. In einer Ausführungsform wurden die Tags so ausgewählt, dass sie einen konstanten Abschnitt und einen variablen Abschnitt enthielten. Der variable Abschnitt der Tagsequenz war auf Sequenzen beschränkt, welche nicht mehr als einen C-Rest enthalten. Als konstante Region der Tagsequenz wurde 3'(ACTC)₄CC ausgewählt. Diese Auswahl von spezifischen Sequenzen erfüllt die zuvor genannte Vorgabe 7 (die konstante Region wurde so ausgewählt, dass sie nicht selbstkomplementär ist). Der Fachmann wird erkennen, dass auch andere konstante Regionen ausgewählt werden können, z. B. wenn eine Primerbindungsstelle oder eine Restriktionsendonukleasenstelle in die Tags integriert ist.
Die Vorgabe 2 wird ebenfalls erfüllt, da die Sonde (welche zum variablen Abschnitt des Tags komplementär ist) keine aufeinanderfolgende Region von hybridisierenden Basen aufweist, mit der Ausnahme einer einzelnen auf einigen der Sonden vorhandenen AGT- oder TGA-Sequenz, und selbst diese Sequenzen sind nicht benachbart zu dem variablen Abschnitt des Tags, wo die primäre Hybridisierung stattfindet. Um die Vorgaben (1) und (8) zu erfüllen, werden die Tags so ausgewählt, dass sie die gleiche Länge und den gleichen Gesamtgehalt an G + C aufweisen.
Um eine Kreuzhybridisierung zwischen einem Tag und zu anderen Tags komplementären Sonden zu verhindern, wurde ein Satz von Tags ausgewählt, der nicht mit weniger als zwei Fehlern ausgerichtet werden konnte, wobei ein "Fehler" entweder eine Fehlpaarungshybridisierung oder ein überhängendes Nukleotid ist. Dies wurde durch Fixierung der Sequenz der Basen an den Enden der Tags bewerkstelligt. Insbesondere wurde erzwungen, dass die Basen an den Enden der Tags gleich sind. Es wurde erzwungen, dass die Reste an den Enden gleich sind. Insbesondere wurden die Basen so ausgewählt, dass sie am 5'-Ende mit den Resten GA begannen und am 3'-Ende mit entweder einem A- oder einem T-Rest endeten, gefolgt von einem G-Rest. Diese Anordnung hält die Tags von der Paarung mit passenden Sonden mit einem einzelnen überhängenden Nukleotid und ohne andere Fehler ab, da ein Überhang entweder eine G-A- oder eine G-T-Fehlpaarung erzwingt. Diese Anordnung hält des weiteren die Tags davon ab, eine Paarung mit einem einzelnen Deletionsfehler einzugehen, da eine einzelne Deletion dazu führen würde, dass die Sonde und das Tag an einem Ende fehlausgerichtet wären, was eine Fehlpaarung zur Folge hätte. Der Fachmann wird erkennen, dass diese Strategie auf vielerlei Arten modifiziert werden kann, um gleichwertige Ergebnisse zu liefern, z. B. durch eine Basenauswahl, welche zu C-T- oder C-A-Fehlpaarungen führt.
Um bei der Tag-Sonden-Hybridisierung Einzelfehlpaarungsfehler zu vermeiden, wurden die nächste bis letzte Base vom 5'-Ende aus so ausgewählt, dass die Anzahl von As plus der Anzahl von Gs in der variablen Region gerade war (wie zuvor bereits bemerkt, ist die nächste bis letzte Base vom 5'-Ende aus entweder ein T oder ein A). Diese Base verhält sich dadurch analog zu einem Paritätsbit in der Codierungstheorie, dass sie erfordert, dass mindestens zwei Unterschiede zwischen jedem beliebigen Paar von Tags in dem Satz von Tags bestehen. Dies trifft zu, weil der GC-Gehalt von allen der ausgewählten Tags der gleiche ist (siehe oben); daher müssen jegliche Basenunterschiede in der variablen Region die Substitution von G- und C-Resten oder von T- und A-Resten umfassen. Die Substitution von weniger als zwei Basen führt jedoch zu einer ungeraden Anzahl von G + A-Resten. Folglich unterscheiden sich mindestens zwei Basen in jedem beliebigen Paar von Tags in dem Satz von Tags, was obiger Vorgabe (3) entspricht. In ähnlicher Weise könnte die Strategie verändert werden, indem man z. B. einen anderen Rest in dem Tag als Paritätsbase auswählt, welcher zuordnet, ob der A + G-Gehalt des Tags gerade ist, oder indem man die obige Strategie so anpasst, dass sie eine gerade Anzahl von T + G-Resten liefert.
Es wurde ein Computerprogramm in der Standardprogrammiersprache "C" verfasst, um jeden der Auswahlschritte auszuführen. Der Vollständigkeit halber ist dieses Programm nachfolgend in Beispiel 3 angegeben, es wird jedoch erwartet, dass der Fachmann ähnliche Programme verfassen kann oder die zuvor umrissenen Auswahlschritte manuell durchführen kann, um im wesentlichen ähnliche Ergebnisse zu erhalten. Anstatt jede Sequenz einer ausgewählten Länge hinsichtlich der erwünschten Sequenzmerkmale zu testen, bedient sich Tags.ccp einer reduzierten Baumstruktursuche, um alle Sequenzen zu finden, welche den obigen Vorgaben entsprechen. Wenngleich damit ein hochentwickeltes Auswahlprogramm mit wenigen Verarbeitungsschritten zur Verfügung steht, wird der Fachmann doch erkennen, dass andere Programme verwendet werden können, welche jedes in Frage kommende Tag hinsichtlich einer gewünschten Sequenz testen. Tags.ccp wählt Tagsätze in Abhängigkeit von einer Vielzahl an Parametern aus, einschließlich der konstanten Sequenz, der variablen Sequenz, des GC-Gehalts, der Vorgabe, dass das A + G-Verhältnis ausgeglichen sein soll, und des Verhältnisses der konstanten und variablen Regionen in den Tags des Satz von Tagses. Beispielsweise wurden in einem Experiment eine konstante und eine variable Region ausgewählt. Es wurde eine Länge von 15 Nukleotiden als Länge der variablen Region ausgewählt, als G + C-Gehalt der variablen Region wurden 7 Nukleotide ausgewählt und die gesamte Basenanzahl von A + G wurde so ausgewählt, dass sie gerade war, mit einem Muster von ??N₁₁[AT]?, wobei ? eine ausgewählte fixierte Base ist. Die Parameter ergaben einen Satz von etwa 8.000 Tagsequenzen.
Allgemeiner ausgedrückt weist das Problem, einen Satz von Tagsequenzen zu konstruieren, welche nicht kreuzhybridisieren, eine große Ähnlichkeit zu dem Problem auf, in der Codierungstheorie fehlerkorrigierende Codes zu konstruieren. Der primäre Unterschied besteht darin, dass es in der Codierungstheorie kein Korrelat für Insertionen und Deletionen gibt. Dieses Problem ist, wie zuvor gezeigt, dadurch zu erklären, dass innerhalb der Sondensequenzen konstante Regionen vorhanden sind. Diese Strategie wird verallgemeinert durch eine Veränderung des Ortes des Paritätsbits, der erforderlichen Parität oder der Orte der konstanten Regionen. Komplexere Codes sind ebenfalls zweckmäßig, z. B. Codes, welche mehr Unterschiede zwischen Paaren von Tags erfordern. Siehe Blahut (1983), Theory and Practice of Error Control Codes, Addison-Wesley Publishing Company, Menlo Park, CA.
Der Fachmann wird ebenfalls erkennen, dass Verfahren des paarweisen Vergleichs in Verbindung mit einem beliebigen anderen Auswahlverfahren angewandt werden. Beispielsweise können die gemäß spezifischer Regeln, so wie die von tags.ccp implementierten, erzeugten Tags unter Verwendung eines beliebigen der hierin beschriebenen Verfahren des paarweisen Vergleichs weiter selektioniert werden.
Synthese von Oligonukleotidarrays
Oligonukleotidarrays werden so ausgewählt, dass sie zu den zuvor beschriebenen Nukleinsäuretags komplementäre Oligonukleotide aufweisen. Die Synthese von Oligonukleotidarrays ist im Allgemeinen bekannt. Die Entwicklung einer Technologie zur Synthese von immobilisierten Polymeren im großen Maßstab (VLSIPS^TM) stellt Verfahren zur Anordnung großer Anzahlen von Oligonukleotidsonden in sehr kleinen Arrays bereit. Pirrung et al., US Patent Nr. 5,143,854 (siehe auch PCT-Anmeldung Nr. WO 90/15070), McGall et al., US Patent Nr. 5,412,087, Chee et al., SN PCT/US94/12305 und Fodor et al., PCT-Anmeldung Nr. WO 92/10092 beschreiben Verfahren zur Herstellung von sehr umfangreichen Oligonukleotidarrays unter Verwendung von z. B. lichtgesteuerten Synthesetechniken. Siehe auch Fodor et al. (1991), Science 251: 767-777; Lipshutz et al. (1995), BioTechniques 19(3): 442-447; Fodor et al. (1993), Nature 364: 555-556; und Medlin (1995), Environmental Health Perspectives 244-246.
Wie zuvor beschrieben, sind verschiedene Verfahren zur Herstellung von Oligonukleotidarrays bekannt; dem entsprechend wird hierin kein Versuch unternommen, alle bekannten Verfahren zu beschreiben oder zu katalogisieren. Zu exemplarischen Zwecken werden lichtgesteuerte VLSIPS^TM-Verfahren im Nachfolgenden kurz beschrieben. Der Fachmann wird verstehen, dass alternative Verfahren zur Herstellung von Oligonukleotidarrays, so wie das Aufspritzen und/oder Fließenlassen von Reagenzien über definierte Bereiche eines festen Substrats und auf Beads oder Pins basierende Verfahren, ebenfalls bekannt und auf die vorliegende Erfindung anwendbar sind (siehe z. B. US Pat. Nr. 5,384,261, hierin durch Bezugnahme für alle Zwecke einbezogen). In den in diesen Anmeldungen offenbarten Verfahren werden Reagenzien typischerweise dadurch auf das Substrat aufgebracht, dass man Reagenzien zur Polymersynthese auf vorbestimmte Bereiche des festen Substrats fließen lässt oder aufspritzt.
Lichtgesteuerte VLSIPS^TM-Verfahren sind z. B. in den US Patenten Nr. 5,143,854 und Nr. 5,412,087 zu finden. In den im '854er Patent besprochenen lichtgesteuerten Verfahren wird typischerweise so vorgegangen, dass vorbestimmte Bereiche eines Substrats oder eines festen Trägers aktiviert werden und dann das Substrat mit einer präselektionierten Monomerlösung in Kontakt gebracht wird. Die vorbestimmten Bereiche werden mittels einer Lichtquelle aktiviert, typischerweise durch eine photolithographische Maske. Andere Bereiche des Substrats bleiben inaktiv, da sie durch die Maske von der Illumination abgeschirmt werden. Folglich wird durch ein Lichtmuster definiert, welche Bereiche auf dem Substrat mit einem gegebenen Monomer reagieren. Durch wiederholte Aktivierung von unterschiedlichen Gruppen von vorbestimmten Bereichen und Kontaktieren von verschiedenen Monomerlösungen mit dem Substrat wird auf dem Substrat ein diverses Array von Oligonukleotiden erzeugt. Wenn nötig, werden andere Schritte angewandt, so wie das Abwaschen der unreagierten Monomerlösung von dem Substrat.
Die Oberfläche eines festen Trägers wird typischerweise mit Kopplungsgruppen, welche photolabile Schutzgruppen (z. B. NVOC oder MeNPoc) aufweisen, modifiziert und durch eine photolithographische Maske illuminiert, wodurch sich in den illuminierten Bereichen reaktive Gruppen bilden (z. B. typischerweise Hydroxylgruppen). Beispielsweise wird während der Oligonukleotidsynthese ein durch 3'-O-Phosphoramidit (oder ein anderes Nukleinsäuresynthesereagens) aktiviertes Desoxynukleosid (am 5'-Hydroxyl durch eine photolabile Gruppe geschützt) an der Oberfläche präsentiert und eine Kopplung erfolgt an den Stellen, welche im vorangegangenen Schritt dem Licht ausgesetzt waren. Nach der Bedeckung und der Oxidation wird das Substrat abgespült und die Oberfläche wird durch eine zweite Maske illuminiert, um zusätzliche Hydroxylgruppen zur Kopplung zu exponieren. Ein zweites 5'-geschütztes, durch 3'-O-Phosphoramidit aktiviertes Desoxynukleosid (oder ein anderes geeignetes Oligonukleotidmonomer) wird dann dem resultierenden Array präsentiert. Die Zyklen von selektiver Lichtaussetzung und Kopplung werden so lange wiederholt, bis der gewünschte Satz von Oligonukleotiden hergestellt ist.
Zusätzlich zu VLSIPS^TM-Arrays können auch andere Sondenarrays hergestellt werden. Beispielsweise kann die standardgemäße Southern- oder Northern-Blot-Technologie angewandt werden, um Nukleinsäuresonden an verschiedenen Substraten so wie Papier, Nitrocellulose, Nylon und dergleichen zu fixieren. Da die Herstellung von großen Arrays unter Verwendung von standardgemäßen Technologien schwierig ist, werden VLSIPS^TM-Arrays bevorzugt.
Herstellung von Tag-Nukleinsäuren und Oligonukleotiden zur Kopplung in Arrays; Synthese von Testnukleinsäuren; Klonierung von Nukleinsäuretags in Zellen
Wie zuvor beschrieben, sind einige Verfahren zur Synthese von Oligonukleotidarrays bekannt. In bevorzugten Ausführungsformen werden die Oligonukleotide direkt auf einer festen Oberfläche synthetisiert, wie zuvor beschrieben. In bestimmten Ausführungsformen ist es jedoch zweckmäßig, zunächst die Oligonukleotide zu synthetisieren und diese dann an das feste Substrat zu koppeln, um das gewünschte Array zu bilden. In ähnlicher Weise können Nukleinsäuren im allgemeinen (z. B. Nukleinsäuretags) auf einem festen Substrat synthetisiert und dann von dem Substrat abgetrennt werden, oder sie können in Lösung synthetisiert werden (unter Anwendung chemischer oder enzymatischer Verfahren), oder sie können natürlich vorkommen (d.h. in einer biologischen Probe vorhanden sein).
Molekulare Klonierung und Expressionstechniken zur Herstellung von biologischen und synthetischen Oligonukleotiden und Nukleinsäuren sind im Stand der Technik bekannt. Eine große Vielzahl von Klonierungs-, Expressions- und in vitro-Amplifikationsverfahren, welche zur Konstruktion von Nukleinsäuren geeignet sind, sind dem Fachmann wohl bekannt. Beispiele für Techniken und Instruktionen, welche ausreichen, um den Fachmann bei vielen Klonierungsanwendungen zur Expression und Aufreinigung von biologischen Nukleinsäuren (DNA und RNA) anzuleiten, sind zu finden in Berger und Kimmel, Guide to Molecular Cloning Techniques, Methods in Enzymology, Band 152, Academic Press, Inc., San Diego, CA (Berger); Sambrook et al. (1989), Molecular Cloning – A Laboratory Manual (2. Auflage) Bd. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor Press, NY, (Sambrook); und Current Protocols in Molecular Biology, F.M. Ausubel et al., eds., Current Protocols, ein Gemeinschaftsunternehmen von Greene Publishing Associates, Inc. und John Wiley & Sons, Inc., (1994 Supplement) (Ausubel). Nukleinsäuren so wie Tag-Nukleinsäuren können unter Anwendung von standardgemäßen Klonierungsprotokollen, so wie in Berger, Sambrook und Ausubel beschrieben, in Zellen kloniert werden (wobei rekombinante mit Tags versehene Zellen erzeugt werden).
Beispiele für Techniken, welche ausreichend sind, um den Fachmann anzuleiten bei in vitro-Verfahren zur Nukleinsäuresynthese und Amplifikation von Tags und Sonden in Lösung, einschließlich enzymatischer Verfahren so wie der Polymerase-Kettenreaktion (PCR), der Ligase-Kettenreaktion (LCR), der Qβ-Replikasen-Amplifikation (QBR), der auf Nukleinsäuresequenzen basierenden Amplifikation (NASBA), des SDA-Verfahrens (strand displacement amplification), der zyklischen Sondenamplifikationsreaktion (CPR), verzweigte DNA (bDNA) und andere durch DNA- und RNA-Polymerase vermittelte Techniken, sind bekannt. Beispiele für diese und damit verwandte Techniken sind zu finden in Berger, Sambrook und Ausubel, ebenso wie in Mullis et al., (1987), US Patent Nr. 4,683,202; PCR Protocols A Guide to Methods and Applications (Innis et al. eds) Academic Press Inc. San Diego, CA (1990) (Innis); Arnheim & Levinson (1. Oktober 1990); WO 94/11383; Vooijs et al. (1993), Am J. Hum. Genet. 52: 586-597; C & EN 36-47; The Journal Of NIH Research (1991) 3, 81-94; Kwoh et al. (1989), Proc. Natl. Acad. Sci. USA 86, 1173; Guatelli et al. (1990), Proc. Natl. Acad. Sci. LISA 87, 1874; Lomell et al. (1989) J. Clin. Chem 35, 1826; Landegren et al., (1988) Science 241, 1077-1080; Van Brunt (1990), Biotechnology 8, 291-294; Wu und Wallace, (1989), Gene 4, 560; Sooknanan und Malek (1995) Bio/Technology 13, 563-564; Walker et al,. Proc. Natl. Acad. Sci. LISA 89, 392-396) und Barringer et al. (1990), Gene 89, 117. Verbesserte Verfahren zur Klonierung von in vitro amplifizieren Nukleinsäuren sind in Wallace et al., US Pat. Nr. 5,426,039 beschrieben. In einer bevorzugten Ausführungsform werden Nukleinsäuretags vor der Hybridisierung mit VLSIPS^TM-Arrays, wie zuvor beschrieben, amplifiziert. Werden Nukleinsäuretags z. B. in Zellen in einer zellulären Bibliothek kloniert, so können die Tags unter Verwendung von PCR amplifiziert werden.
Standardgemäße Festphasensynthese von Nukleinsäuren ist ebenfalls bekannt. Oligonukleotidsynthese wird optional auf im Handel erhältlichen Festphasen-Oligonukleotidsynthesegeräten durchgeführt (siehe Needham-Van Devanter et al. (1984), Nucleic Acids Res. 12: 6159-6168) oder sie wird manuell durchgeführt unter Anwendung des von Beaucage et al. (Beaucage et al. (1981), Tetrahedron Letts. 22 (20): 1859-1862) beschriebenen Festphasen-Phosphoramidit-Triester-Verfahrens. Schließlich werden, wie zuvor beschrieben, Nukleinsäuren optional unter Verwendung von VLSIPS^TM-Verfahren in Arrays synthetisiert und gegebenenfalls von dem Array abgetrennt. Die Nukleinsäuren können dann gegebenenfalls wieder an einem festen Substrat befestigt werden, um ein zweites Array zu bilden, falls zweckmäßig, oder, falls zweckmäßig, als Nukleinsäuretags verwendet werden oder als Tagsequenzen zur Klonierung in eine Zelle verwendet werden.
Markierungen
Der Begriff "Markierung" bezieht sich auf eine Zusammensetzung, welche mit spektroskopischen, photochemischen, biochemischen, immunchemischen oder chemischen Mitteln detektiert werden kann. Zweckmäßige Nukleinsäuremarkierungen schließen z. B. ein: 32P, 35S, Fluoreszenzfarbstoffe, Reagenzien mit hoher Elektronendichte, Enzyme (z. B. wie üblicherweise in einem ELISA verwendet), Biotin, Digoxigenin oder Haptene und Proteine, für welche Antiseren oder monoklonale Antikörper erhältlich sind.
Eine große Vielzahl von Markierungen, welche zur Markierung von Nukleinsäuren und für Konjugationstechniken geeignet sind, sind bekannt und ausführlich sowohl in der Patent- als auch in der wissenschaftlichen Literatur beschrieben; sie sind allgemein anwendbar auf die vorliegende Erfindung zur Markierung von Nukleinsäuretags oder amplifizierten Nukleinsäuren zur Detektion durch die Arrays der vorliegenden Erfindung. Geeignete Markierungen schließen ein: Radionukleotide, Enzyme, Substrate, Cofaktoren, Inhibitoren, fluoreszierende Reste, chemilumineszente Reste, magnetische Partikeln und dergleichen. Markierungsagenzien schließen z. B. gegebenenfalls ein: monoklonale Antikörper, polyklonale Antikörper, Proteine oder andere Polymere so wie Affinitätsmatrices, Kohlenhydrate oder Lipide. Die Detektion der Nukleinsäuretags erfolgt gemäß einem beliebigen bekannten Verfahren, einschließend Immunblotting, Verfolgen von radioaktiven oder biolumineszenten Markern, Southern Blotting, Northern Blotting, Southwestern Blotting, Northwestern Blotting oder andere Verfahren, welche ein Molekül aufgrund seiner Größe, Ladung oder Affinität verfolgen. Die jeweilige verwendete Markierung oder detektierbare Gruppe und das jeweilige Assay sind keine ausschlaggebenden Aspekte der vorliegenden Erfindung. Der detektierbare Rest kann aus jedem beliebigen Material bestehen, welches eine detektierbare physikalische oder chemische Eigenschaft aufweist. Solche detektierbaren Markierungen wurden auf den Gebieten der Gele, Säulen und der festen Substrate weit entwickelt und im Allgemeinen können in solchen Verfahren zweckmäßige Markierungen auf die vorliegende Erfindung angewandt werden. Folglich ist eine Markierung jede beliebige Zusammensetzung, welche mit spektroskopischen, photochemischen, biochemischen, immunchemischen, elektrischen, optischen oder chemischen Mitteln detektiert werden kann. Zweckmäßige Markierungen in der vorliegenden Erfindung schließen ein: Fluoreszenzfarbstoffe (z. B. Fluoresceinisothiocyanat, Texasrot, Rhodamin und dergleichen), Radiomarkierungen (z. B. 3H, 125I, 35S, 14C oder 32P), Enzyme (z. B. LacZ, CAT, Meerrettichperoxidase, alkalische Phosphatase und andere, üblicherweise verwendet als detektierbare Enzyme, entweder als Markergenprodukte oder in einem ELISA), Nukleinsäureinterkalatoren (z. B. Ethidiumbromid) und kolorimetrische Markierungen so wie Beads aus kolloidalem Gold oder gefärbtem Glas oder Kunststoff (z. B. Polystyrol, Polypropylen, Latex, etc.).
Die Markierung wird gemäß im Stand der Technik bestens bekannten Verfahren direkt oder indirekt an die gewünschte Nukleinsäure gekoppelt. Wie zuvor angedeutet, wird eine große Vielzahl an Markierungen verwendet, wobei die Auswahl der Markierung von der erforderlichen Empfindlichkeit, der Konjugierbarkeit der Zusammensetzung, Stabilitätskriterien, dem verfügbaren Instrumentarium und von Entsorgungsvorschriften abhängt. Nicht radioaktive Markierungen werden oft indirekt befestigt. Im Allgemeinen wird ein Ligandenmolekül (z. B. Biotin) kovalent an ein Polymer gebunden. Der Ligand bindet dann an ein Anti-Liganden (z. B. Streptavidin)-Molekül, welches entweder selbst detektierbar oder kovalent an ein Signalsystem gebunden ist, so wie ein detektierbares Enzym, eine fluoreszierende Verbindung oder eine chemilumineszente Verbindung. Es können eine Reihe von Liganden und Anti-Liganden verwendet werden. Besitzt ein Ligand einen natürlichen Anti-Liganden, z. B. bei Biotin, Thyroxin und Cortisol, so kann er in Verbindung mit markierten Anti-Liganden verwendet werden. Alternativ kann jede beliebige Hapten- oder Antigenverbindung in Kombination mit einem Antikörper verwendet werden. Markierungen können ebenfalls direkt an signalerzeugende Verbindungen konjugiert werden, z. B. durch Konjugation mit einem Enzym oder einem Fluorophor. Als Markierungen in Frage kommende Enzyme werden in erster Linie Hydrolasen, insbesondere Phosphatasen, Esterasen und Glykosidasen oder Oxidoreduktasen, insbesondere Peroxidasen sein. Fluoreszierende Verbindungen schließen ein: Fluoreszein und dessen Derivate, Rhodamin und dessen Derivate, Dansyl, Umbelliferon und dergleichen. Chemilumineszierende Verbindungen schließen Luziferin und 2,3-Dihydrophthalazinedione, z. B. Luminol, ein. Dem Fachmann sind Mittel zur Detektion von Markierungen bestens bekannt. Handelt es sich bei der Markierung um eine radioaktive Markierung, so schließen Mittel zur Detektion folglich einen Szintillationszähler oder einen photographischen Film wie in der Autoradiographie ein. Handelt es sich bei der Markierung um eine fluoreszierende Markierung, so kann sie detektiert werden, indem das Fluorochrom mit der geeigneten Wellenlänge angeregt wird und die daraus resultierende Fluoreszenz detektiert wird, z. B. mittels Mikroskopie, visueller Inspektion, über einen photographischen Film, durch die Verwendung von elektronischen Detektoren so wie Ladungskopplungsspeicher (CCDs) oder Photomultiplier und dergleichen. Zur Detektion in VLSIPS^TM-Arrays werden fluoreszierende Markierungen und Detektionstechniken, insbesondere Mikroskopie, bevorzugt. In ähnlicher Weise können enzymatische Markierungen durch die Bereitstellung von geeigneten Substraten für das Enzym und die Detektion des daraus resultierenden Reaktionsprodukts detektiert werden. Schließlich werden einfache kolorimetrische Markierungen oftmals einfach durch Wahrnehmen der mit der Markierung assoziierten Farbe detektiert. So erscheint in zahlreichen Dipstick-Assays konjugiertes Gold oftmals pink, während viele konjugierte Beads in der Farbe des Beads erscheinen.
Substrate
Wie zuvor erwähnt, können je nach Assay die Tag-Nukleinsäuren oder zu den Tag-Nukleinsäuren komplementäre Sonden an eine feste Oberfläche gebunden werden. Im Stand der Technik sind viele Verfahren zur Immobilisierung von Nukleinsäuren an eine Vielzahl von festen Oberflächen bekannt. Beispielsweise handelt es sich bei der festen Oberfläche gegebenenfalls um Papier, oder eine Membran (z. B. Nitrozellulose), eine Mikrotiterplatte (z. B. PVC, Polypropylen oder Polystyrol), ein Reagenzglas (Glas oder Kunststoff), ein Dipstick (z. B. Glas, PVC, Polypropylen, Polystyrol, Latex und dergleichen), ein Mikrozentrifugenröhrchen, oder ein Bead aus Glas, Siliziumdioxid, Kunststoff, Metall oder Polymeren oder um ein anderes wie hierin beschriebenes Substrat. Die gewünschte Verbindung kann kovalent an das Substrat gebunden oder durch nicht-spezifische Bindung nicht-kovalent an dem Substrat befestigt sein.
Eine große Vielzahl an organischen und anorganischen Polymeren, sowohl natürlich vorkommend als auch synthetisch hergestellt, können als das Material für die feste Oberfläche verwendet werden. Beispielhafte Polymere schließen ein: Polyethylen, Polypropylen, Poly (4-Methylbuten), Polystyrol, Polymethacrylat, Poly (Ethylenterephthalat), Rayon, Nylon, Poly (Vinylbutyrat), Poylvinylidendifluorid (PVDF), Silikone, Polyformaldehyd, Zellulose, Zelluloseacetat, Nitrocellulose und dergleichen. Andere Materialien, welche je nach Assay geeignet sind, schließen ein: Papier, Glas, Keramik, Metalle, Metalloide, halbleitende Materialien, Zement und dergleichen. Zusätzlich können gelbildende Substanzen so wie Proteine (z. B. Gelatine), Lipopolysaccharide, Silicate, Agarose und Polyacrylamide verwendet werden. Ebenfalls geeignet sind Polymere, welche mehrere wässrige Phasen bilden, so wie Dextrane, Polyalkylenglykole oder oberflächenaktive Substanzen so wie Phospholipide, langkettige (12–24 Kohlenstoffatome) Alkylammoniumsalze und dergleichen. Ist die feste Oberfläche porös, so können je nach der Natur des Systems verschiedene Porengrößen verwendet werden.
Bei der Vorbereitung der Oberfläche wird gegebenenfalls eine Mehrzahl verschiedener Materialien eingesetzt, z. B. als Laminate, um verschiedene Merkmale zu erhalten. So können z. B. Proteinbeschichtungen so wie Gelatine verwendet werden, um die nicht-spezifische Bindung zu verhindern, die kovalente Konjugation zu vereinfachen, die Signaldetektion zu verstärken oder dergleichen. Ist eine kovalente Bindung zwischen einer Verbindung und der Oberfläche gewünscht, so wird die Oberfläche im Allgemeinen polyfunktional sein oder polyfunktionalisiert werden können. Funktionelle Gruppen, welche auf der Oberfläche anwesend sein und zur Kopplung verwendet werden können, können einschließen: Karbonsäuren, Aldehyde, Aminogruppen, Cyanogruppen, Ethylengruppen, Hydroxylgruppen, Mercaptogruppen und dergleichen. Zusätzlich zur kovalenten Bindung können eine Reihe von Verfahren zur nicht-kovalenten Bindung einer Assaykomponente angewandt werden.
BEISPIELE
Beispiel 1: Parallele Analyse von Deletionssträngen von S. cerevisiae.
Die vollständige Sequenz des Genoms von S. cerevisiae ist bekannt. Bei der Sequenzierung des Genoms wurden Tausende von offenen Leserahmen identifiziert, welche potentielle Gene oder Genfragmente repräsentieren. Die Funktion von vieler dieser ORFs ist nicht bekannt.
Die Genunterbrechung ist ein wirksames Instrument zur Bestimmung der Funktion von unbekannten ORFs in Hefe. Anhand der Sequenz eines ORF ist es möglich, unter Verwendung von standardgemäßen Genunterbrechungstechniken einen Deletionsstrang zu erzeugen. Der Deletionsstrang wird dann unter einer Reihe von selektiven Bedingungen herangezüchtet, um einen Phänotypen zu identifizieren, welcher die Funktion des fehlenden ORF offenbart. Die individuelle Analyse von Tausenden von Deletionssträngen zur Bewertung einer großen Anzahl selektiver Bedingungen ist jedoch impraktikabel.
Zur Lösung dieses Problems wurden individuelle ORF-Deletionen mit einem charakteristischen molekularen Tag versehen. Die deletionsspezifischen Tags wurden durch Hybridisierung an ein Oligonukleotidsondenarray mit hoher Dichte ausgelesen, welches zu jedem Tag komplementäre Sondensätze umfasste.
Die Molekulartagstrategie beinhaltet eine vier Schritte umfassende Vorgehensweise zur Erzeugung von mit Tags versehenen Deletionssträngen, welche durch selektive Wachstumsassays parallel gepoolt und analysiert werden können.
Einzelne Deletionsstränge wurden unter Anwendung einer PCR-Targetingstrategie (Baudin, Ozier-Kalogeropoulos et al. 1993 Nuc. Acids Res. 21(14): 3329-3330) erzeugt. ORF-spezifische molekulare Tags wurden während der Transformation integriert (2). Mit Tags versehene Deletionsstränge wurden gepoolt und es wurden repräsentative Aliquots unter verschiedenen selektiven Bedingungen herangezüchtet. Die molekularen Tags wurden aus den überlebenden Strängen amplifiziert und an ein Array mit hoher Dichte hybridisiert, welches Komplemente zu den Tagsequenzen enthielt (2). Das Array wurde dann gewaschen und unter Verwendung eines hochempfindlichen konfokalen Mikroskops gescannt. Das normierte Signal für jedes Tag spiegelt die relative Abundanz der verschiedenen Deletionsstränge in dem Pool wider. Die Tauglichkeit der Deletionsstränge in dem Pool wurde durch Vergleich der vor und nach dem selektiven Heranzüchten erhaltenen Hybridisierungsmuster bestimmt.
Um die Durchführbarkeit der molekularen Tagstrategie zu testen, wurde unter Anwendung des Computerprogramms tags.ccp eine Liste von 9.105 eindeutigen 20-mer-Tagsequenzen erzeugt (siehe unten und Tabelle 1).
Tabelle 1
Ein 1,28 cm × 1,28 cm-Array, welches zu den Tagsequenzen komplementäre Sonden umfasste, wurde mittels standardgemäßer lichtgesteuerter VLSIPS^TM-Verfahren hergestellt. Das resultierende Sondenarray mit hoher Dichte stellt Sondensätze an bekannten Stellen in dem Array bereit. Fluoreszenz-Imaging unter Verwendung eines konfokalen Mikroskops gestattete die Quantifizierung der Hybridisierungssignale für jeden der 4.500 Sätze von 20-meren auf dem Array (1). Hybridisierungsexperimente mit 120 fluoreszierend markierten 20-mer-Oligonukleotiden zeigte, dass die Arrays empfindlich, quantitativ und in höchstem Maße spezifisch sind.
Als Bestandteil einer Durchführbarkeitsstudie wurden unter Verwendung der in 2 beschriebenen Strategie mit Tags versehene Deletionsstränge für elf charakterisierte auxotrophe Hefegene (ADE1, ADE2, ADE3, ADE4, ADES, AROA, AR07, TRP2, TRP3, TRP4 und TPR5) erzeugt. Die zur Erzeugung der Deletionsstränge verwendeten Oligonukleotide sind in 3 beschrieben und die Transformationsergebnisse sind in 4 gezeigt.
Die Stränge wurden gepoolt und in kompletten Medien und verschiedenen Drop-out-Medien herangezüchtet. Aus dem Pool extrahierte genomische DNA diente als Template für eine asymmetrische Tagamplifikation unter Verwendung eines zu gemeinsamen, jedes Tag flankierenden Regionen homologen Primerpaares (4). Der Schwund von spezifischen Strängen aus dem Pool wurde quantitativ gemessen, indem die amplifizierten Tags an die Arrays mit hoher Dichte hybridisiert wurden (6A–C).
Beispiel 2: Ein Verfahren zur Auswahl von Tags aus einem Pool von Tags
Tags (oder zu den Tags komplementäre Sonden) werden ausgewählt, indem man Tags, welche mit einer ähnlichen Hybridisierungsenergie an das gleiche Target binden, eliminiert. Tags binden dann komplementäre Nukleinsäuren mit einer ähnlichen Hybridisierungsenergie, wenn eine zu einem Tag komplementäre Nukleinsäure mit einer einen spezifischen Schwellenwert überschreitenden Energie an ein anderes Tag bindet. Die berechnete Energie basiert auf z. B. der Stapelenergie von verschiedenen Basenpaaren und dem Energiebedarf für eine Schleife in der Kette und/oder auf zugeordneten Werten für die Hybridisierung von Basenpaaren oder auf anderen spezifischen Hybridisierungsparametern. In diesem Beispiel wurden Tags ausgewählt, indem ähnliche Tags eliminiert wurden aus einer langen Liste von in Frage kommenden Tags, welche auf Hybridisierungseigenschaften so wie zugeordneten Stapelwerten für Tag-Sonden-Hybride basierte.
Probecmp wurde geschrieben, um eine Liste nicht ähnlicher Tags aus einer langen Liste von Tags zu erzeugen. Tags werden dann als ähnlich angesehen, wenn ein perfektes Match zu einem Tag mit einer einen gewissen spezifischen Schwellenwert überschreitenden Energie an ein anderes Tag bindet. Probecmp vereint drei individuelle Grundideen bei der Auswahl von Tags. Diese Ideen sind:

1) ein Modell zur Berechnung des Bedarfs an Hybridisierungsenergie für Stapel- und Schleifenbildung;
2) Algorithmen zur schnellen Berechnung dieser Energie einschließlich eines rekursiven, stark reduzierten Algorithmus und eines dynamischen Programmieralgorithmus; und
3) eine Hash-Tabelle zum schnellen Auffinden von perfekt passenden Segmenten.

Das Modell zur Berechnung des Bedarfs an Hybridisierungsenergie für Stapel- und Schleifenbildung
Die berechnete Energie basiert auf der Stapelenergie von verschiedenen Basenpaaren und auf dem Energiebedarf für eine Schleife in der Kette. Beispielsweise kann der Benutzer vorgeben, dass die Energie aus einer TA-Stapelung 2 sei, GC und CG 4 sei, und AC, AG, TC, GT oder TG 3 sei. Mit diesen Werten beträgt A G G T A C G = 3 + 4 + 3 + 2 + 3 + 4 = 19. Der Energiebedarf für Schleifen wird mittels einer Matrix der Schleifengröße auf jedem Strang angegeben:
Kommt z. B. die folgende Paarung vor, so ergibt sich eine Schleifengröße von 1 auf dem ersten Strang und von 0 auf dem zweiten Strang. Ein Blick auf die Tabelle zeigt einen Schleifenzuschlag von 5 und eine daraus resultierende Stapelenergie von 14.
Die Algorithmen zur schnellen Berechnung der Hybridisierungsenergie
Die Hybridisierungsenergie kann unter Verwendung entweder eines rekursiven Algorithmus oder eines dynamischen Programmieralgorithmus berechnet werden. Der rekursive Algorithmus ist schnell, wenn der Energiebedarf für Schleifen im Verhältnis zur Stapelenergie groß ist. Der dynamische Programmieralgorithmus ist schnell, wenn der Energiebedarf für Schleifen im Verhältnis zur Stapelenergie gering ist.
Beide Algorithmen zur Berechnung der Energie beginnen mit 2 Tags, welche eine perfekte Paarungssequenz mehrerer Basen aufweisen. Dann berechnen sie die Energie der perfekten Paarungssequenz, finden dann die Paarungen, die jeweils zur höchsten Energie vor und nach der Region der perfekten Matches führen. Die gesamte Paarungsenergie ist die Summe aus diesen drei Energien. Da es in diesem Modell keine vorgeschriebene Richtung gibt, kann der gleiche Algorithmus sowohl für die Energie vor dem Match als auch die Energie nach dem Match angewandt werden, indem die Reihenfolgen der Fragmente vor dem Match umgekehrt werden.
Ein rekursiver, stark reduzierter Algorithmus
Der rekursive Algorithmus probiert alle Zweige der Baumstruktur aus und zieht alle Schleifengrößen in Betracht, die einen Energiebedarf aufweisen, der gering genug ist, dass die größtmögliche Energie für die verbleibenden Paarungen ausreicht. Der Code für den Algorithmus lautet wie folgt:
Ein dynamischer Programmieralgorithmus
Der dynamische Programmieralgorithmus beginnt mit der Erstellung einer Matrix von zulässigen oder "legalen" Verbindungen zwischen den beiden Fragmenten.
Dann wird, ausgehend von der linken oberen Ecke, jede legale Verbindung in Betracht gezogen und alle vorangegangenen Basen werden identifiziert. Bei vorangegangenen Basen handelt es sich um jedes beliebige legale Basenpaar in dem Rechteck links oberhalb der in Betracht gezogenen Base. In der nachstehenden Figur besitzen die ersten drei legalen Paarungen keine vorangegangene legale Verbindung außer dem (angenommenen) perfekten Match vor dem Fehlpaarungssegment.
Die Werte in diesen Zellen werden durch die Summe der Stapelenergie und des Energiebedarfs für die Schleifen ersetzt.
Der Vorgang wird dann für jede legale Verbindung weiter außen in der Matrix wiederholt. Ist mehr als eine legale Schleife vorhanden, so wird die Schleife mit dem höchsten Wert verwendet. Ist dieser Vorgang abgeschlossen, so ist der Weg, der zum höchsten Zellwert führte, die beste Paarung.
Eine Hash-Tabelle zum schnellen Auffinden von perfekten Matchsegmenten
Um den Vergleich eines Tags mit allen anderen Tags in der Liste zu beschleunigen, bedient sich das Programm einer Hash-Tabelle, welche auf alle Ereignisse eines beliebigen gegebenen n-mers in dem Satz von Tags hinweist. Die Hash-Tabelle ist ausgeführt als zwei Arrays aus Strukturen, welche auf Stellen in Tags zeigen. Das erste Array ist 4 hoch n Datensätze lang und das zweite hat die Größe der gesamten Liste von Tags.
So wird eine Datei mit einer Liste aller Tags (oder Sonden) generiert, aus denen die gewünschten Tags auszuwählen sind. Typischerweise sind die Tags einzeln pro Zeile in einer Spalte aufgelistet, z. B. mit der Überschrift "Sonde" oder "Tag". Die obige Analyse wird auf die Datei angewandt und es wird basierend auf dem obigen Verfahren eine Ausgabedatei erzeugt, was eine Liste von Tags ergibt, in welcher kein Tag an das Komplement eines anderen Tag mit einer einen spezifischen Schwellenwert überschreitenden Stapelenergie hybridisiert.
Beispiel 3: "tags.ccp"
Im Folgenden wird das Computerprogramm tags.ccp, welches in "C" verfasst und bereits zuvor erwähnt wurde, bereitgestellt:
Beispiel 4: Tags895.ccp
Ein bevorzugtes Verfahren zur Auswahl von Sondenarrays umfasst das Verwerfen aller Sonden aus einem Pool, welche identische 9-mer-Serien aufweisen (und damit die Eliminierung von vielen Tags, die kreuzhybridisieren werden), gefolgt von einem paarweisen Vergleich der verbleibenden Nukleinsäuretags und der Eliminierung der Tags, die an das gleiche Target hybridisieren. Ein beispielhaftes Programm (Tags895.ccp), in "C" verfasst, wird im Folgenden bereitgestellt.
Die Erfindung wird durch die angehängten Ansprüche definiert.

Claims

Kit umfassend einen Array von 100 bis 100.000 verschiedene Sätze von auf einer Oberfläche immobilisierten experimentellen Oligonukleotidsonden, und einen Satz von Nukleinsäuremarkern, wobei die experimentellen Sonden ausgewählt sind, Sequenzen aufzuweisen, die zu den Sequenzen des Satzes der Nukleinsäuremarker komplementär sind, wobei der Satz von Markern einheitliche Hybridisierungscharakteristika aufweist, so dass alle Marker in dem Satz durch Hybridisierung gegen den Array detektiert werden können, unter Verwendung eines einzigen Satzes an Hybridisierungs- und Waschbedingungen, und wobei jede Sonde auf dem Array nicht kreuzhybridisiert mit Markern, die zu anderen Sonden auf dem Array komplementär sind.
Verfahren zum gleichzeitigen Detektieren einer Vielzahl von Testnukleinsäuren in einer Zielprobe durch Hybridisierung gegen einen Array wie in Anspruch 1 definiert, wobei: (a) der Array Sätze von experimentellen Sonden umfasst, die unter stringenten Bedingungen nicht gegen Zielnukleinsäuren kreuzhybridisieren, wobei jeder Satz eine homogene Population von Oligonukleotidsonden umfasst; und (b) die Testnukleinsäuren in der Zielprobe, die mit Markersequenzen markiert worden sind, die an die experimentellen Sonden auf dem Array binden; und wobei Sequenzen der Marker so gewählt sind, dass alle Marker durch Hybridisierung gegen den Array detektiert werden können, unter Verwendung eines einzigen Satzes an Hybridisierungs- und Waschbedingungen, und so, dass jeder Marker in dem Satz nicht mit den zu anderen Markern in dem Satz komplementären Sonden kreuzhybridisiert.
Verwendung eines Kits nach Anspruch 1, zur gleichzeitigen Detektion einer Vielzahl von Testnukleinsäuren in einem Zielbereich, wobei die Testnukleinsäuren die Marker aus dem Satz von Nukleinsäuremarkern umfassen, durch Hybridisierung der Markernukleinsäuren gegen den Array von Oligonukleotidsonden, wobei der Array Sätze von experimentellen Sonden umfasst, die unter stringenten Bedingungen nicht gegen Zielnukleinsäuren kreuzhybridisieren, wobei jeder Satz eine homogene Population von Oligonukleotidsonden umfasst.
Kit nach Anspruch 1, oder ein Verfahren oder eine Verwendung nach Anspruch 2 oder 3, wobei der Array mehr als 100 verschiedene Sondensätze pro cm² enthält, gegebenenfalls wobei der Array mehr als 1.000 Sondensätze pro cm², vorzugsweise mehr als 10.000 pro cm² enthält.
Kit, Verfahren oder Verwendung nach einem der vorhergehenden Ansprüche, wobei jeder Sondensatz auf dem Array sich von jedem anderen Sondensatz auf dem Array durch die Anordnung von mindestens zwei Nukleotiden unterscheidet.
Kit, Verfahren oder Verwendung nach einem der vorhergehenden Ansprüche, wobei das G + C-Verhältnis der Sonden des Arrays im Wesentlichen identisch ist, und nicht um mehr als 5% variiert.
Verfahren oder Verwendung nach einem der Ansprüche 2 bis 6, wobei die Marker von ungefähr 8 bis 150 Nukleotide, gegebenenfalls zwischen ungefähr 10 und 100 Nukleotide, vorzugsweise zwischen ungefähr 15 und 30 Nukleotide betragen.
Verfahren oder Verwendung nach Anspruch 7, wobei die Marker ungefähr 20 Nukleotide betragen.
Kit, Verfahren oder Verwendung nach einem der vorhergehenden Ansprüche, wobei der Array eine Kontrollsonde umfasst.
Kit, Verfahren oder Verwendung nach einem der vorhergehenden Ansprüche, wobei der feste Träger ausgewählt ist aus der Gruppe bestehend aus Folien, Beads, polymeren Chips, Partikeln, Strängen, Präzipitaten, Gelen, Blättern, Rohr, Kugeln, Behältern, Kapillaren, Kissen, Schnitten, Filmen und Platten.