Fast sämtliche Lebewesen sind aus Zellen aufgebaut. Jede dieser Zellen
enthält einen Zellkern, in dem die Erbinformation steckt. Die Träger der
Erbinformation sind die Chromosomen, das sind Makromoleküle aus
Desoxyribonukleinsäure. Diese chemische Substanz, bekannt unter der
englischen Abkürzung DNA, codiert die Erbinformation mit einem
4-Basen-Alphabet.
Jedes Chromosom enthält Hunderte bis Tausende von Genen. Unter einem Gen
versteht man ein DNA-Fragment, welches die Bauanleitung für ein bestimmtes
Protein enthält. Die Proteine regeln Struktur, Funktion, Energieproduktion
und Teilung der Zellen.
Jede Zelle eines Organismus enthält näherungsweise denselben
Chromosomensatz, dieselbe Erbinformation und damit dieselben Bauanleitungen
für Proteine. Trotzdem gibt es aber riesige Unterschiede zwischen den
Zellen, man bedenke nur, wie verschieden menschliche Augen-, Haar-, Muskel-
oder Knochenzellen sind.
Funktion und Aussehen, d.h. der Phänotyp einer Zelle, werden durch die
Menge, das Verhältnis und den Zustand der Proteine bestimmt, die in der
Zelle produziert werden. Es stellt sich natürlich die Frage, wie solch
enorme Unterschiede entstehen können, wenn doch jede Zelle dieselbe
Erbinformation und damit dieselben Baupläne enthält.
Eine sehr wichtige, mittlerweile als Dogma der Molekularbiologie geltende
Entdeckung war die Tatsache, dass sich der Weg von der Erbinformation
zum Phänotyp einer Zelle in zwei Schritten vollzieht. Zuerst werden die
DNA-Fragmente in unterschiedlicher Menge zu Boten-Ribonukleinsäure (engl.
Abkürzung mRNA) transkribiert, was anschaulich dem Kopieren der
entsprechenden Protein-Bauanleitung entspricht. Danach wird jede dieser
Bauanleitungen in ``Zellfabriken'' zum entsprechenden Protein übersetzt.
Um den Zustand und die Funktion, den Krankheitsbefall oder eine bösartige
Veränderung, also den Phänotyp einer Zelle zu bestimmen, müsste man die
Menge, das Verhältnis und den Zustand der darin enthaltenen Proteine
messen. Das ist zumindest auf dem heutigen Stand der Wissenschaft ein
schwieriges Unterfangen. Mit Hilfe der Ende der 90er Jahre entwickelten
Microarray-Technologie wurde es aber möglich, die Zusammensetzung und
relative Menge der mRNA in einer Zelle zu ``messen''. Gemäss dem Dogma der
Molekularbiologie kann man davon ausgehen, dass die Zusammensetzung und
Menge der Proteine in einer Zelle eng mit der Komposition ihrer mRNA
zusammenhängt. Somit erlauben die Microarrays Rückschlüsse auf den
Phänotyp einer Zelle.
Herstellung von Microarrays
Ein Microarray ist eine Glasscheibe, ungefähr von der Grösse eines
Daumennagels, die bis zu 25'000 mikroskopisch kleine, verschiedene Punkte
enthält. In jedem einzelnen Punkt des Microarrays trägt man dann zahlreiche
Kopien eines eindeutig bestimmten DNA-Abschnitts (Gens) von Interesse auf
die Glasscheibe auf, die als ``Andockstellen'' für mRNA-Moleküle dienen
werden.
Nun extrahiert man Millionen von mRNA-Molekülen aus einer Zelle von
Interesse, markiert diese mit einer fluoreszierenden Lösung und trägt das
Gemisch auf die Glasscheibe auf. Wegen der Eigenschaft der komplementären
Basenpaarung dockt jedes mRNA-Molekül bevorzugt an einem ganz bestimmten
Punkt des Microarrays an: Nämlich an jenem, wo sich das Gen befindet,
dessen Bauplan es gerade übermittelt. Der Fachmann spricht bei diesem
Andockvorgang von hybridisieren.
Mit einem Scanner wird dann die Intensität der fluoreszierenden Lösung und
damit die Menge an hybridisierter mRNA für jeden Punkt des Microarrays
gemessen. Die geeignet reskalierte Lichtintensität bezeichen wir in der
Folge als Genexpression oder Genaktivität. Da exakt bestimmt ist, an
welchem Punkt des Microarrays sich die Andockstellen von welchem Gen
befinden, entspricht das Scanning anschaulich dem Auszählen der kopierten
Bauanleitungen für jedes Protein.
Es gibt zwei verschiedene Haupttypen von Microarrays. Einerseits die Gene
Chips der Firma Affymetrix, die kommerziell vertrieben werden und deren
Herstellung patentiert ist. Andererseits die cDNA-Arrays, die an der
Universität Stanford entwickelt wurden, eine frei zugängliche Technologie.
Die obige Beschreibung trifft auf beide Methoden gleichzeitig zu. Die
Unterschiede bestehen in der nicht näher erklärten Art wie die Genabschnitte
auf die Glasscheibe aufgetragen werden und in der Reskalierung zur
Bestimmung der Genexpressionswerte zu finden. Beide Technologien ergeben
schliesslich ein Genexpressionsprofil, welches die Aktivität von bis zu
25'000 Genen gleichzeitig enthält.
Mathematische Herausforderungen
Da die mRNA-Moleküle bevorzugt, aber nicht ausschliesslich mit dem Gen
hybridisieren, aus dem sie transkribiert wurden und weil zudem die Messung
der Intensitäten nicht exakt ausgeführt werden kann, ist die Genexpression
mit einem zufälligen Fehler behaftet. Für die Auswertung der Microarrays
sind darum die Methoden der Statistik gefragt.
Wegen den enormen Kosten der Technologie, nur schon das Rohmaterial für ein
Experiment kostet Hunderte von US-Dollars, werden meist nur sehr wenige,
oft zwischen 10 und 50, solcher Genexpressionsprofile hergestellt. Da diese
aber die Aktivität von Tausenden von Genen widergeben, befinden wir uns in
der unüblichen Situation von kleiner Stichprobengrösse und sehr hoher
Dimensionalität, wobei die erklärenden Variablen typischerweise auch noch
hoch korreliert sind. Aus diesen Gründen ist die Anwendung klassischer
Vorgehensweisen der Statistik für die Auswertung von Microarrays oft wenig
sinnvoll, dafür wurde eine umfangreiche Suche nach neuen Methoden
ausgelöst, die trotzdem genaue Analysen und tiefere Einblicke in die
prädiktive Struktur der Microarrays erlauben.
Literatur
"The Chipping Forecast". Supplement to Nature Genetics 21, 1999.