Blogprojekt ScienceBlog - JUGENE oder: Eine kurze Einführung in die Bioinformatik
Hui, gleich mit dem ersten Thema meines ScienceBlogs bewege ich mich auf Graden, die nur wenig mit meinem eigentlichen Studium zu tun haben. Trotzdem möchte ich die neuliche Einweihung des Supercomputers JUGENE zum Anlass nehmen um einen kleinen Einblick in heutigen die Möglichkeiten der Bioinformatik zu geben.
JUGENE gilt als der momentan schnellste zivilgenutzte Rechner der Welt und basiert auf dem IBM Blue Gene/P. Daher übrigens auch der Name Juelich Blue Gene. Die technischen Daten sind wahrlich beeindruckend: 655536 Prozessorkerne mit je 850 MHz, 32 TB RAM und ein 10 GBit Netzwerk. Untergebracht ist die ganze Technik in einem Raum, verteilt auf 16 Schränke (”Racks”), wobei jeder Schrank gerade mal 40 kW (pro Stunde?) Strom verbraucht, was für diese Rechenleistung schon enorm wenig ist. Mein Laptop verbraucht da wesentlich mehr…oller Umweltsünder. JUGENE ist dabei nicht der erste Computer dieser Art in Jülich, schon Jump und Jubl sind dort beheimatet. Wenn ich die Website dazu jedoch richtig interpretiere, wird Jubl bis Arpil 2008 in Rente geschickt und alle seine Aufgaben sollen von JUGENE übernommen werden:
JUBL will be available during the whole transition period. It will be shut down 30 days after the end of the transition period. The CPU time quota on JUBL will be left unchanged up to the end of the JUBL operation.
Allerdings kann nun nicht jeder, der gerne ein bisschen Rechenzeit auf JUGENE haben würde, diese so einfach bekommen. Ein unabhängiges Gremium teilt den erfolgversprechendsten Projekten Nutzungsrechte zu. Die Software dazu muss (soweit ich das ersehen konnte) in Fortran oder C/C++ erstellt werden und linuxkompatibel (SuSe 10) sein. Ein anderes Betriebssystem wäre wahrscheinlich auch nur schwer in der Lage soviele Ressourcen zu verwalten.
Nun, was soll man mit soviel Power anfangen?
Wie schon erwähnt, wird die Rechenzeit auf JUGENE von einem wissenschaftlichen Gremium eingeteilt. Projekte, die dabei für gewöhnlich immer recht viel Leistung brauchen, sind dabei Berechnungen der Bioinformatik. Es ist sicherlich auch sehr gut vorstellbar, dass es extrem kompliziert sein kann lebende Systeme (oder meistens auch nur einen kleinen Teil davon) theoretisch bestimmen zu lassen. Bioinformatik ist dabei selbst ein sehr breites Feld, mit den verschiedensten Unterteilungen.
the use of computers to characterize the molecular components of living things (link)
Diese Charakterisierung geschieht auf vielfältige Art und Weise. Angefangen mit “einfachen” Dingen wie dem Speichern von Informationen, über Auswertungen von kurzen Sequenzen (DNA sowie Proteine und die Umwandndlung in beide Richtungen) und Sequenzvergleiche untereinander bzw. mit riesigen Datenbanken, bis hin zu komplexen Vorhersagen über das Verhalten von Neuronalen Netzen und dreidimensionalen Proteinstrukturen.
Das Speichern von Informationen wird dabei genauso routinemäßig angewendet wie in anderen Bereichen des Lebens und der Wissenschaft auch. Ich könnte mir z.B. nur schwer vorstellen die ganzen Daten, die ich schon alleine für meine Protokolle und Seminarvorträge brauche, nicht in digitaler Form zu haben. Komplizierter wird die ganze Sache, wenn es um die Analyse von DNA und Proteinsequenzen geht. Dieses Gebiet ist heute schon sehr weit fortgeschritten, aber die Leistung, die da dahinter steht, ist immernoch gewaltig. Nehmen wir an, wir haben eine DNA-Sequenz, sagen wir ein potentielles Gen, isoliert. Zuerst wird es sicherlich zur Sequenzierung geschickt um überhaupt erstmal zu wissen, was das überhaupt ist. Die Daten erreichen einen dabei dann meist per Mail. Die Sequenzierung wird auch meist nicht nur einmal durchgeführt, sondern verschiedene Mal um dann die Sequenz, die am häufisgten ermittelt wurde oder einen “Mittelwert” von allen Durchläufen auszuwerten. Auch hier steht Bioinformatik dahinter, denn die Vorhersagen, welche der vier DNA-Basen sich in einander umbauen können, beruht darauf. Eine weitere Möglichkeit, die z.B. für große Genome, wie das menschliche, angewendet wird, ist das sogenannte “Shotgun sequencing“. Dabei werden zufällige Stücke sequenziert und anschließend an Hand gefundener Überlappungen in der Sequenz wieder zusammengesetzt. Eine Methode, die ohne ausreichend Rechenleistung gar nicht möglich wäre.
Hat man endlich seine Sequenz geht man meistens in eine Datenbank und sucht nach vergleichbaren Sequenzen. Abhängig von der Länge der Sequenz, den gewählten Einstellungen und der Auslastung der Server kann das ein paar Stunden dauern, aber auch schon in 5 Minuten fertig sein. Diese Datenbanken gibt es sowohl für die Genebene um z.B. phylogenetische Verwandtschaften zu untersuchen, aber auch für Proteine, was den Schluss auf eine mögliche Funktion erleichtert. Updates der BLAST-Datenbank werden zweimal täglich durchgeführt, soweit ich weiß.
Bei unbekannten DNA-Sequenzen hilft dann oft die Übersetzung in Aminosäuren, also die Proteinsequenz. Diese Übersetzung basiert wieder, wie nicht anders zu erwarten, auf bioinformatischen Wahrscheinlichkeiten. Im nächsten Schritt kann unter Umständen die Vorhersage der 2D-Struktur des Protein sehr hilfreich sein, z.B. um eine Lokalisation in der Zelle oder eine mögliche Funktion zu untersuchen. Diese 2D-Strukturen dauern oft einige Stunden (manchmal auch Tage), die Grundlage dabei ist, dass bestimmte Strukturelemente immer wieder gerne von bestimmten Aminosäuresequenzen gebildet werden. Allerdings ist das kein Muss, sondern wieder nur ein Kann. Die ganze Bioinformatik hilft eigentlich nur dabei Möglichkeiten zu untersuchen oder auszuschließen, da Vorhersagen fast ausschließlich auf Wahrscheinlichkeiten basieren, die letztendlichen Beweise müssen aber weiterhin im Labor erbracht werden.
Biology in the 21st century is being transformed from a purely lab-based science to an information science as well. (link)
Die momentan wohl größte Herausforderung ist die Vorhersage von 3D-Strukturen. Bei uns an der Uni werden eigentlich jede Nacht alle nicht verwendeten Rechner zusammengeschaltet um solche Berechnungen anzustellen. Meistens nicht mal für besonders große Moleküle, aber trotzdem dauert es oft mehrere Tage. Die Herausfordung liegt dabei darin, dass alle Berechnungen stimmig sein müssen, also irgendwie mit den real beobachteten Phänomenen übereinstimmen müssen. Um nun den Schluss zum Anfang des Beitrages zu spannen: JUGENE bietet hier sicherlich ein sehr großes Potential um die Vorhersagen komplexer Moleküle zu beschleinigen.
Wie man sieht beeinflusst nicht nur die Bioinformatik das Arbeites eines Wissenschaftlers, sondern auch umgekehrt. Jede neugewonnene Erkenntnis muss in die Bioinformatik einfließen um bessere Vorhersagen treffen zu können. Das wierderum erhöht den Rechenaufwand, aber auch die Genauigkeit der Vorhersagen. Die Zukunft wird ohne Frage spannend und JUGENE wird einen Teil dazu beitragen.
So, und nun ist eure Meinung zum “Experiment Sienceblog” gefragt. Was fehlt euch, worauf hätte ich näher eingehen können? Mehr Hintergrundinfos? Mehr weiterführende Links? Einen anderen Ausdruck? Anregungen und Kritik sind erwünscht, denn wenn ich das fortsetzen will, brauche ich euer Feedback!
Der erste Beitrag ist nun nicht ganz so wissenschaftlich ausgefallen, wie ich es mir eigentlich vorgestellt habe, sondern stellt nur einen kleinen Überblick dar. In Zukunft würde ich gerne noch speziellere Themen ansprechen, die auch mehr in meinem Wissensgebiet liegen. Die Untersuchungen im Vorfeld sind jedoch recht aufwändig, weshalb ich noch keine Idee habe in welchen zeitlichen Abstand neue Beiträge erscheinen werden. Aber fortsetzen würde ich das sehr gerne.
Oh das ist doch ein sehr vielversprechender Anfang! Sehr interessant
Du hast eine gute Mischung aus Anspruch und Allgemeingültigkeit gefunden (btw: muss es nicht 3D-Strukturen im Absatz vor dem letzten Zitat heißen?), da mehrere Themen abgedeckt werden.
Auch wenn du dann in Zukunft auf speziellere Themen eingehst, solltest du das in etwa beibehalten.
Danke, ich werde mich daran orientieren.
Im dem Absatz soll es schon um die Vorhersage von 2D Strukturen gehen, wobei Sekundärstrukturen vielleicht ein besser gewähltes Wort gewesen wäre. Der Schnitt nach dem Zitat, wo es dann wirklich um die 3D-Strukturen geht, ist wahrscheinlich ein bisschen plötzlich. Solche Dinge werde ich im nächsten Beitrag versuchen zu ändern und klarer formulieren.