@phdthesis{Juchler, type = {Bachelor Thesis}, author = {Moritz Juchler}, title = {Auswahl und Implementierung eines Scientific Workflow Management Systems zur Analyse von Next-Generation Sequencing Daten}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:840-opus-713}, abstract = {In dem transregionalen Sonderforschungsbereich SFB/TRR 77 untersuchen Heidelberger und Hannoveraner Wissenschaftler Entstehungsmechanismen und neue Therapieans{\"a}tze des Leberzellkarzinoms, einer der t{\"o}dlichsten Tumorerkrankungen unserer Zeit. Die IT-Plattform Pelican, die ein Teil des Gebiets Z2 ist, soll dem Forschungsverbund die softwaregest{\"u}tze Analyse und die nachhaltige Bereitstellung von Leberkrebs-Forschungsdaten erm{\"o}glichen [Ganzinger et al. 2011]. Ein Teil von Pelican soll eine gemeinsame Informationsplattform anbieten, die die biomedizinischen Daten der verschiedenen medizinischen und biologischen Projekte integriert und den beteiligten Projektgruppen biostatistische Programme und projekt{\"u}bergreifende Auswertungen zur Verf{\"u}gung stellt. Die Integration von Gewebe-, Molek{\"u}l-, Genetik- und Klinikdaten in eine gemeinsame Plattform erm{\"o}glicht Datenerhaltung und umfassende Analysen. Die integrierte Analyse begegnet durch die Verkn{\"u}pfung verschiedener Forschungsprojekte des SFB/TRR 77 den Herausforderungen der Multidisziplinarit{\"a}t klinischer Forschung und Genforschung. Mit dem Next-Generation DNA Sequencing ist durch Kostenreduzierung und immenser Zeiteinsparung die DNA Sequenzierung einem breiten Spektrum an Wissenschaftlern zug{\"a}nglich geworden und hat Kompetenzen zur Sequenzierung von zentralen Stellen in die H{\"a}nde vieler individueller Forscher gelegt [Shendure and Ji 2008, Ding et al. 2010, Wetterstrand 2011]. Die Kombination dieser hochentwickelten Technologien aus der Gentechnik und rechnerbasierten Werkzeugen erlaubt die Beantwortung biologischer Fragestellungen in erheblich umfangreicherer Art und Weise als dies bisher m{\"o}glich gewesen ist [Shaer et al. 2013]. Die rasche Entwicklung des Next-Generation Sequencing beinhaltet auch das Konstruieren neuer Ans{\"a}tze zur bioinformatischen Datenanalyse, ohne die kein Informationsgewinn, wie beispielsweise die Entdeckung von Genvariationen, m{\"o}glich w{\"a}re. Das dabei neu gewonnene Wissen kann zu erheblichen Fortschritten in der Krebsforschung f{\"u}hren, beispielsweise wenn es um das Identifizieren der Genomver{\"a}nderungen einer Tumorzelle geht [Ding et al. 2010]. Anstatt Sequenzierungen in kleinem Ma{\"s}stab durchzuf{\"u}hren, k{\"o}nnen Forscher inzwischen Sequenzierungen in weit umfangreicherem Ausma{\"s} realisieren, in denen Informationen von multiplen Genen und Genomen vermessen, dokumentiert und in Datenbanken gespeichert werden k{\"o}nnen. Die DNA Sequenzen werden nach der Sequenzierung in einer Kette aus vielen Prozessschritten – eine bioinformatische Pipeline – analysiert und verarbeitet. Zu den Einzelschritte, wie zum Beispiel Alignment oder die Entfernung von Duplikaten, gibt es oftmals viele Alternativen.}, language = {de} }