Refine
Document Type
- Bachelor Thesis (1)
- Master's Thesis (1)
Language
- German (2)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Datenbank (2) (remove)
Institute
- Informatik (1)
- Medizinische Informatik (1)
Die Online-Enzyklopädie Wikipedia kann für die Analyse der Beziehungen zwischen
Konzepten als wertvolle Datenquelle dienen. Aus ihren klar deffinierten Strukturen,
wie z.B. der baumartigen Kategorisierung, Weiterleitungen, Infoboxen und Links zwischen
Artikeln ergibt sich die Möglichkeit, ausgehend von einem bestimmten Konzept
eine Fülle enzyklopädischen Wissens zu extrahieren, das für viele Anwendungszwecke
in der medizinischen Informatik genutzt werden kann. Trotz der einfachen Verfügbarkeit
von Wikipedia-MySQL-Backups ist es weder besonders intuitiv noch effizient,
diese Beziehungen direkt aus diesen relationalen Datenbanken abzuleiten. Stattdessen
wäre ein weitaus intuitiverer Ansatz für die Datenanalyse, die genannten Strukturen
und ihre Beziehungen zueinander als Knoten und Kanten in einem Graphen abzubilden.
Ausgehend von einem bestehenden Wikipedia-Graph-API zielte diese Arbeit
darauf ab, ein effizientes System zu entwickeln, das Wikipediastrukturen aus einem
MySQL-Backup extrahiert, diese verarbeitet und in eine Graphdatenbank speichert.
Eine Analyse von Graphdatenbank-Managementsystemen im Rahmen dieser Arbeit
ergab, dass Neo4j für diesen Anwendungszweck optimal geeignet ist, da seine Anfragesprache
Cypher eine intuitive Möglichkeit darstellt, Graphdaten zu analysieren. Das
Ergebnis dieser Arbeit ist NeoWiki, ein System, das sowohl eine Möglichkeit zur Generierung
von strukturellen Wikipedia-Graphen bietet als auch als Java Library die
Arbeit mit den erstellten Graph-Entitäten als Java-Objekten unterstützt. Obgleich
derzeit noch Raum für Verbesserungen hinsichtlich der Performance bei der Graphgenerierung
besteht, stellt NeoWiki doch bereits jetzt ein Tool zur intuitiven Analyse
von Wikipedia-Daten dar.
Die großen Datenmengen der klinischen Routine stellen für die medizinische Forschung ein großes Potenzial dar. So lassen sich zum Beispiel doppelte Erhebungen vermeiden oder Studienteilnehmer schneller finden. Sollen diese Daten genutzt werden, bedarf es geeigneter Werkzeuge und Prozesse. Im Rahmen des RWH Projektes der Medizinischen Uniklinik Heidelberg und dem GECKO Institut der Hochschule Heilbronn soll in dieser Arbeit ein Abfragewerkzeug für multidimensionale Datenbanken erstellt und verifiziert werden. Den Schwerpunkt der Arbeit bildet die Wahl einer geeigneten Softwarearchitektur. Im Anschluss an eine Anforderungsanalyse wird das Abfragewerkzeug mit Hilfe von Java Technologien, wie dem Google Web Toolkit und dem Open Java API for OLAP, erstellt. Die Anforderungen werden mit zwei Anwendungsszenarien verifiziert. Der RWH Report-Browser konnte mit der festgelegten Architektur implementiert werden. Zum Erstellen von MDX Anfragen an das DataWarehouse wurde ein Anfragegenerator implementiert. Die Verifikation zeigt, dass der Report-Browser als Plattform für den Zugriff auf klinische Routinedaten geeignet ist. Eine gute Testbarkeit der Architektur konnte nachgewiesen werden.