Aufbau einer Graphdatenbank zur effizienten Abbildung medizinischer Konzepte aus Wikipedia
- Die Online-Enzyklopädie Wikipedia kann für die Analyse der Beziehungen zwischen Konzepten als wertvolle Datenquelle dienen. Aus ihren klar deffinierten Strukturen, wie z.B. der baumartigen Kategorisierung, Weiterleitungen, Infoboxen und Links zwischen Artikeln ergibt sich die Möglichkeit, ausgehend von einem bestimmten Konzept eine Fülle enzyklopädischen Wissens zu extrahieren, das für viele Anwendungszwecke in der medizinischen Informatik genutzt werden kann. Trotz der einfachen Verfügbarkeit von Wikipedia-MySQL-Backups ist es weder besonders intuitiv noch effizient, diese Beziehungen direkt aus diesen relationalen Datenbanken abzuleiten. Stattdessen wäre ein weitaus intuitiverer Ansatz für die Datenanalyse, die genannten Strukturen und ihre Beziehungen zueinander als Knoten und Kanten in einem Graphen abzubilden. Ausgehend von einem bestehenden Wikipedia-Graph-API zielte diese Arbeit darauf ab, ein effizientes System zu entwickeln, das Wikipediastrukturen aus einem MySQL-Backup extrahiert, diese verarbeitet und in eine Graphdatenbank speichert. Eine Analyse von Graphdatenbank-Managementsystemen im Rahmen dieser Arbeit ergab, dass Neo4j für diesen Anwendungszweck optimal geeignet ist, da seine Anfragesprache Cypher eine intuitive Möglichkeit darstellt, Graphdaten zu analysieren. Das Ergebnis dieser Arbeit ist NeoWiki, ein System, das sowohl eine Möglichkeit zur Generierung von strukturellen Wikipedia-Graphen bietet als auch als Java Library die Arbeit mit den erstellten Graph-Entitäten als Java-Objekten unterstützt. Obgleich derzeit noch Raum für Verbesserungen hinsichtlich der Performance bei der Graphgenerierung besteht, stellt NeoWiki doch bereits jetzt ein Tool zur intuitiven Analyse von Wikipedia-Daten dar.
Author: | Christian M. Heidt |
---|---|
URN: | urn:nbn:de:bsz:840-opus4-1518 |
Advisor: | Martin Wiesner, Richard Zowalla |
Document Type: | Bachelor Thesis |
Language: | German |
Year of Completion: | 2018 |
Publishing Institution: | Hochschule Heilbronn |
Granting Institution: | Hochschule Heilbronn, Informatik |
Date of final exam: | 2018/07/23 |
Release Date: | 2018/07/24 |
Tag: | Datenanalyse; Datenbank; MySQL; Wikipedia |
GND Keyword: | Datenbank |
Pagenumber: | VII, 49, III Seiten |
Faculty: | Informatik |
DDC classes: | 600 Technik, Medizin, angewandte Wissenschaften |
Access Right: | Frei zugänglich |
Licence (German): | ![]() |