Refine
Year of publication
- 2018 (1)
Document Type
- Bachelor Thesis (1)
Language
- German (1)
Has Fulltext
- yes (1)
Is part of the Bibliography
- no (1)
Keywords
- Datenbank (1) (remove)
Institute
- Informatik (1)
Die Online-Enzyklopädie Wikipedia kann für die Analyse der Beziehungen zwischen
Konzepten als wertvolle Datenquelle dienen. Aus ihren klar deffinierten Strukturen,
wie z.B. der baumartigen Kategorisierung, Weiterleitungen, Infoboxen und Links zwischen
Artikeln ergibt sich die Möglichkeit, ausgehend von einem bestimmten Konzept
eine Fülle enzyklopädischen Wissens zu extrahieren, das für viele Anwendungszwecke
in der medizinischen Informatik genutzt werden kann. Trotz der einfachen Verfügbarkeit
von Wikipedia-MySQL-Backups ist es weder besonders intuitiv noch effizient,
diese Beziehungen direkt aus diesen relationalen Datenbanken abzuleiten. Stattdessen
wäre ein weitaus intuitiverer Ansatz für die Datenanalyse, die genannten Strukturen
und ihre Beziehungen zueinander als Knoten und Kanten in einem Graphen abzubilden.
Ausgehend von einem bestehenden Wikipedia-Graph-API zielte diese Arbeit
darauf ab, ein effizientes System zu entwickeln, das Wikipediastrukturen aus einem
MySQL-Backup extrahiert, diese verarbeitet und in eine Graphdatenbank speichert.
Eine Analyse von Graphdatenbank-Managementsystemen im Rahmen dieser Arbeit
ergab, dass Neo4j für diesen Anwendungszweck optimal geeignet ist, da seine Anfragesprache
Cypher eine intuitive Möglichkeit darstellt, Graphdaten zu analysieren. Das
Ergebnis dieser Arbeit ist NeoWiki, ein System, das sowohl eine Möglichkeit zur Generierung
von strukturellen Wikipedia-Graphen bietet als auch als Java Library die
Arbeit mit den erstellten Graph-Entitäten als Java-Objekten unterstützt. Obgleich
derzeit noch Raum für Verbesserungen hinsichtlich der Performance bei der Graphgenerierung
besteht, stellt NeoWiki doch bereits jetzt ein Tool zur intuitiven Analyse
von Wikipedia-Daten dar.