Frei zugänglich
Refine
Document Type
- Bachelor Thesis (1)
- Master's Thesis (1)
Language
- German (2)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Wikipedia (2) (remove)
Institute
- Informatik (1)
- Medizinische Informatik (1)
Die Online-Enzyklopädie Wikipedia kann für die Analyse der Beziehungen zwischen
Konzepten als wertvolle Datenquelle dienen. Aus ihren klar deffinierten Strukturen,
wie z.B. der baumartigen Kategorisierung, Weiterleitungen, Infoboxen und Links zwischen
Artikeln ergibt sich die Möglichkeit, ausgehend von einem bestimmten Konzept
eine Fülle enzyklopädischen Wissens zu extrahieren, das für viele Anwendungszwecke
in der medizinischen Informatik genutzt werden kann. Trotz der einfachen Verfügbarkeit
von Wikipedia-MySQL-Backups ist es weder besonders intuitiv noch effizient,
diese Beziehungen direkt aus diesen relationalen Datenbanken abzuleiten. Stattdessen
wäre ein weitaus intuitiverer Ansatz für die Datenanalyse, die genannten Strukturen
und ihre Beziehungen zueinander als Knoten und Kanten in einem Graphen abzubilden.
Ausgehend von einem bestehenden Wikipedia-Graph-API zielte diese Arbeit
darauf ab, ein effizientes System zu entwickeln, das Wikipediastrukturen aus einem
MySQL-Backup extrahiert, diese verarbeitet und in eine Graphdatenbank speichert.
Eine Analyse von Graphdatenbank-Managementsystemen im Rahmen dieser Arbeit
ergab, dass Neo4j für diesen Anwendungszweck optimal geeignet ist, da seine Anfragesprache
Cypher eine intuitive Möglichkeit darstellt, Graphdaten zu analysieren. Das
Ergebnis dieser Arbeit ist NeoWiki, ein System, das sowohl eine Möglichkeit zur Generierung
von strukturellen Wikipedia-Graphen bietet als auch als Java Library die
Arbeit mit den erstellten Graph-Entitäten als Java-Objekten unterstützt. Obgleich
derzeit noch Raum für Verbesserungen hinsichtlich der Performance bei der Graphgenerierung
besteht, stellt NeoWiki doch bereits jetzt ein Tool zur intuitiven Analyse
von Wikipedia-Daten dar.
Im Zeitalter der Informationsgesellschaft stellt das Internet eine zentrale Bedeutung für die Wissens- und Informationsbeschaung dar. Immer mehr Menschen informieren sich mit Hilfe des Internets über das Thema Gesundheit. Gerade im Gesundheitssektor ist es wichtig, aus der großen Masse an Informationen diejenigen Quellen herauszufinden, die inhaltlich korrekt, d.h. keine Fehlinformationen enthalten, und möglichst vollständig sind, da falsche Informationen für den Nutzer sogar gesundheitsschädliche Konsequenzen haben könnten. Als Laie medizinische Begriffe oder Zusammenhänge zwischen zwei oder mehreren Begriffen zu verstehen ist schwierig. Bei der Fülle an Informationen, die im Web angeboten werden ertrinkt der Nutzer sprichwörtlich an der Informationsflut. Die freie Online-Enzyklopädie Wikipedia scheint in diesem Kontext eine vielversprechende Quelle zur Informationsbeschaung zu sein. Der Gesundheitssektor der Wikipedia umfasst in der deutschen Sprache ca. 92.000 Artikel. In der englischen Sprache sind es ungefähr 350.000 Artikel. Im Rahmen einer Diplomarbeit an der Hochschule Heilbronn, wurde von B. Trinzcek ein Framework zur Darstellung der Wikipedia als Graph entwickelt. Durch die Verlinkungen in den Artikeln ist es möglich, Zusammenhänge zwischen verschiedenen Artikeln und somit Begriffen zu visualisieren. Der durch das Framework erstellte Graph der Domäne Gesundheit wird als Gesundheitsgraph bezeichnet [27].