600 Technik, Medizin, angewandte Wissenschaften
Refine
Document Type
- Bachelor Thesis (1)
- Master's Thesis (1)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Datenanalyse (2) (remove)
Institute
- Informatik (2) (remove)
Implementation of an interactive pattern mining framework on electronic health record datasets
(2019)
Large collections of electronic patient records contain a broad range of clinical information highly relevant for data analysis. However, they are maintained primarily for patient administration, and automated methods are required to extract valuable knowledge for predictive, preventive, personalized and participatory medicine. Sequential pattern mining is a fundamental task in data mining which can be used to find statistically relevant, non-trivial temporal dependencies of events such as disease comorbidities. This works objective is to use this mining technique to identify disease associations based on ICD-9-CM codes data of the entire Taiwanese population obtained from Taiwan’s National Health Insurance Research Database.
This thesis reports the development and implementation of the Disease Pattern Miner – a pattern mining framework in a medical domain. The framework was designed as a Web application which can be used to run several state-of-the-art sequence mining algorithms on electronic health records, collect and filter the results to reduce the number of patterns to a meaningful size, and visualize the disease associations as an interactive model in a specific population group. This may be crucial to discover new disease associations and offer novel insights to explain disease pathogenesis. A structured evaluation of the data and models are required before medical data-scientist may use this application as a tool for further research to get a better understanding of disease comorbidities.
Die Online-Enzyklopädie Wikipedia kann für die Analyse der Beziehungen zwischen
Konzepten als wertvolle Datenquelle dienen. Aus ihren klar deffinierten Strukturen,
wie z.B. der baumartigen Kategorisierung, Weiterleitungen, Infoboxen und Links zwischen
Artikeln ergibt sich die Möglichkeit, ausgehend von einem bestimmten Konzept
eine Fülle enzyklopädischen Wissens zu extrahieren, das für viele Anwendungszwecke
in der medizinischen Informatik genutzt werden kann. Trotz der einfachen Verfügbarkeit
von Wikipedia-MySQL-Backups ist es weder besonders intuitiv noch effizient,
diese Beziehungen direkt aus diesen relationalen Datenbanken abzuleiten. Stattdessen
wäre ein weitaus intuitiverer Ansatz für die Datenanalyse, die genannten Strukturen
und ihre Beziehungen zueinander als Knoten und Kanten in einem Graphen abzubilden.
Ausgehend von einem bestehenden Wikipedia-Graph-API zielte diese Arbeit
darauf ab, ein effizientes System zu entwickeln, das Wikipediastrukturen aus einem
MySQL-Backup extrahiert, diese verarbeitet und in eine Graphdatenbank speichert.
Eine Analyse von Graphdatenbank-Managementsystemen im Rahmen dieser Arbeit
ergab, dass Neo4j für diesen Anwendungszweck optimal geeignet ist, da seine Anfragesprache
Cypher eine intuitive Möglichkeit darstellt, Graphdaten zu analysieren. Das
Ergebnis dieser Arbeit ist NeoWiki, ein System, das sowohl eine Möglichkeit zur Generierung
von strukturellen Wikipedia-Graphen bietet als auch als Java Library die
Arbeit mit den erstellten Graph-Entitäten als Java-Objekten unterstützt. Obgleich
derzeit noch Raum für Verbesserungen hinsichtlich der Performance bei der Graphgenerierung
besteht, stellt NeoWiki doch bereits jetzt ein Tool zur intuitiven Analyse
von Wikipedia-Daten dar.