Frei zugänglich
Refine
Document Type
- Bachelor Thesis (1)
- Master's Thesis (1)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Data Mining (2) (remove)
Institute
- Informatik (1)
- Medizinische Informatik (1)
Implementation of an interactive pattern mining framework on electronic health record datasets
(2019)
Large collections of electronic patient records contain a broad range of clinical information highly relevant for data analysis. However, they are maintained primarily for patient administration, and automated methods are required to extract valuable knowledge for predictive, preventive, personalized and participatory medicine. Sequential pattern mining is a fundamental task in data mining which can be used to find statistically relevant, non-trivial temporal dependencies of events such as disease comorbidities. This works objective is to use this mining technique to identify disease associations based on ICD-9-CM codes data of the entire Taiwanese population obtained from Taiwan’s National Health Insurance Research Database.
This thesis reports the development and implementation of the Disease Pattern Miner – a pattern mining framework in a medical domain. The framework was designed as a Web application which can be used to run several state-of-the-art sequence mining algorithms on electronic health records, collect and filter the results to reduce the number of patterns to a meaningful size, and visualize the disease associations as an interactive model in a specific population group. This may be crucial to discover new disease associations and offer novel insights to explain disease pathogenesis. A structured evaluation of the data and models are required before medical data-scientist may use this application as a tool for further research to get a better understanding of disease comorbidities.
Behandlungen von Tumoren zielen in erster Linie auf eine Verlängerung der Überlebenszeit des Patienten ab. Es ist für Ärzte eine Hilfe, wenn zu Beginn der Behandlung die voraussichtliche Überlebenszeit abgeschätzt werden kann. Dies geschieht aktuell oftmals mit Hilfe einer manuellen Einteilung in Risikoklassen. Für diese sind aus Erfahrungswerten typische Überlebenszeiten bekannt. In Zeiten der zunehmenden Digitalisierung ist es nur logisch den Versuch zu starten, die Klassifizierung automatisch vorzunehmen. In dieser explorativen Grundlagenarbeit werden zwei Data Mining–Verfahren — namentlich „naiver Bayes Klassifikator“ und „k–means Clustering“ — auf ihre Fähigkeit bezüglich der Überlebenszeitprognose hin untersucht. Dazu werden verschiedene Feature Selection Verfahren (Information Gain, Expertenselektion, Forward Selection, Backward Elimination und No Selection) getestet. Nach dem k–means Clustering können Kaplan–Meier–Kurven der einzelnen Cluster gezeichnet werden. Aus diesen kann eine Prognose der Überlebenszeit abgelesen werden. Der naive Bayes Klassifikator errechnet nach einer (äquifrequenten oder äquidistanten) Diskretisierung der Überlebenszeit für jeden Patienten individuell eine Überlebens–Wahrscheinlichkeits Verteilung. Das Training der Data Mining–Verfahren erfolgte auf der Basis von Datensätzen kolorektaler Tumorpatienten des Tumorregisters des Tumorzentrums Heilbronn–Franken.