Mustererkennung auf Patientendaten: Teil 1

Zurück zum Blog

Die Abrechnung in Krankenhäusern ist ein wichtiger, allerdings mühseliger und fehleranfälliger Prozess, da klinische Daten und Verwaltungsdaten in zunehmenden Mengen berücksichtigt werden müssen. So liegt es nahe, Maschinelles Lernen – häufig mit Künstlicher Intelligenz gleichgesetzt – zur Mustererkennung einzusetzen, um Kodierfachkräften und Medizincontrollern zeitsparende und erlössichernde Empfehlungen automatisiert zu geben. In diesem Blogartikel möchten wir die Prinzipien dieses Vorgehens erklären, um die Vorteile, aber auch Herausforderungen, besser verständlich zu machen.


Wenn ein Patient nach der Behandlung in einem Krankenhaus entlassen wird, interpretiert eine klinische Kodierfachkraft die grundlegenden Patientendaten (insb. Diagnosen und Therapien) mittels klinischer Daten (z.B. Befunde, Arztbrief, OP-Berichte) aus ökonomischer und qualitätssichernder Sicht und beschreibt diese mit Codes aus primär zwei Katalogen, dem International Statistical Classification of Diseases and Related Health Problems (ICD) und den Operationen- und Prozedurenschlüssel (OPS).
Für Kodierfachkräfte ist es hierfür wesentlich, Strukturen innerhalb der Patientendokumentation zu kennen und unter anderem Diagnosen und Therapien von Ärzten zeiteffizient und qualitativ hochwertig zu verschlüsseln. Denn Kodierlücken oder Inkonsistenzen verursachen ein Erlösrisiko für das Krankenhaus. Um die Kodierungsqualität von Fachkräften zu verbessern, ist ein Ansatz, probabilistische Statistik bzw. Maschinelle Lernverfahren zu nutzen, um automatisiert Wissen über Krankheitsdaten zu generieren, diese Kenntnisse für die tägliche Arbeit zu nutzen und automatisiert Entscheidungsunterstützung zu erhalten.

Nützliche Muster in der Krankenhausabrechnung

Akteure im Gesundheitswesen interessieren sich dafür, ob typischerweise bestimmte Krankheiten auf weitere Krankheiten hindeuten, d.h. Muster in den Patientendaten bestehen:

Patienten, bei denen Sachverhalte A, B, C gelten, gilt häufig auch Sachverhalt D.

Hierbei handelt es sich um die Aufgabe der automatischen Klassifikation. Diese lässt sich „überwacht“ oder „unüberwacht“ mit dem Lernen von Mustern (bzw. Modellen oder Klassifikatoren) lösen.
Bei der „überwachten“ Klassifikation wird heutzutage gerne Deep Learning, d.h. Tiefe Neuronale Netze genannt, da Sie – ausreichend vorklassifizierte Daten und Rechenpower vorausgesetzt – sehr gute Ergebnisse auch bei riesigen Mengen an Parametern erzielen.


Bei der „unüberwachten“ Klassifikation kann beispielsweise das Assoziationsregel Lernen genannt werden. Es bietet eine automatisierte Methode, um statistische Beziehungen und Schlussfolgerungen zwischen allen vorhandenen Parametern von Daten zu berechnen. Derartige Methoden wurden unter anderem bereits dafür eingesetzt, um Kodierkonsistenz und Kodierqualität automatisiert zu überprüfen (https://doi.org/10.1016/j.jbi.2018.02.001).


In solchen Methoden werden nutzbare Dokumentations- und Kodierungsmuster erfassbar. Diese sind für Medizincontroller interessant, wenn durch medizinisch plausible Abhängigkeiten zwischen Fakten eine ergänzende oder korrigierende Kodierung aufgrund bestehender Kodierungen oder Dokumentationen empfohlen und abgerechnet werden kann. Ebenso hilfreich sind auch (Ausschluss-)regeln, die einem fälschlicherweise kodierten Kode eine niedrige Wahrscheinlichkeit zuweisen und eine korrigierende Entfernung der Kodierung empfehlen. Besonders wichtig hierbei ist die Erklärbarkeit einer Empfehlung, ohne die einer Kodierfachkraft kaum sinnvoll geholfen wird, da sie ansonsten zeitaufwändig den Grund einer Empfehlung recherchieren und dokumentieren muss.

Anwendung eines erklärbaren Maschinellen Lernverfahrens auf Abrechnungsdaten

Die Basis für Dokumentations- und Kodierungsmuster sind historische Patientenfälle. Diese werden automatisch oder manuell in Klassen einsortiert. Betrachten wir als Beispiel den ICD-Code J18.

J18.- Pneumonie, Erreger nicht näher bezeichnet

Diesen ICD-Code J18 nennen wir im Folgenden konsistent Target-ICD-Code, da wir ihn als Ziel unserer Vorhersage verstehen. Zu Vereinfachung beschränken wir uns auf dreistellige ICD-Codes, das heißt, wir kürzen in den ICD-Daten bei exakten granularen Nomenklaturen wie z.B. die Kodierung E11.7 (Diabetes mellitus, Typ 2: Mit multiplen Komplikationen) nach der dritten Stelle ab und betrachten nur die dreistellige ICD-Code-Systematisierung, in dem Beispiel E11.- (Diabetes mellitus, Typ 2). Also abhängig davon, ob für einen Patientenfall eine J18-Pneumonie abgerechnet wurde oder nicht, klassifizieren wir einen Patientenfall in zwei Klassen (s. Tabelle 1):

„J18 True Class“, falls J18 im Patientenfall tatsächlich als Krankheit abgerechnet wurde.

„J18 False Class“, fall J18 im Patientenfall nicht als Krankheit abgerechnet wurde.

Nachdem wir die Patientenfälle in die jeweiligen Klassen „True Class“ und „False Class“ zum Lernen eines Musters zugeordnet haben, beginnen wir mit dem maschinellen Lernalgorithmus. Dazu werden die verfügbaren Fälle in Trainings- (80%) und Testdaten (20%) geteilt und nach Mustern für den Target-ICD-Code untersucht. Anschließend wird mit dem Klassifikator eine Empfehlung für unseren Target-ICD-Code erstellt. Mit dieser Empfehlung erfassen wir die Aussagekraft, mit der die ICD-Codes aus den Trainingsdaten den Target-ICD-Code als weiteren abzurechnenden ICD-Code vorhersagen. Genauso erfassen wir auch diejenigen ICD-Codes, welche explizit keine Vorhersage des Target-ICD-Codes darstellen.

Angewendet auf einen Patientenfall, ergeben solche Dokumentations- und Kodierungsmuster dann Empfehlungen für die Kodierung, so wie im Folgenden für einen Beispielfall mit den Kodierungen E11, I79, A09, A41, R65, B37, N37, D62, E03, B95 etc. Die Empfehlung des gelernten Musters lautet zu über 99% den J18-Kode zusätzlich zu kodieren, und zu weniger als 1%, den J18-Kode nicht zu kodieren. Abb. 2 zeigt eine textuelle Darstellung des Falls, bei dem alle endstelligen Kodes zu dreistelligen Kodes abgekürzt wurden.

Abb. 2: Highlighting von positiven (orangen) und negativen (blau) Korrelationen für die Abrechnungsvorhersage des Target-ICD-Codes J18;  im Beispiel ist sich das System zu >99% sicher, dass ein J18-Kode empfohlen werden sollte.

Außerdem wird die Empfehlung des gelernten Musters „erklärt“: Je dunkler das Orange eines ICD-Codes desto stärker trägt sie zur Abrechnung des Target-ICD-Codes J18 bei (z. B. J91, I46, B95 etc.), während ICD-Codes mit negativer Korrelation zur Abrechnung von J18 (M86.-, M89.- und E03.-) in blauer Farbe erscheinen. Die Erklärbarkeit von ICD-Codes bei der Vorhersage unseres vorausgesetzten Target-ICD-Codes wurden mit dem „LIME Explainer“ (https://arxiv.org/abs/1602.04938) berechnet.

Abb. 3: Positive und negative Effekte von ICD-Codes zur Abrechnung des Target-ICD-Codes.

Die Darstellung der Erklärung in Abb. 3 drückt den gleichen Sachverhalt in einer anderen Visualisierung aus:
Die Grafik verdeutlicht, in welchem Maß ICD-Codes dazu beitragen oder „darauf einzahlen“, dass der Target-ICD-Code abgerechnet werden muss. Die grünen Balken auf der rechten Seite des Schaubilds zeigen diejenigen ICD-Codes, die mit größter Wichtigkeit die Abrechnung unseres Target-ICD-Codes erklären. J91.-, ein Pleuraerguss bei anderenorts klassifizierten Krankheiten, ist in diesem Sinne als wichtigster ICD-Code zur Abrechnung des Target-ICD-Codes zu verstehen, da die interne Wahrscheinlichkeit (0.006) der Erklärung mit grünen Balken am höchsten dargestellt ist.

Gleichzeitig zeigen uns die roten Balken der Erklärung die drei wichtigsten ICD-Codes M86.-, M89.- sowie E03.-, die ausdrücklich gegen die Abrechnung einer Pneumonie mit Target-ICD-Code sprechen. M86.-, eine Osteomyelitis (infektiöse Erkrankung des Skelettsystems), ist mit dem größten negativen Ausschlag für Kodierfachkräfte so zu verstehen, dass eine J18-Pneumonie nur in seltenen Fällen nach Befundung einer M86.- abgerechnet werden sollte. Demnach erfahren Kodierfachkräfte anhand der Erklärung nicht nur potenzielle positive Regeln, wie ICD-Codes die Abrechnung einer Pneumonie J18 unterstützen, sondern auch negative Regeln, die ICD-Codes von der Kodierung unseres Target-ICD-Codes ausschließen.

Im zweiten Teil schauen wir uns zur Illustration eine der einfachsten Methodiken an, wie derartige Muster extrahiert werden können: Naive Bayes.