Klinische Angaben werden in Forschung und Versorgung häufig als Freitext erfasst. Für Auswertungen und den Vergleich zwischen Studien sind solche Texte jedoch nur eingeschränkt nutzbar. Am Institut für Medizinische Informatik der Uniklinik RWTH Aachen wurde deshalb ein Werkzeug entwickelt, das unstrukturierte klinische Texte bereits bei der Dateneingabe mit standardisierten medizinischen Begriffen verknüpft. So lassen sich Daten besser auffinden, einheitlicher auswerten und für weitere Forschungsfragen nutzen. Diese Forschungsergebnisse wurden von Dustin Thewes auf dem Europäischen Medizininformatikkongress in Genua vorgestellt. (→ MIE 2026)
Hintergrund und Problemstellung
Freitext ist in der medizinischen Dokumentation nützlich, weil sich Befunde und Beobachtungen damit flexibel beschreiben lassen. Für die Sekundärnutzung in der Forschung bringt das aber Nachteile mit sich: Unstrukturierte Texte sind schwerer zu durchsuchen, schlechter vergleichbar und aufwendiger standardisiert auszuwerten. Gleichzeitig muss die Zuordnung zu medizinischen Begriffen nachvollziehbar und überprüfbar sein, um wissenschaftlichen und klinischen Anforderungen zu genügen.
Was wurde erforscht?
Das Team entwickelte ein Werkzeug, das direkt in das elektronische Datenerfassungssystem REDCap eingebunden ist. Nutzerinnen und Nutzer können Freitext eingeben und ihn im selben Arbeitsschritt mit standardisierten Terminologien wie SNOMED CT und ICD verknüpfen. Dafür stehen eine Suche, ein Browser für die hierarchische Struktur der Terminologien und ergänzende Informationen zu ausgewählten Begriffen zur Verfügung. Zusätzlich unterstützt eine NLP-Funktion bei der Auswahl passender Konzepte, die endgültige Entscheidung bleibt aber beim Menschen.
Die wichtigsten Ergebnisse
Das Werkzeug verbindet Freitext und Code direkt im Eingabeprozess. Dadurch entsteht eine dokumentierte Zuordnung zwischen der ursprünglichen Texteingabe und dem gewählten standardisierten Begriff. Ein wesentlicher Vorteil ist, dass Nutzerinnen und Nutzer nicht nur Suchtreffer in einer flachen Liste erhalten, sondern in den Terminologien gezielt durch Hierarchien navigieren können. Das erleichtert die Auswahl passender Konzepte und verbessert die Nachvollziehbarkeit der Kodierung. Die ausgewählte Text-Code-Kombination wird anschließend direkt im Datenerfassungssystem angezeigt.
Was bedeutet das?
Der Ansatz kann helfen, klinische Freitexte früher und strukturierter für Forschungszwecke nutzbar zu machen. Wenn unstrukturierte Angaben bereits bei der Eingabe standardisiert ergänzt werden, lassen sich Daten später leichter vergleichen, wiederverwenden und für Analysen aufbereiten. Damit unterstützt das Werkzeug die sogenannte Sekundärnutzung klinischer Daten und trägt dazu bei, dass Forschungsdaten besser auffindbar, zugänglich, interoperabel und wiederverwendbar werden. Für den breiten Forschungseinsatz sind weitere Validierungsschritte erforderlich.
Die Forschungsarbeit wurde als Originalarbeit in den → Proceedings veröffentlicht: Dustin Thewes, Rainer Röhrig: Assisting Traceable Coding of Unstructured Text for Secondary Use. Stud Health Technol Inform, Volume 336, 2026. DOI: 10.3233/SHTI260429.
Funding: Das Forschungsvorhaben läuft auf der NUM-NATON Infrastruktur, einer vom BMFTR im Rahmen des Netzwerks Universitätsmedizin (NUM 3.0, FKZ 01KX2524) geförderten Forschungsinfrastruktur.




