AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... ·...

Post on 12-Jul-2020

0 views 0 download

Transcript of AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... ·...

AP4: Realiserung der Semantischen Interoperabilität durch

Informationsextraktions-Technologien

MACSS-Abschlussveranstaltung 18.03.2019Roland Roller, PhD

Klinische Informationsextraktion

MACSS-Abschlussveranstaltung 18.03.2019Roland Roller, PhD

Motivation3

Problem4

▪ Fokus: Nephrologie▪ Probleme:

○ Verfügbarkeit & Zugriff auf Daten○ Fehlende Tools○ Domänen-Abhängigkeit (z.B. Abkürzungen)○ Hohe Informationsdichte (Telegraphstil)○ Rechtschreibfehler○ Sätze oft nicht wohlgeformt

NLP Pipeline5

Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.SatztrennungTokenisierung

PIAT NN PIAT NN . NN . NN ADJD . Wortart Tagging.

Dependenz-Parserpunctdet

punct

amod

punct

amodpunctdet

ADJD

Konzept Erkennung

Faktualitäts-ErkennungX XRelationsextraktion

Normalisierung- Kandidatensuche- Disambiguierung

No dysuria. No edema. Good appetit. Bowel movement normal.

Korpora6

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

Korpora7

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

# Example

Concept 22 Medical Condition, Treatment, Body Part, Process, State of Health, Medication, ...

Attribute 3 Time (past, present, future, …), Level of Truth (negative, speculated, possible future, …) , Person

Relationen 16 has_measure, has_state, involves, has_time_info, is_located, consequence, ...

Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.

X X

Fakten:

Verlaufsnotizen: 1300 Arztbriefe: 61 3 Studenten15 Monate

Korpora8

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

# Example

Wortart 40 ADJA, ADJD, ADV, ..., ART...NE, NN, ...

Dependenzen 34 acl, advcl, advmod, amod, …, det, ...

Fakten:

Verlaufsnotizen: 44Arztbriefe: 112 Studenten150 Stunden

Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.

PIAT NN PIAT NN . NN . NN ADJD ..

punctdet

punct

amod

punct

amodpunctdet

ADJD

Korpora9

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

Forumsbeiträge: 20002 Studenten5 Monate

Was haben wir erzielt?10

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

Was haben wir erzielt?11

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

Dependenz-Parsersiehe Kara et al., (2018)

Durchschnittlicher LAS mittels 10-fold Cross-Validation

Was haben wir erzielt?12

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

NER & REsiehe Roller et al., (2017)

Was haben wir erzielt?13

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

Negation Detectionsiehe Cotik et al., (2016)

Was haben wir erzielt?14

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.deConcept Normalisierung-> Kandidatensuchesiehe Roller et al., (2018)-> Disambiguierungsiehe Weissenborn et al., (2016)

aaaaaaaaa

GB: kommerzieller Übersetzer, BTM: unser In-Domain Übersetzer (lokal)

mEx - medizinische Informations-Extraktion15

Schaut euch unsere Demo an!

Graph-KD - Exploring Relational Information of UMLS for Knowledge Discovery

16

Schaut euch unsere Demo an!

Patient Record Analysis17

Schaut euch unsere Demo an!

Credits18

▪ Christoph Alt, Ammer Ayach, Viviana Cotik, Aleksandra Gabryszak, Leonhard Hennig, Marc Hübner, Elif Kara, Michael Mikhailov, Oliver Martin, Firas Nosierat, Nils Rethmeier, Roland Roller, Sven Schmeier, Laura Seiffe, Rupali Sinha, Philippe Thomas, Hans Uszkoreit, Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Publikationen19

▪ 2018○ Johannes Kirschnick, Philippe Thomas, Roland Roller, Leonhard Hennig. SIA: a scalable interoperable annotation server for biomedical

named entities. In: Journal of Cheminformatics (JCheminf) 10:63, BioMed Central 12/2018. ○ Elif Kara, Tatjana Zeen, Aleksandra Gabryszak, Klemens Budde, Danilo Schmidt and Roland Roller. A Domain-adapted Dependency Parser

for German Clinical Text. 2018. In Proceedings of the 14th Conference on Natural Language Processing (KONVENS 2018), Vienna, Austria○ Danilo Schmidt, Verena Graf, Roland Roller, Oliver Staeck, Thomas Tolxdorff, Thorsten Schaaf, Alexander Löser, Feiyu Xu, Hans Uszkoreit,

Philipp Legge, Gero Lurz, Marco Wedekind, Kai Sachs, Sonja Oechsler, Klemens Budde, Sebastian Gaede and Fabian Halleck. Integrierte Versorgung chronisch kranker Patienten am Beispiel von MACSS. 2018. In Aljoscha Burchardt, Hans Uszkoreit (Eds.), IT für soziale Inklusion: Digitalisierung - Künstliche Intelligenz - Zukunft für alle (pp. 41-50). Berlin, Boston: De Gruyter.

○ Roland Roller, Madeleine Kittner, Dirk Weissenborn, Ulf Leser. Cross-lingual Candidate Search for Biomedical Concept Normalization. 2018. In Proceedings of MultilingualBIO, Miyazaki, Japan

▪ 2017○ Roland Roller, Nils Rethmeier, Philippe Thomas, Marc Hübner, Hans Uszkoreit, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo

Schmidt. Detecting Named Entities and Relations in German Clinical Reports. 2017. In Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology, Berlin, Germany.

○ F. Halleck, D. Schmidt, S. Georgi, V. Graf, S. Gaede, R. Roller, K. Budde und O. Staeck. mHealth und digitales Management nach Nierentransplantation. In Nieren- und Hochdruckkrankheiten, November 2017

○ Johannes Kirschnick and Philippe Thomas. Sia: Scalable interoperable annotation server. 2017. In Proceedings of the BioCreative V.5 Challenge Evaluation Workshop, Barcelona, Spain.

▪ 2016○ Viviana Cotik, Roland Roller, Feiyu Xu, Hans Uszkoreit, Klemens Budde and Danilo Schmidt. Negation Detection in Clinical Reports Written in

German. In Proceedings of the 5th Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM), 2016, Osaka, Japan, Association for Computational Linguistics

○ Roland Roller, Hans Uszkoreit, Feiyu Xu, Laura Seiffe, Michael Mikhailov, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo Schmidt. A fine-grained corpus annotation schema of German nephrology records. In Proceedings of the Clinical Natural Language Processing Workshop, 2016, Osaka, Japan, Association for Computational Linguistics

○ Dirk Weissenborn, Roland Roller, Feiyu Xu, Hans Uszkoreit and Enrique Garcia Perez. A Light-weight & Robust System for Clinical Concept Disambiguation. In Proceedings of the 7th International Symposium on Semantic Mining in Biomedicine, SMBM 2016, Potsdam, Germany

○ Fabian Hillock, Danilo Schmidt, Oliver Staeck, Thorsten Schaaf, Thomas Tolxdorff, Alexander Löser, Feiyu Xu, Hans Uszkoreit, Philipp Legge, Kai Sachs, Sonja Oechsler and Klemens Budde. Integrierte Versorgung nierentransplantierter Patienten, Entwicklung einer E-Health-Plattform. Dialyse aktuell, Vol. 20, No. 06, Pages 285-290, Georg Thieme Verlag, Stuttgart, New York, 7/2016

Publikationen20

▪ 2018○ Johannes Kirschnick, Philippe Thomas, Roland Roller, Leonhard Hennig. SIA: a scalable interoperable annotation server for biomedical

named entities. In: Journal of Cheminformatics (JCheminf) 10:63, BioMed Central 12/2018. ○ Elif Kara, Tatjana Zeen, Aleksandra Gabryszak, Klemens Budde, Danilo Schmidt and Roland Roller. A Domain-adapted Dependency Parser

for German Clinical Text. 2018. In Proceedings of the 14th Conference on Natural Language Processing (KONVENS 2018), Vienna, Austria○ Danilo Schmidt, Verena Graf, Roland Roller, Oliver Staeck, Thomas Tolxdorff, Thorsten Schaaf, Alexander Löser, Feiyu Xu, Hans Uszkoreit,

Philipp Legge, Gero Lurz, Marco Wedekind, Kai Sachs, Sonja Oechsler, Klemens Budde, Sebastian Gaede and Fabian Halleck. Integrierte Versorgung chronisch kranker Patienten am Beispiel von MACSS. 2018. In Aljoscha Burchardt, Hans Uszkoreit (Eds.), IT für soziale Inklusion: Digitalisierung - Künstliche Intelligenz - Zukunft für alle (pp. 41-50). Berlin, Boston: De Gruyter.

○ Roland Roller, Madeleine Kittner, Dirk Weissenborn, Ulf Leser. Cross-lingual Candidate Search for Biomedical Concept Normalization. 2018. In Proceedings of MultilingualBIO, Miyazaki, Japan

▪ 2017○ Roland Roller, Nils Rethmeier, Philippe Thomas, Marc Hübner, Hans Uszkoreit, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo

Schmidt. Detecting Named Entities and Relations in German Clinical Reports. 2017. In Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology, Berlin, Germany.

○ F. Halleck, D. Schmidt, S. Georgi, V. Graf, S. Gaede, R. Roller, K. Budde und O. Staeck. mHealth und digitales Management nach Nierentransplantation. In Nieren- und Hochdruckkrankheiten, November 2017

○ Johannes Kirschnick and Philippe Thomas. Sia: Scalable interoperable annotation server. 2017. In Proceedings of the BioCreative V.5 Challenge Evaluation Workshop, Barcelona, Spain.

▪ 2016○ Viviana Cotik, Roland Roller, Feiyu Xu, Hans Uszkoreit, Klemens Budde and Danilo Schmidt. Negation Detection in Clinical Reports Written in

German. In Proceedings of the 5th Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM), 2016, Osaka, Japan, Association for Computational Linguistics

○ Roland Roller, Hans Uszkoreit, Feiyu Xu, Laura Seiffe, Michael Mikhailov, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo Schmidt. A fine-grained corpus annotation schema of German nephrology records. In Proceedings of the Clinical Natural Language Processing Workshop, 2016, Osaka, Japan, Association for Computational Linguistics

○ Dirk Weissenborn, Roland Roller, Feiyu Xu, Hans Uszkoreit and Enrique Garcia Perez. A Light-weight & Robust System for Clinical Concept Disambiguation. In Proceedings of the 7th International Symposium on Semantic Mining in Biomedicine, SMBM 2016, Potsdam, Germany

○ Fabian Hillock, Danilo Schmidt, Oliver Staeck, Thorsten Schaaf, Thomas Tolxdorff, Alexander Löser, Feiyu Xu, Hans Uszkoreit, Philipp Legge, Kai Sachs, Sonja Oechsler and Klemens Budde. Integrierte Versorgung nierentransplantierter Patienten, Entwicklung einer E-Health-Plattform. Dialyse aktuell, Vol. 20, No. 06, Pages 285-290, Georg Thieme Verlag, Stuttgart, New York, 7/2016

http://macss.dfki.de

Wie geht es weiter?21

▪ BigMedilytics○ Endpunktvorhersage, “Clinical Decision

Support” -> Kombination von unstrukturiertem Wissen mit extrahierten Daten aus Texten

▪ Ausbau mEx Plattform▪ Cross-Domain & Cross-lingual

Informationsextraktion

22

https://pics.onsizzle.com/you-at-buffet-vs-me-at-buffet-5395324.png

Demo-Time!

Danke! Fragen?