Construcción de recursos de texto para la identificación automática de información clínica en narrativas no estructuradas

Báez, Pablo; Villena, Fabián; Zúñiga, Karen; Jones, Natalia; Fernández, Gustavo; Durán, Manuel; Dunstan, Jocelyn

Construcción de recursos de texto para la identificación automática de información clínica en narrativas no estructuradas / Construction of text resources for automatic identification of clinical information in unstructured narratives

Báez, Pablo; Villena, Fabián; Zúñiga, Karen; Jones, Natalia; Fernández, Gustavo; Durán, Manuel; Dunstan, Jocelyn.

Báez, Pablo; Universidad de Chile. Facultad de Medicina. Centro de Informática Médica y Telemedicina. Santiago. CL
Villena, Fabián; Universidad de Chile. Facultad de Medicina. Centro de Informática Médica y Telemedicina. Santiago. CL
Zúñiga, Karen; Universidad de Chile. Escuela de Medicina. Santiago. CL
Jones, Natalia; Universidad de Chile. Escuela de Medicina. Santiago. CL
Fernández, Gustavo; Universidad de Chile. Escuela de Medicina. Santiago. CL
Durán, Manuel; Universidad de Chile. Facultad de Medicina. Centro de Informática Médica y Telemedicina. Santiago. CL
Dunstan, Jocelyn; Universidad de Chile. Facultad de Medicina. Centro de Informática Médica y Telemedicina. Santiago. CL

Rev. méd. Chile ; 149(7): 1014-1022, jul. 2021. ilus, graf

Artigo em Espanhol | LILACS | ID: biblio-1389546

ABSTRACT

ABSTRACT

Background:

A significant proportion of the clinical record is in free text format, making it difficult to extract key information and make secondary use of patient data. Automatic detection of information within narratives initially requires humans, following specific protocols and rules, to identify medical entities of interest.

Aim:

To build a linguistic resource of annotated medical entities on texts produced in Chilean hospitals. Material and

Methods:

A clinical corpus was constructed using 150 referrals in public hospitals. Three annotators identified six medical entities clinical findings, diagnoses, body parts, medications, abbreviations, and family members. An annotation scheme was designed, and an iterative approach to train the annotators was applied. The F1-Score metric was used to assess the progress of the annotator's agreement during their training.

Results:

An average F1-Score of 0.73 was observed at the beginning of the project. After the training period, it increased to 0.87. Annotation of clinical findings and body parts showed significant discrepancy, while abbreviations, medications, and family members showed high agreement.

Conclusions:

A linguistic resource with annotated medical entities on texts produced in Chilean hospitals was built and made available, working with annotators related to medicine. The iterative annotation approach allowed us to improve performance metrics. The corpus and annotation protocols will be released to the research community.

Assuntos

Humanos; Processamento Eletrônico de Dados; Chile

Data Curation; Data Mining; Medical Informatics; Natural Language Processing; Supervised Machine Learning

Texto completo

Imprimir

XML

Buscar no Google

Texto completo: DisponíveL Índice: LILACS (Américas) Assunto principal: Processamento Eletrônico de Dados Tipo de estudo: Estudo diagnóstico / Guia de Prática Clínica / Estudo prognóstico Limite: Humanos País/Região como assunto: América do Sul / Chile Idioma: Espanhol Revista: Rev. méd. Chile Assunto da revista: Medicina Ano de publicação: 2021 Tipo de documento: Artigo País de afiliação: Chile Instituição/País de afiliação: Universidad de Chile/CL

Similares

MEDLINE

LILACS

LIS

Texto completo

Imprimir

XML

Buscar no Google