Similarity-based scoring method for classification of health informatics content

Teixeira, Fabio; Falcão, Alex Jaccoud; Sousa, Fernando Sequeira; Hummel, Anderson Diniz; Costa, Thiago Martini; Mancini, Felipe; Araujo, Luciano Vieira de; Pisa, Ivan Torres

Similarity-based scoring method for classification of health informatics content / Método baseado no escore de similaridade para a classificação de conteúdo em Informática em Saúde / Método basado en la puntuación de similitud para clasificar el contenido en Informática de la Salud

Teixeira, Fabio; Falcão, Alex Jaccoud; Sousa, Fernando Sequeira; Hummel, Anderson Diniz; Costa, Thiago Martini; Mancini, Felipe; Araujo, Luciano Vieira de; Pisa, Ivan Torres.

Teixeira, Fabio; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Falcão, Alex Jaccoud; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Sousa, Fernando Sequeira; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Hummel, Anderson Diniz; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Costa, Thiago Martini; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Mancini, Felipe; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Araujo, Luciano Vieira de; Universidade de São Paulo. Escola de Artes, Ciências e Humanidades. São Paulo. BR
Pisa, Ivan Torres; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR

J. health inform ; 3(2): 35-42, abr.-jun. 2011. tab, ilus

Article in Portuguese | LILACS | ID: lil-621835

ABSTRACT

Objective:

There has been a considerable growth of the architecture and complexity of digital repositories in Health Informatics (HI). For information retrieval different information treatment and representation, such as automatic content classification, are required. The purpose of this study is to present the results of a procedure for automatic classification of scientific articles in HI using a specific thesaurus.

Design:

Statistical, vector, and artificial intelligence methods were applied to classify HI-related content. Articles extracted from the HI and Health journals and a specialized HI thesaurus were used for method application and result evaluation. Measurements Statistical procedures and measures of accuracy, precision, recall, area under the ROC curve, and combination of precision and recall (F1 measure) were performed to measure the degree of similarity between terms of the specialized HI thesaurus and the selected articles.

Results:

The percentage of accuracy achieved was 0.87, F1 measure was 0.87 and the area under the ROC curve was 0.94.

Conclusion:

The results were positive, showing that the use of a specialized thesaurus on Health Informatics in conjunction with the methods used allows the classification of articles in the areas of Health Informatics and Health.

RESUMO

Objetivo:

Há um crescimento considerável na arquitetura e complexidade dos repositórios digitais em Informática em Saúde (IS). A recuperação de informação neste cenário requer diferentes tratamentos e representações, como a classificação automática de conteúdo. O propósito deste estudo é apresentar os resultados de um processo automatizado para a classificação de artigos científicos de Informática em Saúde, utilizando um tesauro especializado neste domínio de conhecimento.

Métodos:

Métodos estatísticos, vetoriais e de inteligência artificial foram aplicados para classificar conteúdo relacionado à Informática em Saúde. Artigos científicos publicados em revistas de Saúde e Informática em Saúde, bem como um tesauro especializado em Informática em Saúde foram utilizados para a aplicação dos métodos e avaliação dos resultados.Avaliação Métodos estatísticos e medidas de acurácia, precisão, revocação, área sob a curva ROC e F1-measure foram realizadas para medir o grau de similaridade entre os termos do tesauro especializado e os artigos selecionados.

Resultados:

O percentual de acurácia obtido foi de 0.87, F1-measure foi 0.87 e a área sob a curva ROC foi 0.94.

Conclusão:

Os resultados obtidos foram positivos, mostrando que a utilização de um tesauro especializado em Informática em Saúde em conjunto com os métodos aplicados possibilita a classificação de artigos nos domínios da Informática em Saúde e Saúde.

RESUMEN

Objetivo:

Hay un aumento considerable de la complejidad y la arquitectura de los repositorios digitales en Informática de la Salud (IS). La recuperación de la información en este escenario requiere diferentes tratamientos y actuaciones, como la clasificación automática de contenidos. El propósito de este estudio es presentar los resultados de un proceso automatizado para la clasificación de artículos científicos sobre Informática en Salud, utilizando un diccionario de sinónimos en la misma área de interés.

Métodos:

Los métodos estadísticos, el vector y la inteligencia artificial han sido aplicados para clasificar los contenidos relacionados con la Informática en Salud. Artículos publicados en revistas de Salud y de Informática en Salud, así como un diccionario especializado en Informática en Salud se utilizó para la aplicación de métodos y la evaluación de los resultados. Clasificación Métodos estadísticos y medidas de la exactitud, precisión, cobertura, área bajo la curva ROC y F1 mediciones se realizaron para medir el grado de similitud entre los términos del diccionario de sinónimos y artículos especializados seleccionados.

Resultados:

El porcentaje de precisión obtenido fue de 0,87, F1-medida fue de 0,87 y el área bajo la curva ROC fue de 0,94.

Conclusión:

Los resultados fueron positivos, demostrando que el uso de un tesauro especializado en Informática en Salud en relación con los métodos que permite la clasificación de los artículos en las áreas de Informática en Salud y Salud.

Subject(s)

Data Analysis; Medical Informatics; Artificial Intelligence; Periodicals as Topic; Computer Systems; Vocabulary, Controlled

Analisis de datos; Análise de dados; Artificial Intelligence; Clasificación; Classification; Classificação; Data Analysis; Inteligencia artificial; Inteligência artificial

Fulltext

XML

Search on Google

Full text: Available Index: LILACS (Americas) Main subject: Periodicals as Topic / Computer Systems / Medical Informatics / Artificial Intelligence / Vocabulary, Controlled / Data Analysis Type of study: Prognostic study Language: Portuguese Journal: J. health inform Journal subject: Medical Informatics / Health Services / TECNOLOGIA Year: 2011 Type: Article Affiliation country: Brazil Institution/Affiliation country: Universidade Federal de São Paulo/BR / Universidade de São Paulo/BR

Similar

MEDLINE

LILACS

LIS

Fulltext

XML

Search on Google