Search | Global Index Medicus

Teixeira, Fabio; Falcão, Alex Jaccoud; Sousa, Fernando Sequeira; Hummel, Anderson Diniz; Costa, Thiago Martini; Mancini, Felipe; Araujo, Luciano Vieira de; Pisa, Ivan Torres.

J. health inform ; 3(2): 35-42, abr.-jun. 2011. tab, ilus

Article in Portuguese | LILACS | ID: lil-621835

ABSTRACT

Objective: There has been a considerable growth of the architecture and complexity of digital repositories in Health Informatics (HI). For information retrieval different information treatment and representation, such as automatic content classification, are required. The purpose of this study is to present the results of a procedure for automatic classification of scientific articles in HI using a specific thesaurus. Design: Statistical, vector, and artificial intelligence methods were applied to classify HI-related content. Articles extracted from the HI and Health journals and a specialized HI thesaurus were used for method application and result evaluation. Measurements: Statistical procedures and measures of accuracy, precision, recall, area under the ROC curve, and combination of precision and recall (F1 measure) were performed to measure the degree of similarity between terms of the specialized HI thesaurus and the selected articles. Results: The percentage of accuracy achieved was 0.87, F1 measure was 0.87 and the area under the ROC curve was 0.94. Conclusion: The results were positive, showing that the use of a specialized thesaurus on Health Informatics in conjunction with the methods used allows the classification of articles in the areas of Health Informatics and Health.

Objetivo: Há um crescimento considerável na arquitetura e complexidade dos repositórios digitais em Informática em Saúde (IS). A recuperação de informação neste cenário requer diferentes tratamentos e representações, como a classificação automática de conteúdo. O propósito deste estudo é apresentar os resultados de um processo automatizado para a classificação de artigos científicos de Informática em Saúde, utilizando um tesauro especializado neste domínio de conhecimento. Métodos: Métodos estatísticos, vetoriais e de inteligência artificial foram aplicados para classificar conteúdo relacionado à Informática em Saúde. Artigos científicos publicados em revistas de Saúde e Informática em Saúde, bem como um tesauro especializado em Informática em Saúde foram utilizados para a aplicação dos métodos e avaliação dos resultados.Avaliação: Métodos estatísticos e medidas de acurácia, precisão, revocação, área sob a curva ROC e F1-measure foram realizadas para medir o grau de similaridade entre os termos do tesauro especializado e os artigos selecionados. Resultados: O percentual de acurácia obtido foi de 0.87, F1-measure foi 0.87 e a área sob a curva ROC foi 0.94. Conclusão: Os resultados obtidos foram positivos, mostrando que a utilização de um tesauro especializado em Informática em Saúde em conjunto com os métodos aplicados possibilita a classificação de artigos nos domínios da Informática em Saúde e Saúde.

Objetivo: Hay un aumento considerable de la complejidad y la arquitectura de los repositorios digitales en Informática de la Salud (IS). La recuperación de la información en este escenario requiere diferentes tratamientos y actuaciones, como la clasificación automática de contenidos. El propósito de este estudio es presentar los resultados de un proceso automatizado para la clasificación de artículos científicos sobre Informática en Salud, utilizando un diccionario de sinónimos en la misma área de interés. Métodos: Los métodos estadísticos, el vector y la inteligencia artificial han sido aplicados para clasificar los contenidos relacionados con la Informática en Salud. Artículos publicados en revistas de Salud y de Informática en Salud, así como un diccionario especializado en Informática en Salud se utilizó para la aplicación de métodos y la evaluación de los resultados. Clasificación: Métodos estadísticos y medidas de la exactitud, precisión, cobertura, área bajo la curva ROC y F1 mediciones se realizaron para medir el grado de similitud entre los términos del diccionario de sinónimos y artículos especializados seleccionados. Resultados: El porcentaje de precisión obtenido fue de 0,87, F1-medida fue de 0,87 y el área bajo la curva ROC fue de 0,94. Conclusión: Los resultados fueron positivos, demostrando que el uso de un tesauro especializado en Informática en Salud en relación con los métodos que permite la clasificación de los artículos en las áreas de Informática en Salud y Salud.

Subject(s)

Data Analysis , Medical Informatics , Artificial Intelligence , Periodicals as Topic , Computer Systems , Vocabulary, Controlled

ABSTRACT

Subject(s)

SEND TO:

SELECTION OF CITATIONS

SEARCH DETAIL