Your browser doesn't support javascript.
loading
Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados / Assessment of a method for automatic match classification in probabilistic data linkage / Evaluación del método para la clasificación automatizada de pares en relaciones probabilísticas de bancos de datos
Duarte, Daniela de Almeida Pereira; Corrêa, Camila Soares Lima; Fayer, Vívian Assis; Nogueira, Mário Círio; Bustamante-Teixeira, Maria Teresa.
  • Duarte, Daniela de Almeida Pereira; Universidade Federal de Juiz de Fora. Juiz de Fora. BR
  • Corrêa, Camila Soares Lima; Universidade Federal de Juiz de Fora. Juiz de Fora. BR
  • Fayer, Vívian Assis; Universidade Federal de Juiz de Fora. Juiz de Fora. BR
  • Nogueira, Mário Círio; Universidade Federal de Juiz de Fora. Juiz de Fora. BR
  • Bustamante-Teixeira, Maria Teresa; Universidade Federal de Juiz de Fora. Juiz de Fora. BR
Cad. Saúde Pública (Online) ; 35(11): e00066419, 2019. tab
Article in Portuguese | LILACS | ID: biblio-1039410
RESUMO
Resumo O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.
ABSTRACT
Abstract The objective was to test and assess the accuracy of a scoring method in probabilistic data linkage in order to enable automatic identification of true matches, dispensing with the manual inspection stage. Accuracy study using data from the Breast Cancer Information System (SISMAMA) base in Minas Gerais State, Brazil, from 2009 and 2010. After cleaning and standardization, a 16-step probabilistic linkage of the 2009 and 2010 databases was performed, where each step was inspected manually to obtain a gold standard. Samples were then selected, inspected, and assessed to calculate the method's accuracy in selecting true matches. All the steps and samples with 200 and 300 matches showed high sensitivity (recall) > 0.97, high positive predictive value (precision) > 0.95, high accuracy (> 0.97) and F measure (> 0.96), and high area under the curve precision-recall (> 0.98). The sample with 100 matches showed high values for these measures, but with low scores. Of the 16 steps assessed, the combined use of only three was sufficient to identify 99.24% of the true matches in the total database. The proposed method allows automatically linking databases, maintaining the method's accuracy. It facilitates the use of probabilistic linkage in health services, especially for health surveillance and management.
RESUMEN
Resumen El objectivo fue robar y evaluar la exactitud de un método para la selección de una puntuación, en la relación probabilística de bancos de datos, de forma que sea viable la automatización de la identificación de pares verdaderos, eximiendo la etapa de revisión manual. Estudio de precisión, utilizando datos del Sistema de Información del Cáncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 y 2010. Tras el proceso de limpieza y estandarización, se realizó la relación probabilística de los bancos 2009 y 2010, utilizando 16 pasos, donde cada paso se revisó manualmente para obtener un patrón-oro. Posteriormente, se seleccionaron muestras que fueron revisadas y evaluadas para calcular la precisión del método de selección de los pares verdaderos. Todos los pasos y muestras con 200 y 300 pares presentaron una alta sensibilidad (recall) > 0,97, un alto valor predictivo positivo (precision) > 0,95 y exactitud alta (> 0,97), medida F (> 0,96) y el área bajo la curva precision-recall (> 0,98). La muestra con 100 pares evidenció altos valores para estas medidas, aunque con puntuaciones más bajas. De los 16 pasos evaluados, el uso de solo tres de forma combinada fueron suficientes para identificar 99,24% de los pares verdaderos en el banco total. El método propuesto permite automatizar la relación de las bases de datos, manteniendo la precisión del método. Facilita la utilización de la relación probabilística en el ámbito de los servicios de salud, especialmente para vigilancia y gestión en salud.
Subject(s)


Full text: Available Index: LILACS (Americas) Main subject: Medical Record Linkage / Databases, Factual / Information Storage and Retrieval Type of study: Prognostic study Limits: Humans Country/Region as subject: South America / Brazil Language: Portuguese Journal: Cad. Saúde Pública (Online) Journal subject: Sa£de P£blica / Toxicologia Year: 2019 Type: Article Affiliation country: Brazil Institution/Affiliation country: Universidade Federal de Juiz de Fora/BR

Similar

MEDLINE

...
LILACS

LIS


Full text: Available Index: LILACS (Americas) Main subject: Medical Record Linkage / Databases, Factual / Information Storage and Retrieval Type of study: Prognostic study Limits: Humans Country/Region as subject: South America / Brazil Language: Portuguese Journal: Cad. Saúde Pública (Online) Journal subject: Sa£de P£blica / Toxicologia Year: 2019 Type: Article Affiliation country: Brazil Institution/Affiliation country: Universidade Federal de Juiz de Fora/BR