ABSTRACT
The efficient recognition of symptoms in viral infections holds promise for swift and precise diagnosis, thus mitigating health implications and the potential recurrence of infections. COVID-19 presents unique challenges due to various factors influencing diagnosis, especially regarding disease symptoms that closely resemble those of other viral diseases, including other strains of SARS, thus impacting the identification of useful and meaningful symptom patterns as they emerge in infections. Therefore, this study proposes an association rule mining approach, utilising the Apriori algorithm to analyse the similarities between individuals with confirmed SARS-CoV-2 diagnosis and those with unspecified SARS diagnosis. The objective is to investigate, through symptom rules, the presence of COVID-19 patterns among individuals initially not diagnosed with the disease. Experiments were conducted using cases from Brazilian SARS datasets for São Paulo State. Initially, reporting percentage similarities of symptoms in both groups were analysed. Subsequently, the top ten rules from each group were compared. Finally, a search for the top five most frequently occurring positive rules among the unspecified ones, and vice versa, was conducted to identify identical rules, with a particular focus on the presence of positive rules among the rules of individuals initially diagnosed with unspecified SARS.
Subject(s)
COVID-19 , SARS-CoV-2 , COVID-19/epidemiology , Humans , Brazil/epidemiology , Severe Acute Respiratory Syndrome/epidemiology , Algorithms , Prevalence , PandemicsABSTRACT
Abstract Introduction. This paper presents the functionality and characterization of two Data Mining (DM) techniques, logistic regression and association rules (Apriori Algorithm). This is done through a conceptual model that enables to choose the appropriate data mining project technique for obtaining knowledge from criteria that describe the specific project to be developed. Objective. Support decision making when choosing the most appropriate technique for the development of a data mining project. Materials and methods. Association and logistic regression techniques are characterized in this study, showing the functionality of their algorithms. Results. The proposed model is the input for the implementation of a knowledge-based system that emulates a human expert's knowledge at the time of deciding which data mining technique to choose against a specific problem that relates to a data mining project. It facilitates verification of the business processes of each one of the techniques, and measures the correspondence between a project's objectives versus the components provided by both the logistic regression and the association rules techniques. Conclusion. Current and historical information is available for decision-making through the generated data mining models. Data for the models are taken from Data Warehouses, which are informational environments that provide an integrated and total view of the organization.
Resumen Introducción. El artículo muestra en un modelo conceptual basado en conocimiento la caracterización y funcionalidad de dos técnicas de Minería de Datos (MD) regresión logística y reglas de asociación, para elegir la técnica de MD apropiada en proyectos de obtención de conocimiento a partir criterios que describen el proyecto específico a ser desarrollado. Objetivo. Apoyar la toma de decisiones en el momento de elegir cual técnica es la más apropiada para el desarrollo de un proyecto de minería de datos. Materiales y métodos. Las técnicas de asociación y regresión logística son caracterizadas, mostrando la funcionalidad de sus algoritmos. Resultados. El modelo propuesto es el insumo para la implementación de un Sistema basado en conocimiento que imita el conocimiento de un experto humano en el momento de tomar la decisión de que técnica de minería de datos escoger frente a un problema específico que relaciona un proyecto de minería de datos. Facilita la verificación de los procesos de negocio de cada una de las técnicas, y mide la correspondencia entre los objetivos trazados de un proyecto versus los componentes que ofrecen la técnica de regresión logística y la técnica de reglas de asociación. Conclusión. La información actual e histórica se encuentra disponible para la toma de decisiones a través de los modelos generados por la minería de datos. Los datos para los modelos son provenientes de bodegas de datos, las cuales son entornos informativos, que proporcionan una visión integrada y total de la organización.
Resumo Introdução. O artigo mostra em um modelo conceituai baseado no conhecimento a caracterização e funcionalidade de duas técnicas de regressão logística de Data Mining (MD) e regras de associação, para escolher a técnica de MD apropriada em projetos de aquisição de conhecimento com base em critérios que descrevem a Projeto específico a ser desenvolvido. Objetivo. Apoie a tomada de decisão no momento da escolha da técnica mais apropriada para o desenvolvimento de um projeto de mineração de dados. Materiais e métodos. As técnicas de associação e regressão logística são caracterizadas, mostrando a funcionalidade de seus algoritmos. Resultados. O modelo proposto é a entrada para a implementação de um sistema baseado no conhecimento que imita o conhecimento de um perito humano ao decidir qual técnica de mineração de dados escolher contra um problema específico que relaciona um projeto de mineração para informações. Facilita a verificação dos processos de negócios de cada uma das técnicas e mede a correspondência entre os objetivos de um projeto versus os componentes que oferecem a técnica de regressão logística e a técnica das regras de associação. Conclusão. Informações atuais e históricas estão disponíveis para a tomada de decisões através de modelos gerados pela mineração de dados. Os dados para os modelos provêm de data warehouses, que são ambientes informativos, que fornecem uma visão integrada e total da organização.