Aprendizaje automático aplicado a la predicción de diabetes mellitus, utilizando información socioeconómica y ambiental de usuarios del sistema de salud

Mejía, Jessner Alexander; Oviedo-Benalcázar, Mario Andrés; Ordoñez, José Armando; Valencia-Murillo, José Fernando

Mejía, Jessner Alexander; Oviedo-Benalcázar, Mario Andrés; Ordoñez, José Armando; Valencia-Murillo, José Fernando.

Mejía, Jessner Alexander; s.af
Oviedo-Benalcázar, Mario Andrés; s.af
Ordoñez, José Armando; s.af
Valencia-Murillo, José Fernando; s.af

Rev. Fac. Nac. Salud Pública ; 41(2)ago. 2023.

Article in Spanish | LILACS-Express | LILACS | ID: biblio-1535267

RESUMEN

Objetivo:

Se propuso aplicar modelos basados en técnicas de aprendizaje automático como apoyo para el diagnóstico temprano de la diabetes mellitus, utilizando variables de datos ambientales, sociales, económicos y sanitarios, sin la dependencia de la toma de muestras clínicas.

Metodología:

Se utilizaron datos de 10 889 usuarios afiliados al régimen subsidiado de salud de la zona suroccidental en Colombia, diagnosticados con hipertensión y agrupados en usuarios sin (74,3 %) y con (25,7 %) diabetes mellitus. Se entrenaron modelos supervisados utilizando k vecinos más cercanos, árboles de decisión y bosques aleatorios, así como modelos basados en ensambles, aplicados a la base de datos antes y después de balancear el número de casos en cada grupo de diagnóstico. Se evalúo el rendimiento de los algoritmos mediante la división de la base de datos en datos de entreno y de prueba (70/30, respectivamente), y se utilizaron métricas de exactitud, sensibilidad, especificidad y área bajo la curva.

Resultados:

Los valores de sensibilidad aumentaron considerablemente al utilizar datos balanceados, pasando de valores máximos del 17,1 % (datos sin balancear) a valores de hasta 57,4 % (datos balanceados). El valor más alto de área bajo la curva (0,61) fue obtenido con los modelos de ensambles, al aplicar un balance en el número de datos por cada grupo y al codificar las variables categóricas. Las variables de mayor peso estuvieron asociadas con aspectos hereditarios (24,65 %) y con el grupo étnico (5.59 %), además de la dificultad visual, el bajo consumo de agua, una dieta baja en frutas y verduras, y el consumo de sal y azúcar.

Conclusiones:

Aunque los modelos predictivos, utilizando información socioeconómica y ambiental de las personas, surgen como una herramienta para el diagnóstico temprano de la diabetes mellitus, estos aún deben ser mejorados en su capacidad predictiva.

ABSTRACT

Objective:

The objective was to apply models based on machine learning techniques to support the early diagnosis of diabetes mellitus, using environmental, social, economic and health data variables, without dependence on clinical sample collection.

Methodology:

Data from 10,889 users affiliated with the subsidized health system in the southwestern area of Colombia, diagnosed with hypertension and grouped into users without (74.3%) and with (25.7%) diabetes mellitus, were used. Supervised models were trained using k-nearest neighbors, decision trees, and random forests, as well as ensemble-based models, applied to the database before and after balancing the number of cases in each diagnostic group. The performance of the algorithms was evaluated by dividing the database into training and test data (70/30, respectively), and metrics of accuracy, sensitivity, specificity, and area under the curve were used.

Results:

Sensitivity values increased significantly when using balanced data, going from maximum values of 17.1% (unbalanced data) to values as high as 57.4% (balanced data). The highest value of area under the curve (0.61) was obtained with the ensemble models, by applying a balance in the amount of data for each group and by coding the categorical variables. The variables with the greatest weight were associated with hereditary aspects (24.65%) and with the ethnic group (5.59%), in addition to visual difficulty, low water consumption, a diet low in fruits and vegetables, and the consumption of salt and sugar.

Conclusions:

Although predictive models, using people's socioeconomic and environmental information, emerge as a tool for the early diagnosis of diabetes mellitus, their predictive capacity still needs to be improved.

RESUMO

Objetivo:

Propôs-se aplicar modelos baseados em técnicas de aprendizagem automática como apoio para o diagnóstico precoce da diabetes mellitus, utilizando variáveis de dados ambientais, sociais, econômicos e sanitários, sem a dependência da coleta de amostras clínicas.

Metodologia:

Usaram-se dados de 10.889 usuários filiados ao regime subsidiado de saúde da zona sudoeste da Colômbia, diagnosticados com hipertensão e agrupados em usuários sem (74,3%) e com (25,7%) diabetes mellitus. Foram treinados modelos supervisionados utilizando k vizinhos mais próximos, árvores de decisão e florestas aleatórias, assim como modelos baseados em montagens, aplicados à base de dados antes de depois de equilibrar o número de casos em cada grupo de diagnóstico. Avaliou-se o desempenho dos algoritmos por meio da divisão da base de dados de treino e teste (70/30, respectivamente), e utilizaram-se métricas de exatidão, sensibilidade, especificidade e área sob a curva.

Resultados:

Os valores de sensibilidade aumentaram de maneira significativa ao utilizar dados equilibrados, passando de valores máximos de 17,1% (dados sem equilibrar) a valores de até 57,4% (dados equilibrados). O valor mais elevado de área sob a curva (0,61) foi obtido com os modelos de montagens, ao aplicar um balanço no número de dados por cada grupo e codificar as variáveis categóricas. As variáveis de maior peso estiveram associadas com fatores hereditários (24,65%) e com o grupo étnico (5,59%), além da dificuldade visual, o baixo consumo de água, um regime baixo em frutas e vegetais e o consumo de sal e açúcar.

Conclusões:

Embora os modelos preditivos, utilizando informação socioeconômica e ambiental das pessoas, surgem como uma ferramenta para o diagnóstico precoce da diabetes mellitus, ainda devem ser melhorados em sua capacidade preditiva.

Aprendizagem automática; Aprendizaje automático; Diabetes mellitus; Environmental factors; Factores ambientales; Factores socioeconómicos; Fatores ambientais; Fatores socioeconômicos; Machine learning; Modelo predictivo; Modelo preditivo; Predictive model; Socioeconomic factors

Fulltext

XML

Search on Google

Full text: Available Index: LILACS (Americas) Language: Spanish Journal: Rev. Fac. Nac. Salud Pública Journal subject: Public Health Year: 2023 Type: Article

Similar

MEDLINE

LILACS

LIS

Fulltext

XML

Search on Google

Full text: Available Index: LILACS (Americas) Language: Spanish Journal: Rev. Fac. Nac. Salud Pública Journal subject: Public Health Year: 2023 Type: Article