Geração de dados sintéticos para classificação de disléxicos por meio de aprendizado de máquina

Silva Junior, Antonio Carlos da; Gonçalves, Emanuela Cristina Ramos; Schor, Paulo; Navarro, Martina; Mancini, Felipe

Geração de dados sintéticos para classificação de disléxicos por meio de aprendizado de máquina / Synthetic data generation for classification of dyslexics by machine learning / Generación de datos sintéticos para clasificación de disléxicos mediante aprendizaje automático

Silva Junior, Antonio Carlos da; Gonçalves, Emanuela Cristina Ramos; Schor, Paulo; Navarro, Martina; Mancini, Felipe.

Silva Junior, Antonio Carlos da; Universidade Federal de São Paulo. Escola Paulista de Medicina. Programa de Pós-Graduação em Gestão e Informática em Saúde. São Paulo. BR
Gonçalves, Emanuela Cristina Ramos; Universidade Federal de São Paulo. Escola Paulista de Medicina. Programa de Pós-Graduação em Oftalmologia e Ciências Visuais. São Paulo. BR
Schor, Paulo; Universidade Federal de São Paulo. Escola Paulista de Medicina. Departamento de Oftalmologia. São Paulo. BR
Navarro, Martina; University of Portsmouth. Department of Sport and Exercise Science. Portsmouth. GB
Mancini, Felipe; Universidade Federal de São Paulo. Universidade Aberta do Brasil. São Paulo. BR

J. health inform ; 13(1): 10-16, jan.-mar. 2021. ilus, tab

Article in Portuguese | LILACS | ID: biblio-1363035

RESUMO

Objetivo:

Este estudo pretende aplicar a técnica de geração de dados sintéticos com auxílio de técnicas de limpeza de dados para a classificação de disléxicos e não - disléxicos.

Método:

Os outliers foram selecionados por especialista. Foi feito uma geração sintética de dados. para cada um de cinco algoritmos foram selecionados características com busca exaustiva. Cada algoritmo foi executado com as características selecionadas e então suas curvas de calibração foram comparadas.

Resultados:

A regressão logística se destacou como o melhor algoritmo, apresentando o resultado de 99% de acurácia e área sob a curva ROC de 0,999, além de ter obtido a melhor curva de calibração

Conclusão:

O uso da geração sintética de dados e seleção de características foram capazes de fazer todos os algoritmos avaliados obterem ótimos resultados na classificação de disléxicos e não disléxicos. A regressão logística foi selecionado como melhor algoritmo para classificação de disléxicos.

ABSTRACT

Objective:

This study aims to apply the synthetic data generation technique with the aid of data cleaning techniques for the classification of dyslexics and non - dyslexics.

Method:

Outliers were selected by specialist. Synthetic of data Generated. For each of five algorithms, characteristics were selected with exhaustive search. Each algorithm was executed with the selected characteristics and then their calibration curves were compared.

Results:

Logistic regression presented the best results with 99% accuracy and area under the ROC curve of 0.999, besides obtaining the best calibration curve.

Conclusion:

The use of synthetic data generation and feature selection were able to make all algorithms achieve excellent results in the classification of dyslexic and non - dyslexic. Logistic regression was selected as the best algorithm for dyslexic classification.

RESUMEN

Objetivo:

Este estudio tiene como objetivo aplicar la técnica de generación de datos sintéticos con la ayuda de técnicas de limpieza de datos para la clasificación de disléxicos y no disléxicos.

Método:

los valores atípicos fueron seleccionados por especialistas. Se realizó una generación sintética de datos. Para cada uno de los cinco algoritmos, se seleccionaron características con búsqueda exhaustiva. Cada algoritmo se ejecutó con las características seleccionadas y luego se compararon sus curvas de calibración.

Resultados:

La regresión logística se destacó como el mejor algoritmo, presentando el resultado del 99% de precisión y área bajo la curva ROC de 0.999, además de obtener la mejor curva de calibración.

Conclusión:

El uso de la generación de datos sintéticos y la selección de Estas características lograron que todos los algoritmos evaluados obtuvieron excelentes resultados en la clasificación de disléxicos y no disléxicos. Se seleccionó la regresión logística como el mejor algoritmo para la clasificación disléxica.

Subject(s)

Humans; Child; Adolescent; Adult; Young Adult; Algorithms; Dyslexia/classification; Machine Learning; Logistic Models; ROC Curve; Sensitivity and Specificity; Data Accuracy

Aprendizado de Máquina; Aprendizaje Automático; Dislexia; Dislexia; Dyslexia; Lectura; Leitura; Machine Learning; Reading

Fulltext

XML

Search on Google

Full text: Available Index: LILACS (Americas) Main subject: Algorithms / Dyslexia / Machine Learning Type of study: Prognostic study / Risk factors Limits: Adolescent / Adult / Child / Humans Language: Portuguese Journal: J. health inform Journal subject: Medical Informatics / Health Services / TECNOLOGIA Year: 2021 Type: Article Affiliation country: Brazil / United kingdom Institution/Affiliation country: Universidade Federal de São Paulo/BR / University of Portsmouth/GB

Similar

MEDLINE

LILACS

LIS

Fulltext

XML

Search on Google