RESUMEN
Este trabalho tem como objetivo relatar estratégias para coleta de um conjunto de dados em português para treinamento de modelos de Inteligência Artificial com vistas a identificar de forma automática fake news sobre covid-19 disseminadas durante a pandemia, a partir de código Python. Analisamos um método de detecção de fake news baseado em uma Rede Neural Recorrente e de aprendizagem supervisionada. Selecionamos um corpus com 7,2 mil textos coletados em websites e agências de notícias por Monteiro et al. (2018) com cada um previamente catalogado como verdadeiro ou falso como conjunto de dados de treino e validação. O modelo foi usado para detecção de fake news sobre covid-19 em um conjunto de notícias coletadas e classificadas pelos autores deste trabalho. O índice de acerto foi de 70%, ou seja, essa foi a taxa de sucesso da detecção dos itens catalogados.
This work aims to report strategies for collecting a dataset in Portuguese for training Artificial Intelligence models to automatically identify fake news about covid-19 disseminated during the pandemic, using Python code. We analyze a fake news detection method based on a Recurrent Neural Network and supervised learning. We selected a corpus with 7,200 texts collected on websites and news agencies by Monteiro et al. (2018), each one of them previously cataloged as true or false as a training and validation dataset. This model was used to detect fake news about covid-19 in a set of news collected and classified by the authors of this work. The hit rate was 70%.
Este trabajo tiene como objetivo informar estrategias para recopilar un conjunto de datos en portugués para entrenar modelos de Inteligencia Artificial para identificar automáticamente noticias falsas sobre covid-19 difundidas durante la pandemia, utilizando el código Python. Analizamos un método de detección de noticias falsas basado en una Red Neuronal Recurrente y de aprendizaje supervisado. Seleccionamos un corpus de 7.200 textos recogidos en webs y agencias de noticias por Monteiro et al. (2018) con cada uno catalogado previamente como verdadero o falso como un conjunto de datos de entrenamiento y validación. El modelo se utilizó para detectar noticias falsas sobre covid-19 en un conjunto de noticias recopiladas y clasificadas por los autores de este trabajo. La tasa de acierto fue del 70%, es decir, esta fue la tasa de éxito de detección de los artículos catalogados.