Target tracking in complex scenes based on computer vision

Shang, Huanan

Target tracking in complex scenes based on computer vision / Rastreamento de alvos em cenas complexas com base na visão computadorizada / Seguimiento de blancos en escenas complejas con base en la visión computadorizada

Shang, Huanan.

Shang, Huanan; Huang S&T College. Henan Zhengzhou. CN

Rev. bras. med. esporte ; 28(5): 436-439, Set.-Oct. 2022. tab, graf

Article in English | LILACS-Express | LILACS | ID: biblio-1376663

ABSTRACT

Objective:

Use the deep learning network model to identify key content in videos.

Methodology:

After reviewing the literature on computer vision, the feature extraction of the target video from the network using deep learning with the time-series data enhancement method was performed. The preprocessing method for data augmentation and Spatio-temporal feature extraction on the video based on LI3D network was explained. Accuracy rate, precision, and recall were used as indices.

Results:

The three indicators increased from 0.85, 0.88, and 0.84 to 0.89, 0.90, and 0.88, respectively. This shows that the LI3D network model maintains a high recall rate accompanied by high accuracy after data augmentation. The accuracy and loss function curves of the training phase show that the accuracy of the network is greatly improved compared to I3D.

Conclusion:

The experiment proves that the LI3D model is more stable and has faster convergence. By comparing the accuracy curve and loss function curve during LI3D, LI3D-LSTM, and LI3D-BiLSTM training, it is found that the LI3D-BiLSTM model converges faster. Level of evidence II; Therapeutic studies - investigation of treatment results.

RESUMO

Objetivo:

Usar o modelo de rede de aprendizagem profunda para identificar o conteúdo-chave em vídeos.

Metodologia:

Após revisão da literatura sobre a visão computadorizada, efetuou-se a extração da característica do vídeo alvo da rede utilizando o aprendizado profundo com o método de melhoramento de dados em séries temporais. Foi explanado o método de pré-processamento para aumento de dados e extração da característica espaço-temporal no vídeo baseado na rede LI3D. Foram utilizados como índices a taxa de precisão, precisão e recall.

Resultados:

Os três indicadores aumentaram de 0,85, 0,88, e 0,84 para 0,89, 0,90, e 0,88, respectivamente. Isso mostra que após o aumento dos dados, o modelo de rede LI3D mantém uma alta taxa de recuperação acompanhada de uma alta precisão. As curvas de precisão e função de perda da fase de treinamento demonstram que a precisão da rede é muito melhorada em comparação com a I3D.

Conclusão:

O experimento prova que o modelo LI3D é mais estável e que a convergência é mais rápida. Ao comparar a curva de precisão e a curva de função de perda durante o treinamento LI3D, LI3D-LSTM e LI3D-BiLSTM, verifica-se que o modelo LI3D-BiLSTM converge mais rapidamente. Nível de evidência II; Estudos terapêuticos - investigação de resultados de tratamento.

RESUMEN

Objetivo:

Utilizar el modelo de red de aprendizaje profundo para identificar el contenido clave en los vídeos.

Metodología:

Después de revisar la literatura sobre visión por ordenador, se realizó la extracción de características del vídeo objetivo de la red utilizando el aprendizaje profundo con el método de aumento de datos de series temporales. Se explicó el método de preprocesamiento para el aumento de datos y la extracción de características espacio-temporales en el vídeo basado en la red LI3D. Se utilizaron como índices la tasa de exactitud, la precisión y recall.

Resultados:

Los tres indicadores aumentaron de 0,85, 0,88 y 0,84 a 0,89, 0,90 y 0,88, respectivamente. Esto demuestra que el modelo de red LI3D mantiene un alto índice de recuperación acompañado de una alta precisión tras el aumento de datos. Las curvas de precisión y de función de pérdida de la fase de entrenamiento muestran que la precisión de la red mejora mucho en comparación con la I3D.

Conclusión:

El experimento demuestra que el modelo LI3D es más estable y tiene una convergencia más rápida. Al comparar la curva de precisión y la curva de función de pérdida durante el entrenamiento de LI3D, LI3D-LSTM y LI3D-BiLSTM, se observa que el modelo LI3D-BiLSTM converge más rápidamente. Nivel de evidencia II; Estudios terapéuticos - investigación de resultados de tratamiento.

Computadoras; Computadores; Computer Vision Systems; Computers; Public Health; Salud Pública; Saúde Pública; Sistemas de Visión Computacional; Sistemas de Visão Computacional

Fulltext

XML

Search on Google

Full text: Available Index: LILACS (Americas) Type of study: Prognostic study / Screening study Language: English Journal: Rev. bras. med. esporte Journal subject: Sports Medicine Year: 2022 Type: Article Affiliation country: China Institution/Affiliation country: Huang S&T College/CN

Similar

MEDLINE

LILACS

LIS

Fulltext

XML

Search on Google