Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases

Romero, Pedro Eduardo; Castillo-Vilcahuaman, Camila

Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases / Minería de datos de secuencias de DNA enviadas a bases de datos genéticas públicas por instituciones peruanas

Romero, Pedro Eduardo; Castillo-Vilcahuaman, Camila.

Romero, Pedro Eduardo; Universidad Peruana Cayetano Heredia. Facultad de Ciencias y Filosofía. Departamento de Ciencias Biológicas y Fisiológicas. Lima. PE
Castillo-Vilcahuaman, Camila; Universidad Peruana Cayetano Heredia. Facultad de Ciencias y Filosofía. Laboratorio de Genómica Microbiana. Lima. PE

Rev. peru. biol. (Impr.) ; 28(1): e17867, Jan-Mar 2021. tab, graf

Article in English | LILACS-Express | LILACS | ID: biblio-1289877

ABSTRACT
RESUMEN

ABSTRACT

Abstract Genetic diversity is an important component of biodiversity, and it is crucial for current efforts to protect and sustainably manage several organisms and habitats. As far as we know, there is only one work describing Peruvian genetic information stored in public databases. We aimed to update this previous work searching in four public databases that stored digital sequence information Nucleotide, BioProject, PATRIC, BOLD. With this information, we comment on the contribution of Peruvian institutions during recent years. In Nucleotide, the largest database, Bacteria are the most sequenced organisms by Peruvian institutions (70.60%), pathogenic bacteria such as Pasteurella multocida, Neisseria meningitidis, and Vibrio parahaemolyticus were the most abundant. We found no sequence records from the Archaea domain. In BioProject, the most common sequence belongs to Salmonella enterica subsp. enterica serovar Infantis. In PATRIC, a database of pathogenic agents, Mycobacterium tuberculosis and Yersinia pestis had the highest number of entries. Finally, in BOLD, an exclusively Eukaryotic database, Chordata (Aves and Actinopterygii), Angiospermae, and Arthropoda (Insecta, and Arachnida) were the most frequent records. Our results would indicate research preferences of Peruvian institutions, focusing on infectious diseases and some Eukaryotic phyla. Although there has been a significant increase of DNA information submitted by Peruvian institutions since the last report, the genetic diversity reflected in these databases remains inconsistent with the diversity in the country. More efforts must be made to obtain genetic information from more underestimated taxonomic groups and to promote more genetic research in regional Peruvian institutions.

RESUMEN

Resumen La diversidad genética es una componente importante de la biodiversidad y es crucial para los esfuerzos actuales de proteger y gestionar de manera sostenible varios organismos y hábitats. Hasta donde sabemos, solo hay un trabajo que describe la información genética peruana almacenada en bases de datos públicas. Nuestro objetivo fue actualizar este trabajo previo buscando en cuatro bases de datos públicas que almacenaban información de secuencias digitales Nucleotide, BioProject, PATRIC, BOLD. Con esta información analizamos la contribución de las instituciones peruanas durante los últimos años. En Nucleotide, la base de datos más grande, las bacterias fueron los organismos más secuenciados por las instituciones peruanas (70.60%), las bacterias patógenas como Pasteurella multocida, Neisseria meningitidis y Vibrio parahaemolyticus fueron las más abundantes. No encontramos registros de secuencias del dominio Archaea. En BioProject, la secuencia más común pertenece a Salmonella enterica subsp. enterica serovar Infantis. En PATRIC, una base de datos de agentes patógenos, Mycobacterium tuberculosis y Yersinia pestis tuvieron el mayor número de entradas. Finalmente, en BOLD, una base de datos exclusivamente eucariota, Chordata (Aves y Actinopterygii), Angiospermae y Arthropoda (Insecta y Arachnida) fueron los registros más frecuentes. Nuestros resultados indicarían las preferencias de investigación de las instituciones peruanas, centrándose en enfermedades infecciosas y algunos filos eucariotas. Aunque ha habido un aumento significativo de la información de ADN enviada por las instituciones peruanas desde el último informe, la diversidad genética reflejada en estas bases de datos sigue siendo inconsistente con la diversidad del país. Se deben realizar más esfuerzos para obtener información genética de grupos taxonómicos más subestimados y promover más investigación genética en las instituciones regionales peruanas.

Bases de datos públicas; Biodiversidad; Biodiversity; Data mining; Diversidad genética; Genetic diversity; Minería de datos; Peru; Perú; Public databases

Fulltext

XML

Search on Google

Full text: Available Index: LILACS (Americas) Language: English Journal: Rev. peru. biol. (Impr.) Journal subject: Biology Year: 2021 Type: Article / Project document Affiliation country: Peru Institution/Affiliation country: Universidad Peruana Cayetano Heredia/PE

Similar

MEDLINE

LILACS

LIS

Fulltext

XML

Search on Google