Organizing an in-class hackathon to correct PDF-to-text conversion errors of Genomics & Informatics 1.0

Sunho KIM; Royoung KIM; Ryeo-Gyeong KIM; Enjin KO; Han-Su KIM; Jihye SHIN; Daeun CHO; Yurhee JIN; Soyeon BAE; Ye-Won JO; San-Ah JEONG; Yena KIM; Seoyeon AHN; Bomi JANG; Jiheyon SEONG; Yujin LEE; Si-Eun SEO; Yujin KIM; Ha-Jeong KIM; Hyeji KIM; Hye-Lynn SUNG; Hyoyoung LHO; Jaywon KOO; Jion CHU; Juwon LIM; Youngju KIM; Kyungyeon LEE; Yuri LIM; Meongeun KIM; Seonjeong HWANG; Shinhye HAN; Sohyeun BAE; Sua KIM; Suhyeon YOO; Yeonjeong SEO; Yerim SHIN; Yonsoo KIM; You-Jung KO; Jihee BAEK; Hyejin HYUN; Hyemin CHOI; Ji-Hye OH; Da-Young KIM; Hee-Jo NAM; Hyun-Seok PARK; Sunho KIM; Royoung KIM; Ryeo-Gyeong KIM; Enjin KO; Han-Su KIM; Jihye SHIN; Daeun CHO; Yurhee JIN; Soyeon BAE; Ye-Won JO; San-Ah JEONG; Yena KIM; Seoyeon AHN; Bomi JANG; Jiheyon SEONG; Yujin LEE; Si-Eun SEO; Yujin KIM; Ha-Jeong KIM; Hyeji KIM; Hye-Lynn SUNG; Hyoyoung LHO; Jaywon KOO; Jion CHU; Juwon LIM; Youngju KIM; Kyungyeon LEE; Yuri LIM; Meongeun KIM; Seonjeong HWANG; Shinhye HAN; Sohyeun BAE; Sua KIM; Suhyeon YOO; Yeonjeong SEO; Yerim SHIN; Yonsoo KIM; You-Jung KO; Jihee BAEK; Hyejin HYUN; Hyemin CHOI; Ji-Hye OH; Da-Young KIM; Hee-Jo NAM; Hyun-Seok PARK

Sunho KIM; Royoung KIM; Ryeo-Gyeong KIM; Enjin KO; Han-Su KIM; Jihye SHIN; Daeun CHO; Yurhee JIN; Soyeon BAE; Ye-Won JO; San-Ah JEONG; Yena KIM; Seoyeon AHN; Bomi JANG; Jiheyon SEONG; Yujin LEE; Si-Eun SEO; Yujin KIM; Ha-Jeong KIM; Hyeji KIM; Hye-Lynn SUNG; Hyoyoung LHO; Jaywon KOO; Jion CHU; Juwon LIM; Youngju KIM; Kyungyeon LEE; Yuri LIM; Meongeun KIM; Seonjeong HWANG; Shinhye HAN; Sohyeun BAE; Sua KIM; Suhyeon YOO; Yeonjeong SEO; Yerim SHIN; Yonsoo KIM; You-Jung KO; Jihee BAEK; Hyejin HYUN; Hyemin CHOI; Ji-Hye OH; Da-Young KIM; Hee-Jo NAM; Hyun-Seok PARK; Sunho KIM; Royoung KIM; Ryeo-Gyeong KIM; Enjin KO; Han-Su KIM; Jihye SHIN; Daeun CHO; Yurhee JIN; Soyeon BAE; Ye-Won JO; San-Ah JEONG; Yena KIM; Seoyeon AHN; Bomi JANG; Jiheyon SEONG; Yujin LEE; Si-Eun SEO; Yujin KIM; Ha-Jeong KIM; Hyeji KIM; Hye-Lynn SUNG; Hyoyoung LHO; Jaywon KOO; Jion CHU; Juwon LIM; Youngju KIM; Kyungyeon LEE; Yuri LIM; Meongeun KIM; Seonjeong HWANG; Shinhye HAN; Sohyeun BAE; Sua KIM; Suhyeon YOO; Yeonjeong SEO; Yerim SHIN; Yonsoo KIM; You-Jung KO; Jihee BAEK; Hyejin HYUN; Hyemin CHOI; Ji-Hye OH; Da-Young KIM; Hee-Jo NAM; Hyun-Seok PARK.

Genomics & Informatics ; : e33-2020.

Artigo em Inglês | WPRIM | ID: wpr-898408

ABSTRACT

ABSTRACT

This paper describes a community effort to improve earlier versions of the full-text corpus of Genomics & Informatics by semi-automatically detecting and correcting PDF-to-text conversion errors and optical character recognition errors during the first hackathon of Genomics & Informatics Annotation Hackathon (GIAH) event. Extracting text from multi-column biomedical documents such as Genomics & Informatics is known to be notoriously difficult. The hackathon was piloted as part of a coding competition of the ELTEC College of Engineering at Ewha Womans University in order to enable researchers and students to create or annotate their own versions of the Genomics & Informatics corpus, to gain and create knowledge about corpus linguistics, and simultaneously to acquire tangible and transferable skills. The proposed projects during the hackathon harness an internal database containing different versions of the corpus and annotations.

Texto completo

Imprimir

XML

Buscar no Google

Texto completo: DisponíveL Índice: WPRIM (Pacífico Ocidental) Idioma: Inglês Revista: Genomics & Informatics Ano de publicação: 2020 Tipo de documento: Artigo

Similares

MEDLINE

LILACS

LIS

Texto completo

Imprimir

XML

Buscar no Google

Texto completo: DisponíveL Índice: WPRIM (Pacífico Ocidental) Idioma: Inglês Revista: Genomics & Informatics Ano de publicação: 2020 Tipo de documento: Artigo