PharmaBench: Enhancing ADMET benchmarks with large language models.

Niu, Zhangming; Xiao, Xianglu; Wu, Wenfan; Cai, Qiwei; Jiang, Yinghui; Jin, Wangzhen; Wang, Minhao; Yang, Guojian; Kong, Lingkang; Jin, Xurui; Yang, Guang; Chen, Hongming

Niu, Zhangming; Xiao, Xianglu; Wu, Wenfan; Cai, Qiwei; Jiang, Yinghui; Jin, Wangzhen; Wang, Minhao; Yang, Guojian; Kong, Lingkang; Jin, Xurui; Yang, Guang; Chen, Hongming.

Afiliación

Niu Z; MindRank AI, Hangzhou, Zhejiang, China.
Xiao X; National Heart and Lung Institute, Imperial College London, London, SW7 2AZ, UK.
Wu W; MindRank AI, Hangzhou, Zhejiang, China.
Cai Q; Bioengineering Department and Imperial-X, Imperial College London, London, W12 7SL, UK.
Jiang Y; MindRank AI, Hangzhou, Zhejiang, China.
Jin W; Department of Bioinformatics and Systems Biology, Huazhong University of Science and Technology College of Life Sciences and Technology, Wuhan, Hubei, China.
Wang M; Guangzhou National Laboratory, Guangzhou, 510005, China.
Yang G; MindRank AI, Hangzhou, Zhejiang, China.
Kong L; MindRank AI, Hangzhou, Zhejiang, China.
Jin X; MindRank AI, Hangzhou, Zhejiang, China.
Yang G; MindRank AI, Hangzhou, Zhejiang, China.
Chen H; MindRank AI, Hangzhou, Zhejiang, China.

Sci Data ; 11(1): 985, 2024 Sep 10.

Article en En | MEDLINE | ID: mdl-39256394

ABSTRACT

ABSTRACT

Accurately predicting ADMET (Absorption, Distribution, Metabolism, Excretion, and Toxicity) properties early in drug development is essential for selecting compounds with optimal pharmacokinetics and minimal toxicity. Existing ADMET-related benchmark sets are limited in utility due to their small dataset sizes and the lack of representation of compounds used in drug discovery projects. These shortcomings hinder their application in model building for drug discovery. To address this issue, we propose a multi-agent data mining system based on Large Language Models that effectively identifies experimental conditions within 14,401 bioassays. This approach facilitates merging entries from different sources, culminating in the creation of PharmaBench. Additionally, we have developed a data processing workflow to integrate data from various sources, resulting in 156,618 raw entries. Through this workflow, we constructed PharmaBench, a comprehensive benchmark set for ADMET properties, which comprises eleven ADMET datasets and 52,482 entries. This benchmark set is designed to serve as an open-source dataset for the development of AI models relevant to drug discovery projects.

Asunto(s)

Benchmarking; Descubrimiento de Drogas; Minería de Datos; Farmacocinética; Preparaciones Farmacéuticas; Humanos

Texto completo

Añadir a Mi BVS

Imprimir

XML

PubMed Links

Buscar en Google

Texto completo: 1 Colección: 01-internacional Base de datos: MEDLINE Asunto principal: Benchmarking / Descubrimiento de Drogas Límite: Humans Idioma: En Revista: Sci Data Año: 2024 Tipo del documento: Article País de afiliación: China Pais de publicación: Reino Unido

Texto completo

Añadir a Mi BVS

Imprimir

XML

PubMed Links

Buscar en Google