2024年8月26日至30日,备受瞩目的数据库理论和系统领域国际顶级学术会议VLDB 在广州召开,深圳计算科学研究院樊文飞院士科研团队携“去病”生物创新药研发AI系统(Graph Association Analyses for Early Drug Discovery)参会,获大会唯一最佳系统演示奖(BEST DEMO AWARD)。
药物研发领域一直面临着“10亿、10年、10%”的挑战,即从药物发现到最终上市,需要10年时间、耗费10亿美金,却只有不到10%的成功率。随着人工智能的快速发展,业界正在努力寻求利用AI技术提高研发效率,加速药物发现和开发过程。
深圳计算科学研究院开发的“去病”系统,旨在解决传统药物研发过程中的一些关键问题,如依赖专家经验、需要大量的实验以及数据质量参差不齐等。该系统采用自主研发的内嵌机器学习的逻辑规则“AI+”体系,具备自动化、高精度、可解释性和低成本优势,显著提升了药物早期研发的效率,从而大幅缩短了药物发现的周期。以下是“去病”系统的几个核心特点:整合大规模生物医学数据构建识图谱,揭示药物与疾病的复杂关联关系;通过逻辑推理与深度学习相结合的方式,增强模型的预测能力;提供AI模型预测结果的可解释性,为研发人员提供论据并满足医药领域的监管要求;利用高效的崖山数据库系统,实现强大的数据管理功能;配置数据质量控制和增强模块,为药物早期发现提供了前所未有的智能支持。
与通用的大模型相比,“去病”系统在靶点识别、药物-疾病关联分析以及药物相互作用等领域表现出更高的效率、准确性和专业性,并具备更深层次的行业融合能力。
例如,在靶点识别方面,“去病”系统通过对PPI(蛋白质相互作用)网络的自动发现,能够预测目标蛋白的相互作用。在一个具体案例中,系统只用了三天时间便发现了SYT2蛋白质的自相互作用,并且这种蛋白质后来被《Nature》杂志的一篇论文证实与一种呼吸道疾病相关联。在蛋白质相互作用的初步识别中,相比于黑盒模型,“去病”系统的预测准确率提升了43%。
在药物-疾病关联关系方面,“去病”系统持续汇聚、融合、清洗10多个生物医药数据库的数据,构建了一个统一的知识图谱。基于此图谱,“去病”系统自动发现图关联规则,并运用机器学习内嵌于规则体系的GAR技术深入分析药物、生物通路、基因以及疾病之间的复杂拓扑结构,从而预测现有药物与疾病之间的潜在关联。在实际应用中,“去病”系统仅用4小时便识别出5个与帕金森病相关的药物候选,这极大地缩短了先导化合物的发现时间,降低了研发成本,并加速了药物研发的整个流程。
VLDB(International Conference on Very Large Databases) 是数据库领域顶级的国际会议,在全球学术界和工业界享有极高的声誉。它与SIGMOD、PODS以及ICDE并称为数据库四大顶级会议,是展示和分享数据库管理系统和数据管理领域前沿研究理论和技术成果的年度重磅国际学术盛会。