农学院王少奎教授团队成功构建了首个AI驱动的植物基因组数据库DeepPGDB

发布者:曾子焉发布时间:2025-09-19浏览次数:13

近日,华南农业大学农学院教授王少奎联合广东省农业科学院水稻研究所副研究员胡海飞于Plant Communications杂志发表题为DeepPGDB: A Novel Paradigm for AI-Guided Interactive Plant Genomic Database的研究论文,成功构建了首个AI驱动的植物基因组数据库DeepPGDB。该系统通过融合多个语言模型、采用QLoRA微调技术、运用检索增强生成与提示工程方法,开创了“自然语言交互式基因组分析”的全新范式。


据悉,在过去十年间,组学技术呈爆发式增长态势。在植物科学领域,已有逾1000个物种完成染色体级别高质量基因组解析,水稻、拟南芥等模式植物更是率先迈入群体基因组时代。然而,海量数据背后,众多具有生物学背景的研究者却面临分析困境。传统研究方法要求研究者精通生物信息学工具、命令行操作以及复杂的数据处理流程,这成为跨领域研究的重大障碍。随着生成式大语言模型取得突破性进展,科研范式正在发生根本性变革。DeepSeek等大模型为研究者提供了智能数据处理助手,而AI智能体的出现更使基因组数据库的智能化成为现实。

DeepPGDB架构示意图

DeepPGDB的核心创新在于其智能调度架构。该系统能够理解用户以自然语言提出请求的本质意图,自动判别任务类型并调用相应工具。无论是进行基因组序列检索、BLAST比对、基因定位查询,还是开展基因家族分析,用户只需在对话框输入问题,AI引擎即可自动生成标准化操作指令,在后端完成数据提取与处理,最终以对话形式返回结构化结果。系统特别设计了多注释版本适配机制,可智能识别基因ID、基因名称等不同编号体系,有效解决了基因名称标识的难题。

除了基础查询功能以外,DeepPGDB还搭载了强大的可视化引擎。该引擎集成ECharts动态图表系统,支持基因表达谱可视化、富集分析交互展示等高级功能。在群体遗传学分析方面,系统整合PLINK工具,可直接处理群体基因组变异数据。本研究进一步推出summarize模块,该模块能够基于检索结果进行多步生物学推理;例如,解析水稻亚种单倍型分化规律、计算基因蛋白理化性质等,真正实现从“数据查询”到“知识发现”的跨越。同时,经过模型测试,最终选定14B参数推理模型作为系统核心模型,在保证意图识别准确率的同时实现最优响应速度,且保持较低的部署门槛。通过特别的微调方案,系统在长提示词和短提示词两种模式下均能保持卓越性能。


部分使用案例截图

DeepPGDB的上线不仅为研究者提供了高效分析工具,更将成为推动农业创新、物种保护和生物技术发展的重要引擎。接下来,团队将持续拓展物种数据资源,深化多组学整合能力,完善智能推理框架。

华南农业大学农学院博士生李方平与园艺学院博士后陈家璇为本文共同第一作者,广东省农业科学院水稻研究所胡海飞博士与华南农业大学农学院王少奎教授为共同通讯作者。南京林业大学王则夫教授与毕长伟博士对文章提供了指导与建议。

相关论文链接:https://www.sciencedirect.com/science/article/pii/S2590346225002561

DeepPGDB访问链接:https://www.deeppgdb.chat


文图/农学院