首个针对生物医药LLM智能体的全流程过程级评测框架
摘要当前大语言模型智能体已可开展实际生物医药研究但对其开展严谨评测存在较大难度。仅依托最终结果的评测基准存在大缺陷❶ 智能体得出正确答案可能依靠模型记忆、刷分行为或是错误推理偶然得到正确结果❷ 部分科学有效的差异化分析方案仅因与参考方案不一致就被判定为错误。为此本文提出过程级评测框架BiomniBench依托领域专家定制的任务专属评分细则对智能体的完整分析链路进行打分。本框架首发版本为BiomniBench-DA包含100项数据分析任务覆盖17类分析任务、5大疾病领域及普通生物学范畴所有任务均源自Nature/Cell/Science等顶刊论文由原论文作者或领域专家联合构建。研究基于类智能体框架对主流闭源前沿模型与开源模型开展评测得到项核心结论闭源与开源基础模型得分差距较小所有模型仍存在较大性能提升空间智能体框架对得分的影响超过模型代际迭代带来的差距智能体可规范引用真实文献支撑结论但在分析方法选择、生物学解读与科学推理方面普遍存在短板。BiomniBench是首个面向生物医药领域大语言模型智能体的过程级评测基准可实现多维度能力诊断弥补了结果导向评测的不足。huggingface.co/datasets/phylobio/BiomniBench-DAyuanhaophylo.bio#大语言模型智能体 #过程级评测 #结果导向评测 #生物医药研究 #评测基准数据集 #数据分析 #评分细则 #智能体框架 #科学推理 #生物学解读引言图1 过程级评测与结果导向评测对比(A) 结果导向评测仅将智能体最终答案与标准答案进行比对(B) 过程级评测依托专属评分细则对智能体完整分析链路开展多维度打分可定位智能体的具体缺陷。评测维度包含数据处理质量、分析方法选取、统计严谨性、生物学解读、科学推理及文献可靠性并给出综合得分。BiomniBench-DA基准设计专家主导的数据集构建流程图2 BiomniBench-DA数据集整体概览共100项任务上图数据集5阶段构建流程依次为用户行为分析、文献筛选、专家定制任务、参考真值生成、评分细则设计左下任务类型与疾病领域的交叉覆盖矩阵勾选代表该类别下设有对应任务右下数据集按疾病领域、分析任务的分布统计。实验与结果固定智能体框架下基础大模型性能表1 基于Terminus-2框架的9款大模型评测结果表格统计100项任务3轮重复实验的平均得分、单任务标准差、单任务运行时长、调用成本及交互轮次得分、标准差、运行耗时、成本、交互轮次均为统计均值/中位数。不同大模型与智能体框架组合性能表2 多智能体框架 大模型组合的交叉评测结果统计3类框架Claude Code、Codex CLI、Gemini CLI搭配对应大模型的综合得分、稳定性、运行时长、调用成本与交互轮次统计规则与表1一致。图3 不同模型-框架组合的成本-性能帕累托分布图横轴为单任务调用成本对数坐标单位美元纵轴为评测平均得分误差棒代表3轮重复实验的标准差虚线为帕累托前沿前沿上方的组合在性能与成本上更具优势本图未纳入Gemini系列组合无成本数据。智能体性能拆解分析图4 智能体多维度性能拆解分析(a) 不同模型-框架组合在各类分析任务上的平均得分按任务难度由高至低排序仅展示样本≥3的任务类别(b) 6大评测维度下各组合的得分占比维度包含数据处理、分析方法选择、统计严谨性、生物学解读、科学推理、文献可靠性。详细总结思维导图参考BiomniBench: Process-level Evaluation of LLM Agents for Real-world Biomedical Researchdoi: https://doi.org/10.64898/2026.05.12.724604260512BiomniBench.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。