企业Agent新基准EnterpriseClawBench:真实场景性能仅0.663
EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions作者Jincheng Zhong, Weizhi Wang, Che Jiang, Kai Tian, Zhenzhao Yuan, Junlin Yang, Dianqiao Lei, Kaiyan Zhang核心发表机构Horizon Research、Frontis.AI论文链接arXiv:2606.23654v1发布于arXiv 预印本cs.CL一、核心贡献 / Core Contributions提出自动化的真实基准构造协议为解决“真实企业数据无法公开”这一核心矛盾论文设计了一套完整的自动化管道将专有的企业内部智能体工作会话转化为可复现、可评估、可公开讨论的852个基准测试任务。该协议本身是可复现的是论文的主要可交付物。建立了多维度的企业智能体评估框架强调智能体的性能不能坍缩为单一分数。该框架要求联合报告“抓手-模型Harness-Model”组合的性能、工件交付质量文件类型与结构、文本与视觉语义质量、成本人民币和运行时间提供了更全面的评估视角。原生支持任务类别级别的技能迁移评估基准不仅评测单个任务还能评估智能体从一个任务类中学到的技能在同一企业内的留出任务上的泛化能力。这通过“技能注入”实验得到了验证揭示了技能迁移可能为正也可能为负的复杂现象。揭示了抓手-模型组合的相互作用与性能差异通过对比多种流行的“抓手”如Claude Code Codex DeepAgents Hermes和基础模型如GPT-5.5 Sonnet 4.6 Kimi K2.6发现抓手的选择会显著影响模型性能有时甚至比模型本身的变化影响更大证明了以“组合”为单位进行评估的重要性。二、研究背景与动机 / Background Motivation大型语言模型正经历从“被动回答者”向“主动工作者”的关键转变。在企业环境中这种转变体现为智能体Agent开始在可执行的工作空间如Linux服务器、文件系统内操作能够读取异构文件文本、表格、代码、图像、PDF调用工具API、爬虫、软件并最终交付完整的业务工件报告、演示文稿、电子表格、网页。这个转变的核心组成部分是“抓手”Harness它是一个连接基础模型与工具执行环境的框架其设计直接决定了智能体完成任务的上限。尽管业界在智能体基准测试方面取得了显著进展如SWE-Bench用于代码修复、WebArena用于网页操作但这些基准主要存在三个关键差距阻碍了对企业级智能体的有效评估。第一是企业真实性与可伸缩任务构建之间的矛盾。现有的基准任务大多源自于人工编写、模拟环境或基于公开可用的数据如GitHub开源仓库。这导致任务场景与真实的、混乱的、多模态的、长尾的企业工作流程存在较大偏差。真实的内部工作会话充满了脱敏信息、模糊的指令、不可达的网络链接、以及上下文缺失的片段。如何从这些私密且复杂的会话中自动化地提取并构建出干净、可评估、且规模化的基准任务是一个巨大的未解决问题。第二是多维度评估的缺失。一个企业智能体的好坏不仅仅取决于其背后的语言模型有多强大还高度依赖于其所使用的“抓手”框架如何管理工具调用、上下文窗口以及审批流程。此外执行成本如API调用费用、运行时间、最终交付物的视觉质量等都是企业落地时至关重要的考量。目前流行的评估方法倾向于将所有性能坍缩为一个单一的准确率分数这无法揭示不同因素的联合影响也让研究者难以定位瓶颈究竟在模型、抓手还是工件交付环节。第三是任务类别级别的技能评估不足。企业部署智能体的最终目标是提高生产力其中最关键的一环是技能的复用。一个智能体应该能从撰写产品文档的任务中学到的“结构化文档编写”技能迁移到撰写市场分析报告的任务中。现有的基准通常只评测单个独立任务无法衡量智能体在同一个技能子类下、不同留出任务上的泛化能力。正是为了解决这三个核心差距EnterpriseClawBench应运而生。它不只是一个数据集更是一套完整的、可复用的构建与评估协议旨在推动企业级智能体走向更全面、更真实的评估体系。三、方法 / Methodology3.1 总体框架 / Overall ArchitectureEnterpriseClawBenchECB的整体框架包含两大核心部分任务构建管道Construction Pipeline与评估协议Evaluation Protocol。任务构建管道的目标是将来自企业内部的原始、私密的工作会话数据转化为标准的、可公开评估的基准测试任务。该管道包含一个多阶段的“门控”Gating流程以过滤掉不可靠、不自洽或无法复现的实例。通过所有门控的实例会经过重写、分类和预期交付物标注最终成为待评估的任务。评估协议则是一个多维度的评判系统。它不再报告单一分数而是定义了一个评判矩阵其中行代表不同的“抓手-模型”Harness-Model组合列代表不同的评估维度如硬规则检查、文本语义质量、视觉语义质量、成本和运行时间。评估结果以综合分数矩阵和散点图的形式呈现重点展示成本-性能权衡和技能迁移效应。3.2 关键模块 / Key Modules3.2.1 数据管道与任务构建多阶段门控系统从原始的5291个任务实例生成最终的852个可靠任务依赖于一套精细的“门控”过滤机制。每个实例必须通过以下所有检查。Fixture 门控这是最基本的数据可用性检查。原始用户请求中会声明输入文件fixtures但实际过程中这些文件可能不存在、无法访问或大小为0。门控逻辑会检查cleaning.fixture状态确保声明的文件数量declared、成功解析的数量resolved、文件总字节数total_bytes都有效。如果文件无法解析或大小为0该实例会被拒绝因为这将混淆“文件缺失”与“Agent能力不足”。脱敏恢复门控企业会话中的数据高度脱敏如URL或文件路径会被替换为****。门控逻辑使用两种恢复策略。其一是“上下文恢复”利用被脱敏文本周围的原始上下文进行模糊匹配例如指令中提到“使用****自动评估技能”仅当匹配成功且置信度高时恢复。其二是“主机唯一候选恢复”如果被脱敏的主机名下原始会话中只有一个公开URL候选则直接采用。不符合任一策略的实例会被拒绝。网络可达性门控很多任务依赖于外部在线资源如分析市场竞品信息。为确保任务的可复现性和稳定性门控逻辑会检查所有外部链接的可达性。任何包含不可达URL的任务reachable_count小于url_count都会被移除。自包含性决策门控原始会话中的用户消息可能过于简短或模糊需要多轮对话才能澄清意图。此类任务不适合作为单轮基准测试。门控逻辑会判断是否可以从历史会话信息中推断出独立、明确的任务目标。例如用户消息仅为“配置****自动投递”原始智能体都无法理解意图发起了澄清提问。此类实例会因ambiguous_task被拒绝。3.2.2 任务重写与分类通过所有门控的实例进入“任务重写”环节。原始会话消息是混乱的包含多轮补充、群聊时间戳、账号哈希、系统噪声等。重写过程将这些杂乱信息整合提取出唯一的用户_最终_任务目标形成一个清晰的单轮任务提示明确包含任务标题、参考模板、所需材料及其文件路径和具体任务要求。随后每个任务被自动标注上多层次分类标签。这包括专业大类如knowledge_document_collaboration与子类如s08: 撰写项目文档以及更细粒度的“角色功能分类”。后者分为角色类如product_project_delivery和技能子类如product__artifact_presentation_delivery。这种分类体系使得基准能够按角色如产品、工程、HR、市场等对任务进行划分并支持技能迁移分析。3.2.3 评估与打分机制ECB的评估采用两层评分机制。第一层是硬规则检查客观地验证交付物的基本完整性。规则包括文件类型是否正确文件数量是否为指定数量文件是否非空且可读内容中是否包含未替换的占位符如{{YOUR_NAME}}以及文件是否能在浏览器或指定软件中正常渲染。第二层是语义评判由大型语言模型LLM扮演的“评判器”Judge执行。评判器沿五个维度对交付物进行评分基础准确性Grounded Accuracy、任务相关性Instruction Fit、覆盖深度Coverage and Depth、实用价值Practical Utility和沟通质量Communication Quality。每个维度有0-1的分数和不同的权重。根据交付物模态的不同评估路径会分流文本评判器处理可以从交付物中直接提取文本进行评判的任务如纯文本文档、代码。视觉评判器处理视觉密集型交付物如HTML页面、PPT、PDF、电子表格和图像。系统会将渲染后的截图或页面图像输入到多模态评判器中进行评估重点关注布局、配色、图标等视觉质量。论文使用Sonnet 4.6同时作为主要的文本和视觉评判器。最后所有代理分数会汇总为综合分数同时必须报告执行成本人民币和平均运行时间。四、实验 / Experiments4.1 数据集与评估指标 / Datasets Metrics数据集ECB基准围绕两个核心数据集构建。Lite集包含120个人工精心审计的子任务旨在确保极大规模的人工标注质量。此数据集用于发布主排行榜其任务覆盖多种角色和技能以保证评估的全面性。全量集包含852个任务完全由自动化管道自动构建和标注。此数据集用于验证自动化管道的稳健性、可扩展性以及主排行榜结果在更大规模数据上的泛化能力。评估指标核心指标并非单一分数而是一个矩阵。综合分数Composite Score硬规则检查与五个语义维度的加权平均。成本Cost单次任务执行过程中消耗的API调用费用以人民币计。平均运行时间Runtime任务从提交到获得最终交付物的总耗时。技能迁移效应Skill Transfer Impact在“技能评估”实验中通过测量技能注入前后的分数差来衡量。4.2 主实验结果 / Main Results主排行榜Lite集在最权威的Lite集上当前表现最佳的配置是“Codex抓手 GPT-5.5模型”得分为0.663。这个分数远低于100%表明该基准距离饱和Saturated状态还有很大距离任务依然具有挑战性。同时该结果揭示了“抓手-模型”组合的显著非线性相互作用。最突出的例子是Claude系列模型Sonnet 4.6 Haiku 4.5在Hermes抓手下性能大幅下降得分从0.62-0.64降至0.458左右。经过分析根本原因在于Hermes抓手引入了频繁的审批检查阻断这是其设计特点从而中断了模型的环境探测与脚本执行链导致最终无法稳定交付工件。成本-得分权衡实验结果呈现出一个非线性、对数型关系。即中等或较低成本的投入如使用更高效的模型能带来显著的性能提升但随着分数攀升边际效益急剧递减。性能最优的组合Codex/GPT-5.5也意味着相对较高的成本消耗。而Hermes抓手与Claude模型的组合是成本-得分曲线上的显著离群点显示了高成本投入与低分回报的反常现象。角色与工件类型分析不同模型在处理不同类型的企业任务时表现差异显著。整体而言市场营销、财务/运营类任务对所有模型都比较困难而GPT-5.5是所有角色类别中最稳健的通用解。在工件类型方面不同模型各有所长。一个有趣的现象是当任务交付物包含电子表格、演示文稿等必须依赖视觉评判器的工件时系统性分数存在一定膨胀。这表明当前的多模态评判器如Sonnet 4.6在处理视觉信息时其准确性可能不如纯文本评判器。维度分析对五个语义维度进行分解后发现所有系统在“沟通质量”和“任务相关性”维度上得分相对较高但在“基础准确性”维度普遍较弱。这揭示了一个共同瓶颈当前的企业智能体在处理长输入文件、跨文件交叉引用以及提取关键信息方面存在明显困难容易遗漏重要细节或忽略数据中的错误值。4.3 消融实验 / Ablation Study可扩展性检查使用DeepAgents抓手在全量集852任务上进行主实验验证自动化管道的鲁棒性。模型排名GPT-5.5 Sonnet 4.6 Haiku 4.5 GPT-4.1-mini和绝对得分GPT-5.5最佳得分为0.766与Lite集主排行榜高度一致。这证明了由自动化管道产生的全量基准是有效的其结果可以外推也排除了Lite集结果仅由人工标注样本分布的偶然性。评判器可靠性分析AI评判器间一致性使用GPT-5.4和Sonnet 4.6分别作为文本和视觉评判器对Lite集的交付物进行评分。分析发现两个评判器对文本和视觉工件的排序表现出高度相关性Spearman相关系数ρ 0.86 \rho 0.86ρ0.86说明主用的Sonnet 4.6裁判在不同LLM视角下是相对稳定和一致的。AI与人类评判一致性这是评判器质量的黄金标准。实验结果显示文本路线AI评判器Sonnet 4.6与人类专家评分之间表现出良好的一致性平均绝对误差MAE0.134Spearmanρ 0.790 \rho0.790ρ0.790证明文本路线的评判是可信的。视觉路线情况截然不同。AI评判器Sonnet 4.6的分数显著低于人类专家MAE0.303且其排名与人类排名呈负相关关系Spearmanρ − 0.259 \rho-0.259ρ−0.259。这表明当前最先进的AI评判器在评估视觉工件时存在严重偏差它可能无法理解设计的细微差别或美学价值或者过于关注技术规范而忽略了视觉意图。这是当前多模态智能体评估尚不成熟、需要进一步校准的关键证据。技能迁移实验专注于“前端页面生成”这一技能子类。实验设计分为“技能创作者”模型和“技能消费者”模型。创作者模型从10个领域内任务的执行记录、成功工件和评判反馈中提炼出具体可执行的技能。然后将该技能注入到消费者模型中并观察其在5个留出的新任务上的性能变化。实验结果技能注入矩阵显示出复杂且非确定性模式技能质量高度依赖创作者模型GPT-5.5作为创作者时效果最佳平均提升消费者模型分数0.068。最弱的是Haiku 4.5注入其创作技能后平均导致消费者模型分数下降-0.094。创作与消费能力不完全对齐Haiku 4.5作为消费者模型时表现良好尤其是在DeepAgents抓手下但它创作的技能对任何其他消费者都是有害的。这表明一个模型擅长执行任务并不代表它擅长抽象、总结和传达可供他人复用的“技能”。技能注入效果高方差正向迁移和负向迁移案例并存。在持出任务生成三等级会员皇冠图标的HTML上注入技能可能带来显著的性能提升0.088也可能带来严重的性能下降-0.201。性能下降的原因可能是注入的技能虽然对页面布局有帮助但却扰乱了模型的核心视觉创作能力。这一实验有力地证明了技能迁移是一个高度依赖创作者、消费者和具体任务之间匹配度的复杂过程简单技能注入并非总是有益的。五、相关工作 / Related WorkEnterpriseClawBenchECB的研究定位与当前主流的智能体基准测试形成鲜明对比。与合成基准的区别像AlfWorld、MiniWoB这类基于合成文本指令或简化环境的基准虽然易于构建和评估但缺乏企业真实会话中的噪声、多模态工件和模糊指令。ECB的任务源自真实的混乱会话更贴近实际部署场景。与基于公开代码/仓库的基准的区别像SWE-Bench和DevBench等基准虽然评估了智能体处理复杂软件工程任务的能力但它们的任务环境如GitHub仓库是公开可访问的。虽然这使得基准测试易于复现但无法覆盖企业内部特有的、包含专有数据和内部工作流的场景如财务分析、内部工具调用。ECB的核心贡献是可复现的构建协议而不是私密数据本身从而解决了这一矛盾。与现实世界模拟基准的区别一些工作尝试通过模拟环境如HotelSim、BankSim构建企业任务。尽管这些方法在一定程度上考虑了任务的多样性但本质仍然是模拟难以捕捉真实企业工作流中由人为沟通、突发需求和长尾异常带来的复杂性。ECB的数据直接来自真实员工与智能体的工作会话其任务“粗糙度”和上下文依赖性更强。与多维度评估基准的区别大多数基准包括上述提到的最终都将性能坍缩为一个单一的分数如准确率、通过率。ECB最显著的创新在于它系统性地提出并证明了必须报告包括成本、时间、工件交付质量、视觉质量、技能迁移效应在内的多维度指标。这种评估哲学是对当前社区“唯分数论”的一个重要修正。六、局限性与展望 / Limitations Future Work尽管ECB在设计上取得了重要进展但其局限性同样值得关注。第一单一组织来源的限制。所有原始会话数据来自一家特定的百人级AI初创公司。虽然这保证了数据的真实性和专有性但也意味着基准任务可能反映了该公司的特定业务类型、员工工作习惯和内部工具集。基准的结论和技能迁移现象是否适用于其它类型的、规模更大的企业如传统制造业或大型金融机构尚有待验证。未来工作应考虑收集来自多个行业、多种规模企业的会话数据以提升基准的普适性和鲁棒性。第二数据不可公开的根本矛盾。由于原始会话内容包含高度私密的内部文件如财务报告、竞品分析、员工绩效评估完整数据集无法对外公开。这一坦诚的声明虽然解决了安全和隐私问题但确实限制了社区的复现能力和基于数据集的二次研究。因此论文的核心价值被明确限制在其提供的可复现的“构建与评估协议”。未来研究者可以复用该协议在其自身企业会话数据上构建专属的私有基准并公开其研究发现。这类似于提供了一种标准化的“实验方法”而不是一份公开的“实验材料”。第三评判器不完美。特别是视觉评判器实验结果显示其与人类评判存在明显偏差Spearmanρ − 0.259 \rho-0.259ρ−0.259。这意味着一方面目前的多模态AI在理解视觉设计的美学价值和细微差异方面能力不足另一方面对于智能体生成的视觉交付物如电子表格、PPT、HTML页面我们可能仍然需要一定的人类众包评估或更专业的定制化评判器。未来工作应致力于开发更智能、更鲁棒、与人类判断更对齐的多模态评判器或者将AI评判与人类抽样调查相结合作为必要的校准步骤论文称为“裁判消融”以确保基准分数的可信度。第四技能迁移实验的不稳定性。论文展示了技能迁移既可能带来正向收益也可能带来负向干扰这一复杂现象。然而目前缺乏一种通用的方法论来预测或引导技能注入。为什么同一个技能对同一个任务的两个不同Agent会产生完全相反的影响其内部机制尚不明确。未来的研究可以深入探索技能创作者-技能消费者-任务环境三者之间的匹配度模型甚至开发自动化的技能剪裁或混合策略来最大化正向迁移的发生的概率。七、总结 / ConclusionEnterpriseClawBenchECB是一个从真实企业内部工作会话构建的智能体基准测试。它通过一套完整的、可复现的自动化构建协议成功地将无法公开的专有会话数据转化为852个结构化、可评估、多模态的任务。ECB的实验结果有力地证明了企业智能体的评估必须从单一的准确性分数转向一个全面的、多维度的报告体系。这个体系必须包含“抓手-模型”组合对性能的决定性影响并对使用成本、运行时间、工件交付质量包括文本和视觉的、以及至关重要的技能迁移效应进行联合报告。在ECB上最佳配置Codex GPT-5.5的得分仅为0.663表明该领域远未饱和。消融实验进一步揭示技能注入并非总是有益的其效果是高度非线性的并且当前的多模态评判器在视觉评估上仍不可靠。因此ECB不仅为企业智能体的评估提供了一个现实且严格的测试平台更重要的是它作为一项方法论贡献提出了一个未来企业智能体评估应该遵循的标准协议必须构建自己的、基于真实数据流的协议并对性能进行多维度、多视角的剖析而非依赖一个单一、孤立的分数。原文摘要:Enterprise agents increasingly operate inside workspaces: they read heterogeneous files, invoke tools, and deliver business artifacts. We introduce EnterpriseClawBench, an enterprise agent benchmark constructed from proprietary, real-world agent sessions. Starting from a large archive of workplace sessions, the EnterpriseClawBench produces 852 reproducible tasks, each paired with recovered fixtures, rewritten prompts, role classes, skill subclasses, hard rules, and semantic rubrics. Because the sessions contain internal enterprise content, we do not release the benchmark data; instead, our reusable contribution is the construction and evaluation protocol. On EnterpriseClawBench, the best configuration reaches only 0.663 (Codex with GPT-5.5). These results show that enterprise agent evaluation must report harness–model combinations, artifact delivery, visual quality, cost, runtime, and skill-transfer behavior, rather than collapsing performance into a single score. Code: https://github.com/FrontisAI/EnterpriseClawBenchPDF链接:https://arxiv.org/pdf/2606.23654v1部分平台可能图片显示异常请以我的博客内容为准