6月22日Claude全家桶集体宕机只是冰山一角。当最强大模型被丢进真实机房直面「幽灵故障」AISHPerf-智算运维智能体评测基准给出残酷答案全军覆没无一过50分。这道鸿沟第一次被量化。6月22日全球AI圈突然集体「断电」。Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短几个小时内大面积宕机。开发者终端刷满红色报错企业协作流水线瞬间断流社交媒体上炸了锅有人晒出满屏502截图配文「被AI炒了鱿鱼」有人感慨「2026年最体面的摸鱼理由——模型宕机了」。而这还算快的。笑归笑背后的现实却一点也不好笑。当AI从聊天玩具变成驱动千亿美金算力投资的「生产设备」时基础设施的稳定性已经成了决定整个产业生死存亡的隐形天花板。而更残酷的测试结果刚刚出炉——AISHPerf-智算运维智能体评测基准由中国信息通信研究院信通院推出无问芯穹参与重点技术建设把包括Claude-4-sonnet在内的国内外主流大模型扔进真实GPU集群环境让它们处理真正的生产级故障。结果全军覆没综合得分全部低于50分。中等和困难难度正确率普遍不到一半。测试对象包括Claude-4-sonnet和主流开源模型等均做匿名化处理这不是语言游戏的失败这是「说」与「做」之间一道真实而残酷的鸿沟。万亿市场智能体到底能不能稳稳接住想象一下这样的场景凌晨三点训练任务突然出现无规律剧烈性能波动。运维团队紧急兜底排查却遇上最诡异的情况网络链路正常、存储性能正常、节点硬件也正常。为了定位根因运维人员只能全链路逐层溯源排查从模型切分策略、任务调度逻辑一路深挖到底层网络协议、内核参数、存储配置规则……可能要耗费巨大的人力物力和时间最终才会在一些极为隐蔽的边缘场景中发现问题。最致命的是这类故障的排查周期往往长达十天半个月。而在这漫长的排障期间大量服务器在持续空转海量算力资源白白损耗AI训练业务全程停滞。像这样的「幽灵故障」在任何大规模GPU集群里都不是个例。它们隐蔽、跨层栈、难以复现却直接吞噬真金白银。摩根士丹利预测2028年全球AI基础设施累计投资将达2.9万亿美元。其中运维人力、故障损失与集群闲置构成的成本占比高达15%-20%全行业潜在可优化空间超过4350亿美元。无问芯穹早在2025年10月就已率先探索和应用早期版本的运维智能体。真实生产环境里的数据最有说服力工单平均处理时长缩短 50%关键故障处理效率提升约6倍运维人员人效提升5倍以上综合运维成本下降约30%。这些数字背后是无数个被解放出来的凌晨三点和无数度没有被白白烧掉的电。但问题来了——究竟什么样的运维智能体才配得上「好用」这个词全球首个真实机房的「开卷实操考」过去对大模型的评估更像一场语言知识竞赛。模型背得越多、说得越漂亮分数就越高。可当AI真正走进基础设施领域「能否解决实际问题」成了唯一标准。因为它最终会影响到每一度电、每一张GPU卡的产出效率。AISHPerf-智算运维智能体评测基准彻底颠覆了这种「纸上谈兵」。它源自无问芯穹积累的近百亿条真实运维数据。经过严格过滤、去重、脱敏三阶段精细标注最终提炼出高质量、高保真评测用例。每一条都包含真实的问题现象和明确的故障根因。更重要的是这套基准不给根因需要AI自行探索。它只告诉你「训练任务卡死了用户反馈是这样的请复现并修复。」智能体必须自己进入真实集群环境自主发现线索、提出假设、验证、执行修复。整个过程必须安全、有效、不能把机房搞炸。这才是真正的「开卷实操考」——它考的是长链路多跳推理、与真实物理设备的交互能力、在不确定性中做决策的勇气以及最关键的安全边界意识。为了让这场考试公平且可重复AISHPerf-智算运维智能体评测基准配套了AIops-Chaos混沌工程项目。它能通过软件层精准模拟GPU掉卡、显存错误、NVLink故障、网络分区等真实硬件异常无需物理损坏硬件就能构造高保真测试环境。只需要一台GPU多轨RoCE NIC服务器就能实现分钟级的故障编排与自动化恢复验证。这套评测框架AIops-Eval包含User、Agent、Env、Evaluator、Tracing五个核心模块完整记录智能体每一步的轨迹支持自定义规则和LLM-as-Judge双重评测。它不再关心模型「知道多少」只关心它在真实世界里能不能把事情做成。全军覆没的铁证硬件世界面前AI的真实表现为了给行业一个清晰的基线信通院用这套基准对基于ReAct的简单智能体进行了全面测试。测试对象包括Claude-4-sonnet等主流模型。为了公平考察模型自身能力智能体仅使用shell工具无法联网搜索模型均做匿名处理。结果令人震撼所有模型的总得分均低于50分。即使是目前最强的旗舰模型在中等与困难难度任务上的正确率也普遍低于50%。面对困难问题时工具调用时间占比显著上升但正确率反而下降。这说明模型在复杂场景下无法精准有效地采集和利用信息。更耐人寻味的是不同技术栈的表现差异模型在单纯的代码类Bug上表现相对较好但一旦涉及硬件故障GPU掉卡、显存错误、网络分区等正确率普遍偏低而Token消耗却明显更高。模型似乎对硬件世界缺乏足够信心不得不反复思考、反复确认。这背后是三种典型的失败模式处理任务的稳定性不足生成不符合工具调用规则的Token。推理链质量差给出看似合理、实则治标不治本的方案或者只输出宽泛的排障思路不经过严谨验证就下结论。决策与执行不够安全在真实环境中执行高风险操作或执行危险操作导致整个物理环境崩溃最终需要人类运维人员紧急介入才能恢复。这些失败不是模型「不够聪明」而是它还没有真正学会如何在物理世界里负责任地行动。模型与人类不是替代而是正交测试轨迹分析后一个更深刻的洞察浮现当前大模型与人类运维专家的技能可能是高度正交的。模型擅长广度知识检索、代码逻辑推理和快速假设生成人类运维专家则在硬件层面的直觉判断、复杂系统边界把控和最终安全决策上更具优势。这意味着未来最优的运维系统或许不是让智能体完全替代人类而是构建一种「模型负责快速广度探索 规则与人类专家负责深度验证与安全把关」 的混合智能体范式。AISHPerf-智算运维智能体评测基准的意义正在于它第一次把这个鸿沟量化、可视化、公开化了。它用真实数据和真实环境告诉整个行业我们距离「系统自己解决问题」还有多远也为这条路上的每一步改进提供了可对齐的公共基线。这套基准还特别覆盖了天数、壁仞、沐曦、摩尔、昇腾五种国产芯片。在国产智算集群建设如火如荼的当下填补国产智算运维评测领域的空白本身就是对产业升级最务实的支撑。从「Token工厂」到「自愈工厂」我们正在丈量未来过去一年AI的发展让所有人目眩神迷。从大模型到智能体从训练到推理行业正在形成一个共同认知技术发展的瓶颈早已不再局限于模型层底层算力基础设施同样是决定产业上限的关键要素。AI系统本质上已经演变成一座「Token工厂」模型是生产逻辑数据是原材料GPU集群则是生产设备。工厂的最终产出是一个个有价值的Token。但当我们把视角下沉到机房底层就会发现一个更现实的问题这座工厂远没有想象中那么高效。AISHPerf-智算运维智能体评测基准让「系统自己解决问题」这件事第一次变得可衡量、可对齐、可迭代。这或许是人类写给机器的、最浪漫的一行代码。凌晨三点机房依旧亮着灯。只是终有一天守夜的不再只有人类。开源地址https://gitee.com/aishperf-caict/aishperf_openness配套故障模拟器https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos运维数据集https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl评测框架https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval