刚刚,Anthropic 发布 Claude Sonnet 5:最能「打」的 Sonnet,性能一路逼近 Opus 4.8
几个月前还得靠更大、更贵的模型才能跑通的自主任务如今一个 Sonnet 就够了。一觉醒来Anthropic又有新动作了如果要给过去两年的 AI 发展挑一个关键词「Agent」大概会是很多人脱口而出的答案。而要追溯这股浪潮的起点绕不开的正是 Anthropic 的 Sonnet 系列——从 Claude Sonnet 3.5、3.6 一路到 3.7正是这几代模型第一次让广大开发者真切见识到了大模型在编码和工具调用上的惊人潜力。对不少人来说所谓的「Agentic AI 时代」就是从 Sonnet 开始的。不过最近一段时间Agentic 能力上最亮眼的进步几乎都被体量更大、价格也更贵的 Opus 系列包揽了。相比之下Sonnet 一度显得有点「跟不上」。现在情况变了。就在刚刚Anthropic 正式发布了新一代Claude Sonnet 5并把它定位为「迄今为止最具 Agentic 能力的 Sonnet 模型」。官方的说法相当直接它能自己制定计划调用浏览器、终端等工具并在相当程度上自主运行——而这些活儿就在几个月前还是只有更大、更贵的模型才玩得转。一句话概括这次更新的核心Sonnet 5 把自己和 Opus 4.8 之间的差距大幅缩小了——性能逼近后者价格却低了一大截。性能一只脚已经踏进了 Opus 的门槛相比前代 Sonnet 4.6Sonnet 5 在几个开发者最在意的维度上都有实质性提升推理、工具调用、编码以及知识工作。官方放出的评测对比里特意把一个「更强、更通用」的 Opus 4.8 也拉进来做参照。结果是Sonnet 5 的表现已经相当接近 Opus 4.8而在价格上却便宜得多。换句话说过去要拿到这个水准的能力你得掏 Opus 的钱现在Sonnet 的预算就能办到。Sonnet 5 在多项评测上的得分与 Sonnet 4.6 和 Opus 4.8作为参考的更通用模型的对比。更完整的评测细节可参见官方的 Claude Sonnet 5 System Card。值得一提的是这次 Anthropic 还顺手更新了两处旧成绩的口径Humanity’s Last Exam 更换了评分模型Sonnet 4.6 的分数被重新校准为 34.6%无工具和 46.8%有工具OSWorld-Verified 的评测方式也做了调整以更贴近真实场景Sonnet 4.6 被更新为 78.5%。这也是它们和当初发布博客里数字对不上的原因。「Effort」档位在成本和性能之间自由拨动这次更新里一个特别实用的点在于effort努力程度档位。Anthropic 在两个 Agentic 评测上做了成本 – 性能曲线对比一个是 Agentic 搜索评测BrowseComp另一个是计算机操作评测OSWorld-Verified。结论很清晰Sonnet 5 相对 Sonnet 4.6 是全面碾压——同样的努力档位下前者的曲线稳稳压在后者之上。而 Opus 4.8 依旧是追求更高准确率时的首选但两者之间的落差已经今非昔比。不同 effort 档位下的成本 – 性能曲线。过去最强的 Sonnet4.6和 Opus 4.8 之间隔着一道明显的鸿沟如今 Sonnet 5 和 Opus 4.8 落到了同一条区间里——Sonnet 5 以更低成本提供惊人能力Opus 4.8 则以更高价格换取更高准确率。xhigh 代表「超高」努力档位。更妙的是这不是一道非此即彼的单选题。在 Sonnet 5 和 Opus 4.8 之间用户可以通过调节 effort 档位为自己的项目找到成本与性能之间那个刚刚好的平衡点。想省钱就往下调想要极致准确率就往上顶甚至可以一路拉到 xhigh。合作伙伴怎么说它开始「自己把事情做完」了在正式发布前一批早期合作伙伴已经上手试用。而他们反馈里最一致的一点是Sonnet 5 明显比前代更「能自己把活儿干完」。有测试者提到让它去排查一个 bug它没有被额外提示就主动写出了复现测试、实现了修复甚至还把改动暂存起来反过来验证「没有这次修改bug 是不是真的会复现」——全部在一轮之内跑完。也有团队直接甩给它一个两段式任务先更新 Salesforce 里的账户层级再向企业联系人群发一封发布公告。结果它端到端跑通了。而这类活儿在过去常常会在中途卡住。在编码这一块多位合作方不约而同地强调了一个词——「brownfield存量代码」。有测试者形容Sonnet 5 最擅长的恰恰是那些没人愿意碰的角落竞态条件、隐藏的测试、陈年老坑。它能把一个故障顺藤摸瓜追到真正的根因然后交付一个持久的修复而不是头痛医头地打个补丁。当然「能做」之外「知道什么时候不做」同样重要。低代码平台 Lovable 就点出了另一面一个知道什么时候该说「不」的模型和一个知道怎么把东西造出来的模型同等重要——而 Sonnet 5 能干净、稳定地拒绝不安全请求。从法律科技公司 Eve到数据库厂商 ClickHouse再到跑保险工作流的 Pace不同领域的合作方给出的评价殊途同归用更少的步骤把更难的事做完而且价格划算。安全性更能拒绝更少幻觉也更「诚实」在部署前的安全评估中Sonnet 5 整体上是对 Sonnet 4.6 的一次进步。具体来看在 Agentic 安全方面它更擅长拒绝恶意请求也更能在prompt injection提示注入攻击中抵抗被劫持。同时它的幻觉率和谄媚sycophancy率都低于 Sonnet 4.6——换句话说它不那么容易一本正经地胡说也不那么容易顺着你说好话。在一项覆盖面极广的自动化行为审计中用于检测「配合滥用」「欺骗」等各类错误对齐行为Sonnet 5 的整体得分更低也就是更安全。不过要客观地说它在这项评估上的错误对齐率仍然高于更强的 Opus 4.8 和 Claude Mythos Preview。自动化行为审计中的错误对齐行为发生率。Sonnet 5 的整体错误对齐率低于 Sonnet 4.6但高于 Mythos Preview 和 Opus 4.8。至于外界最关心的网络安全能力Anthropic 说得很明白他们并没有刻意用网络安全任务去训练 Sonnet 5。它能干一些常规的、无害的网络任务但在开发软件漏洞利用exploit这类潜在危险的评估上表现明显弱于 Opus 4.8 和 Mythos 5。一个直观的例子是与 Mozilla 合作开发的评测——测试模型为 Firefox 147 中的漏洞开发 exploit相关漏洞均已在 Firefox 148 修复。两个 Sonnet 模型都从未成功开发出可用的 exploit均为 0.0%Sonnet 5 只是「部分成功」的比例略高于 4.6。官方还特意补了一句这点变化更可能来自通用智能的提升而非专门训练。测量各模型为 Firefox 147 漏洞开发 exploit 的成功率。两个 Sonnet 模型均无法开发出可用 exploit0.0%网络安全能力显著弱于 Opus 4.8 和 Mythos 5。尽管如此由于 Sonnet 5 在这类任务上比前代略强Anthropic 还是默认为它开启了网络安全防护。这套能实时检测并拦截危险网络用途的防护与 Claude Opus 4.7、4.8 上的一致因为整体网络安全风险被判定为较低它的严格程度不及随 Fable 5 上线的那一套。价格与上线全平台今日可用还有限时优惠好消息是Claude Sonnet 5今天已经在所有套餐上线它是Free 和 Pro 套餐的默认模型Max、Team、Enterprise 用户同样可用也已进入Claude Code和Claude Platform开发者可通过 Claude API 使用模型名claude-sonnet-5调用。定价方面Anthropic 拿出了一份颇有诚意的限时价阶段输入每百万 tokens输出每百万 tokens限时引入价至 2026 年 8 月 31 日$2$10标准价此后$3$15参考Opus 4.8$5$25也就是说在优惠期内Sonnet 5 的实际成本比曲线图里画的还要更低。此外Anthropic 还在 Chat、Cowork、Claude Code 和 Claude Platform 上统一上调了 rate limit专门用来消化高 effort 档位带来的更高 token 消耗——档位随你选额度管够。这里有一个小坑值得开发者留意Sonnet 5 换用了新的 tokenizer和当初 Opus 4.7 的做法类似它改变了模型处理文本的方式以提升性能。代价是同样一段输入可能会被切成更多 token——大约是原来的1.01.35 倍具体取决于内容类型。官方称限时价的设定正是为了让从 4.6 迁移到 5 的过程「大致成本中性」。写在最后从 3.5 到 5Sonnet 系列走了一条挺清晰的路它始终是那个「把 Agentic 能力普及给大多数开发者」的角色。而 Sonnet 5 这一步的意义在于——它第一次让「接近 Opus 的能力」和「Sonnet 的价格」这两件看似矛盾的事落到了同一个模型身上。对于绝大多数需要长链条、多步骤、能自主收尾的 Agentic 任务来说这可能正是那个「性价比甜点」。那么问题来了如果一只 Sonnet 就能把复杂任务端到端做完你还会为哪些场景专门去请出更贵的 Opus欢迎在评论区聊聊你的选择。