Claude Sonnet 5 发布：性能逼近 Opus 4.8 且价格更低，自主能力与安全性显著提升-尧图建网站

推出 Claude Sonnet 52026 年 6 月 30 日Claude Sonnet 5 发布。它是迄今为止最具自主性的 Sonnet 模型能制定计划、使用工具并自主运行而几个月前这需更大、更昂贵的模型才能实现。对许多开发者来说自主人工智能时代始于 Sonnet 系列模型Claude Sonnet 3.5、3.6 和 3.7 是首批在编码和工具使用方面展现出色技能的模型不过近期自主能力显著提升主要体现在 Opus 系列模型上。Sonnet 5 缩小了差距其性能接近 Opus 4.8但价格更低。与前代 Sonnet 4.6 相比它在推理、工具使用、编码和知识工作等自主性能重要方面有显著改进。安全评估发现与 Sonnet 4.6 相比Sonnet 5 出现不良行为总体比率更低在自主场景使用通常更安全但与当前 Opus 模型相比它执行网络安全任务能力低得多。从当天起Claude Sonnet 5 在所有套餐均可使用是免费套餐和专业套餐默认模型Max、团队和企业用户也能用还可在 Claude Code 和 Claude 平台使用。截至 2026 年 8 月 31 日其 introductory pricing 为每百万输入令牌 2 美元每百万输出令牌 10 美元之后将调整为每百万输入令牌 3 美元每百万输出令牌 15 美元。开发者可通过 Claude API 使用 claude - sonnet - 5。使用 Claude Sonnet 5图表比较了 Sonnet 5 与 Sonnet 4.6 和 Opus 4.8 在不同 effort 级别下在自主搜索评估 BrowseComp 和计算机使用评估 OSWorld - Verified 中的性能。Sonnet 5 相比 Sonnet 4.6 有明显改进与 Opus 4.8 相比提供了更广泛性价比选择。在中等 effort 水平下成本效率显著提高在高 effort 水平下某些任务性能可与 Opus 4.8 媲美。用户可在 Sonnet 5 和 Opus 4.8 之间调整 effort 级别找到成本和性能最佳平衡。早期访问合作伙伴反馈一致表明Sonnet 5 比前代产品更具自主性。测试人员描述了它完成复杂任务、检查输出以及以有吸引力价格完成自主工作的情况。多位技术人员分享了使用体验如李梓木称其为智能体提供强大执行层适用于多步骤软件工程工作丹尼尔·谢泼德表示它能完成以前模型会卡住的任务是日常自动化任务不二之选等。安全评估部署前安全评估发现Sonnet 5 总体比 Sonnet 4.6 有所改进。在自主安全性方面更善于拒绝恶意请求抵御提示注入攻击劫持尝试幻觉和迎合行为发生率更低自动化行为审计总体得分更低更安全。不过与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比不当行为发生率略高。Sonnet 5 未特意针对网络安全任务训练可执行常规无害网络任务但在测试潜在危险网络技能评估中表现远不如 Opus 4.8 和 Mythos 5 等模型。它从未成功开发出完整可用利用程序但与 Sonnet 4.6 相比部分成功率略高这可能是整体智能提升而非特定训练所致。因 Sonnet 5 在这些任务上比前代略强推出时默认启用网络防护措施能实时检测并阻止危险网络使用与 Claude Opus 4.7 和 4.8 中防护措施相同且没 Fable 5 推出时严格。Sonnet 5 在多个安全和能力评估方面全面评估结果报告在 Claude Sonnet 5 系统卡片中。可用性和定价截至 2026 年 8 月 31 日Claude Sonnet 5 以 introductory pricing 在所有平台可用之后调整为标准定价。同时提高了 Chat、Cowork、Claude Code 和 Claude 平台速率限制用户可按需选择合适级别。2026 年 6 月 30 日编辑说明原始版本中 BrowseComp 评估性价比图表方法学有误低估了 Sonnet 5 性能现已更新图表和相关文本。脚注Sonnet 5 是网络验证计划一部分已加入组织可自动获得相同访问权限对于需减少防护措施的网络安全工作推荐 Claude Opus 4.8。Sonnet 5 是 Sonnet 4.6 升级版使用更新分词器提高性能相同输入可能映射到更多令牌introductory pricing 使过渡成本大致不变。2026 年 4 月 26 日提高原生 Claude 平台 Sonnet 和 Haiku 速率限制并简化层级可在 Claude 控制台查看层级和限制或阅读文档了解详情。更新了“人类的最后考试”评分模型和 Sonnet 4.6 得分以及 OSWorld - Verified 评估运行方式和 Sonnet 4.6 得分。相关内容Claude Science 是可定制应用程序集成常用工具和软件包能生成可审计工件提供灵活计算资源访问方式。Claude Tag 是团队与 Claude 协作新方式。Anthropic 开设首尔办事处并宣布在韩国 AI 生态系统建立新合作伙伴关系。还介绍了产品、模型、解决方案、Claude 平台、资源、帮助与安全、公司、条款与政策等相关信息。

相关新闻

开源WPS AI插件察元AI文档助手:结构化批次的 schema 版本常量

Claude 4写的旋转代码又炸机？给Cursor加三条几何约束，Agent终于第一次就对

红帽 Linux 零基础完整学习笔记 7

最新新闻

思源宋体TTF：开源中文字体如何彻底改变你的中文排版体验？

别再被参数迷住眼！收藏这份小白指南，轻松看懂AI大模型

北外研发的轻量级定性编码工具：预装6套语言学编码方案，支持HTML可视化标注与导出

Beyond Compare 5密钥生成器：免费解锁专业版完整指南

非线性薛定谔方程的物理信息神经网络PINN研究（Python代码实现）

Stewart六自由度平台MATLAB控制仿真全套工程文件

日新闻

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！