推出 Claude Sonnet 52026 年 6 月 30 日Claude Sonnet 5 发布。它是迄今为止最具自主性的 Sonnet 模型能制定计划、使用工具并自主运行而几个月前这需更大、更昂贵的模型才能实现。对许多开发者来说自主人工智能时代始于 Sonnet 系列模型Claude Sonnet 3.5、3.6 和 3.7 是首批在编码和工具使用方面展现出色技能的模型不过近期自主能力显著提升主要体现在 Opus 系列模型上。Sonnet 5 缩小了差距其性能接近 Opus 4.8但价格更低。与前代 Sonnet 4.6 相比它在推理、工具使用、编码和知识工作等自主性能重要方面有显著改进。安全评估发现与 Sonnet 4.6 相比Sonnet 5 出现不良行为总体比率更低在自主场景使用通常更安全但与当前 Opus 模型相比它执行网络安全任务能力低得多。从当天起Claude Sonnet 5 在所有套餐均可使用是免费套餐和专业套餐默认模型Max、团队和企业用户也能用还可在 Claude Code 和 Claude 平台使用。截至 2026 年 8 月 31 日其 introductory pricing 为每百万输入令牌 2 美元每百万输出令牌 10 美元之后将调整为每百万输入令牌 3 美元每百万输出令牌 15 美元。开发者可通过 Claude API 使用 claude - sonnet - 5。使用 Claude Sonnet 5图表比较了 Sonnet 5 与 Sonnet 4.6 和 Opus 4.8 在不同 effort 级别下在自主搜索评估 BrowseComp 和计算机使用评估 OSWorld - Verified 中的性能。Sonnet 5 相比 Sonnet 4.6 有明显改进与 Opus 4.8 相比提供了更广泛性价比选择。在中等 effort 水平下成本效率显著提高在高 effort 水平下某些任务性能可与 Opus 4.8 媲美。用户可在 Sonnet 5 和 Opus 4.8 之间调整 effort 级别找到成本和性能最佳平衡。早期访问合作伙伴反馈一致表明Sonnet 5 比前代产品更具自主性。测试人员描述了它完成复杂任务、检查输出以及以有吸引力价格完成自主工作的情况。多位技术人员分享了使用体验如李梓木称其为智能体提供强大执行层适用于多步骤软件工程工作丹尼尔·谢泼德表示它能完成以前模型会卡住的任务是日常自动化任务不二之选等。安全评估部署前安全评估发现Sonnet 5 总体比 Sonnet 4.6 有所改进。在自主安全性方面更善于拒绝恶意请求抵御提示注入攻击劫持尝试幻觉和迎合行为发生率更低自动化行为审计总体得分更低更安全。不过与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比不当行为发生率略高。Sonnet 5 未特意针对网络安全任务训练可执行常规无害网络任务但在测试潜在危险网络技能评估中表现远不如 Opus 4.8 和 Mythos 5 等模型。它从未成功开发出完整可用利用程序但与 Sonnet 4.6 相比部分成功率略高这可能是整体智能提升而非特定训练所致。因 Sonnet 5 在这些任务上比前代略强推出时默认启用网络防护措施能实时检测并阻止危险网络使用与 Claude Opus 4.7 和 4.8 中防护措施相同且没 Fable 5 推出时严格。Sonnet 5 在多个安全和能力评估方面全面评估结果报告在 Claude Sonnet 5 系统卡片中。可用性和定价截至 2026 年 8 月 31 日Claude Sonnet 5 以 introductory pricing 在所有平台可用之后调整为标准定价。同时提高了 Chat、Cowork、Claude Code 和 Claude 平台速率限制用户可按需选择合适级别。2026 年 6 月 30 日编辑说明原始版本中 BrowseComp 评估性价比图表方法学有误低估了 Sonnet 5 性能现已更新图表和相关文本。脚注Sonnet 5 是网络验证计划一部分已加入组织可自动获得相同访问权限对于需减少防护措施的网络安全工作推荐 Claude Opus 4.8。Sonnet 5 是 Sonnet 4.6 升级版使用更新分词器提高性能相同输入可能映射到更多令牌introductory pricing 使过渡成本大致不变。2026 年 4 月 26 日提高原生 Claude 平台 Sonnet 和 Haiku 速率限制并简化层级可在 Claude 控制台查看层级和限制或阅读文档了解详情。更新了“人类的最后考试”评分模型和 Sonnet 4.6 得分以及 OSWorld - Verified 评估运行方式和 Sonnet 4.6 得分。相关内容Claude Science 是可定制应用程序集成常用工具和软件包能生成可审计工件提供灵活计算资源访问方式。Claude Tag 是团队与 Claude 协作新方式。Anthropic 开设首尔办事处并宣布在韩国 AI 生态系统建立新合作伙伴关系。还介绍了产品、模型、解决方案、Claude 平台、资源、帮助与安全、公司、条款与政策等相关信息。