19款模型×4大维度深度横评:2026年6月大模型Coding能力谁称王?
训练一次 GPT-5.5 要多少钱据说光电费就能买一辆宝马。但这不是重点。重点是——花了这么多钱的模型写代码到底行不行2026年6月独立评测机构 Artificial Analysis 发布了最新一轮大模型基准测试结果覆盖 530 款模型。我从里面扒出了 Coding 指数Terminal-Bench Hard SciCode和 Agentic 智能指数GDPval-AA τ²-Bench Telecom两大核心维度的 TOP 19加上 ITBench-AASRE 场景、AA-Omniscience知识可靠性、GDPval-AA真实任务 Elo三个附加维度做了一份尽量客观的横评。废话不多说先看总表。一、核心指标总览先说结论再展开GPT-5.5 编程最强Claude Opus 4.8 智能体最强国产模型全面跻身全球前十。模型上下文多模态Coding指数Agentic指数GPT-5.5✅1M文本图像59.174.1GPT-5.4✅1M文本图像57.268.0Claude Opus 4.8✅1M文本图像56.777.8Gemini 3.1 Pro Preview✅1M文本图像音频视频55.559.1Claude Opus 4.7✅1M文本图像52.571.3Claude Sonnet 4.6❌200k文本图像50.963.0Qwen3.7 Max✅1M❌纯文本50.166.6DeepSeek V4 Pro✅1M❌纯文本47.567.2Kimi K2.6❌262k文本图像视频47.166.0Qwen3.7 Plus✅1M文本图像视频46.565.1MiMo-V2.5-Pro✅1M❌纯文本45.567.4Gemini 3.5 Flash✅1M文本图像45.070.3MiniMax-M3✅1M文本图像视频43.468.6GLM-5.1❌200k❌纯文本43.467.1DeepSeek V4 Flash✅1M纯文本38.761.3DeepSeek V3.2❌131k纯文本36.752.9Qwen3.6 27B❌262k文本图像36.562.9Qwen3.6 35B A3B❌262k文本图像35.258.3Claude Haiku 4.5❌200k文本图像32.640.2加粗的是国产模型。这个表格传递的信息很明确——国产模型在 Coding 和 Agentic 两个维度上都已经稳居全球第一梯队不再是追赶者而是竞争者。二、Coding 指数深度拆解谁写代码最靠谱Coding 指数由 Terminal-Bench Hard终端操作基准和 SciCode科学编程两个子项合成衡量的是模型在不依赖 IDE 的情况下直接写代码、跑命令、做科学计算的能力。全球前三GPT-5.559.1—— 断崖式领先其实没有。比第二名 GPT-5.457.2只高了不到 2 分比第三名 Claude Opus 4.856.7高了 2.4 分。但从绝对数值看GPT-5.5 的 Terminal-Bench Hard 成绩是唯一突破 60 分的在编写 shell 脚本、处理文件系统这些真实开发场景上确实有一手。GPT-5.457.2—— 被 5.5 盖过了风头但这个分数放在两个月前就是全球第一。5.5 相比 5.4 在 Agent 能力上做了大幅优化纯 Coding 层面拉开的差距其实不大。Claude Opus 4.856.7—— 和 GPT-5.4 只差 0.5 分几乎平手。但 Claude 的真正杀招不在纯 Coding而在 Agentic 能力下面会说。国产梯队Qwen3.7 Max50.1排名全球第 7国产最高。50.1 这个分数有多不容易它排在了 Gemini 3.1 Pro Preview55.5之后但和 Claude Sonnet 4.650.9仅差 0.8 分。DeepSeek V4 Pro47.5— 全球第 8。这里有个极其恐怖的数据DeepSeek V4 Pro 的优惠价5月31日前 2.5折仅为 Claude Sonnet 4.7 的1/432。即使恢复原价成本也仅为 GPT-5.5 的零头。接近顶流 80% 的 Coding 能力只要 1% 的价格——这不是广告是真实定价。Kimi K2.647.1— 支持文本图像视频的多模态模型Coding 排名第 9。月之暗面推出了 199 元/月的 Allegretto 套餐买套餐还能送专属龙虾字面意思的龙虾是真的吃的龙虾。小模型扛把子DeepSeek V4 Flash38.7、Qwen3.6 27B36.5这些参数更小的模型虽然绝对分数不高但缓存命中时成本低到可以忽略。V4 Flash 缓存命中场景下输出仅 ¥0.02/百万 token——拿来批量处理代码审查、写单元测试非常划算。三、Agentic 智能指数谁最会干活如果说 Coding 指数比的是写代码的本事Agentic 指数比的是用工具干活的能力——让模型自己调用 API、操作文件、执行命令、编排多步骤任务。全球前三Claude Opus 4.877.8—新王加冕。4.8 相比 4.771.3提升了 6.5 分是本次榜单中提升幅度最大的模型。Anthropic 在 Agent 能力上的投入已经见到回报——在 GDPval-AA真实世界任务 Elo 评分中Opus 4.8 的 1890 Elo 同样排名第一。GPT-5.574.1— 比 Opus 4.8 低 3.7 分。OpenAI 的模型调用工具能力依然很强但在需要多步骤自主决策、异常恢复的场景下Claude 现在更胜一筹。Claude Opus 4.771.3— 被 4.8 超车但依然是顶级水平。GDPval-AA 1753 Elo真实世界任务中表现稳定。国产 Agentic 能力惊喜MiniMax-M368.6— 国产 Agentic 最高分全球第 5。这个排名非常惊人——MiniMax-M3 是一个参数体量相对较小的模型但在 Agent 调度能力上反超了几乎所有国产大模型。极速版输出速率高、很少遇到 429 限流配合 OpenClaw 使用体验很好。MiMo-V2.5-Pro67.4— 小米出品国产 Agentic 第二。它在多工具协同调度上的表现接近 Claude Opus 系列完全开源后企业集成的成本很低。GLM-5.167.1— 智谱的产品线有个特点Agentic 高67.1但 Coding 普通43.4说明它更擅长编排任务而不是写代码。如果你需要一个指挥型模型——让它分配任务、调用工具、管理流程——GLM-5.1 比 GPT-5.5 便宜得多。DeepSeek V4 Pro67.2— 整体最均衡的国产模型Coding 和 Agentic 都在全球前 10。四、补充维度SRE、幻觉率、真实场景ITBench-AAKubernetes 事故根因分析这个维度测试的是模型在 SRE 场景下的实战能力——给一个 Kubernetes 集群故障让模型找出根因。排名模型准确率1Claude Opus 4.746.7%2GPT-5.545.8%3Qwen3.7 Max42.5%4Gemini 3.5 Flash /GLM-5.140.3%5Claude Sonnet 4.639.8%6DeepSeek V4 Pro38.3%这个维度很重要——如果你的工作涉及 K8s 运维Qwen3.7 Max42.5%表现优于 DeepSeek V4 Pro38.3%和 Kimi K2.631.2%是国产 SRE 场景首选。AA-Omniscience知识可靠性与幻觉率模型说的看起来很有道理的内容到底靠不靠谱排名模型可靠性得分1Gemini 3.1 Pro Preview332Claude Opus 4.8273Claude Opus 4.7264Gemini 3.5 Flash235GPT-5.5206Qwen3.7 Max14Gemini 3.1 Pro 的 33 分几乎是 GPT-5.520 分的 1.6 倍在知识可靠性上拉开了一个身位。国产模型中 Qwen3.7 Max14 分最高但与 GPT-5.5 仍有差距。Kimi K2.66 分和 GLM-5.11 分在知识可靠性上还有较大提升空间。GDPval-AA真实世界任务 Elo 评分这是最接近实际使用体验的维度——让模型解决真实世界问题按 Elo 评分。排名模型Elo1Claude Opus 4.818902GPT-5.517693Claude Opus 4.717534Sonnet 4.616765GPT-5.416746MiniMax-M316707Gemini 3.5 Flash16568MiMo-V2.5-Pro15719DeepSeek V4 Pro155410Qwen3.7 Max1546Claude Opus 4.8 的 1890 Elo 是当之无愧的第一——它不是靠某个单项刷分而是在所有真实任务场景中都稳定发挥。MiniMax-M31670在真实任务中的表现甚至超过了 Gemini 3.5 Flash1656这是非常不错的成绩。五、选型建议不同场景选什么模型写代码为主Qwen3.7 Max国产首选Coding 50.1ITBench 42.5%→ 降档用 Qwen3.7 Plus → 预算无限用 GPT-5.5。Agent 自动化OpenClaw、Harness 等复杂多步骤选Claude Opus 4.8Agentic 77.8GDPval Elo 1890→ 国产选MiniMax-M3Agentic 68.6极少限流→ 追求开源选MiMo-V2.5-ProAgentic 67.4完全开源。日常编码 省钱DeepSeek V4 ProCoding 47.5Agentic 67.2价格仅为 GPT-5.5 约 1%。缓存命中场景用V4 Flash¥0.02/百万 token。SRE/运维场景Qwen3.7 MaxITBench 42.5%→ Claude Opus 4.746.7%。知识可靠性场景法律、医疗、文档Gemini 3.1 Pro33 分→ Claude Opus 4.827 分。六、趋势观察国产模型不再是追赶者。Qwen3.7 Max全球第 7和 DeepSeek V4 Pro全球第 8已经用分数证明了这一点。在 Agentic 维度MiniMax-M3全球第 5甚至超过了 GPT-5.4。Agent 能力正在成为新战场。Coding 能力的差距在缩小TOP10 最大差 13.6 分但 Agentic 能力的差距还很大TOP10 最大差 18.7 分。Anthropic 在 Agent 上重注投入4.7→4.8 提升了 6.5 分。OpenAI 的 GPT-6 如果不在 Agent 上跟上来可能会在谁最能干活这个维度上输掉。知识可靠性是国产模型的致命短板。国产模型中最好的 Qwen3.7 Max 只有 14 分而 Gemini 3.1 Pro 是 33 分。如果模型在不懂的时候会胡说用在工作流中就是定时炸弹。性价比已经不是一个次要选项。DeepSeek V4 Pro 用 1% 的价格实现了 80% 的 Coding 能力——这不是凑合着用而是你完全可以主力用它省下的钱去充其他服务。没有完美的模型只有合适的组合。我的个人搭配日常编码用 DeepSeek V4 Pro省钱复杂架构用 Claude Opus 4.8强 Agent运维排查用 Qwen3.7 MaxITBench 高知识核查用 Gemini 3.1 Pro低幻觉。2026年6月的模型格局可以概括为GPT-5.5 写代码最稳Claude Opus 4.8 干活最靠谱国产模型全面逼近但知识可靠性仍需补课。下个月的榜单会是什么样我很好奇。延伸阅读GLM-5.2深度解读智谱开源模型凭什么跻身全球编程第一梯队、Token消耗横评4款AI编程工具11倍差距你的账单被谁悄悄拉高了系列文章2026年AI编程工具横评Trae、Cursor、Claude Code、Copilot X 同一任务实测对比MiMo Code实测小米开源30B MoE模型写代码到底行不行如果这篇文章对你有帮助点个关注 我会持续更新 AI 编程实战、工具测评和踩坑记录。