晓天衡宇评测社区持续关注大模型的发展动态近期针对国内外主流大语言模型进行了全面评测。榜单从智能体、代码、通用、推理四个维度并基于20主流评测基准对国内外主流大语言模型进行了全面评测现公布晓天衡宇大语言模型6月评测榜单。本文基于Top 10评测结果进行解读完整26个模型的全量排名和维度得分欢迎访问晓天衡宇评测社区进行查看。欢迎点击晓天衡宇评测社区查看完整榜单结论1Claude Fable 5问鼎海外闭源模型占据头部优势本期榜单中Claude Fable 5以70.72分位列第一是本次评测中唯一总分超过70分的模型综合领先优势较明显。从Top 3模型看Claude Fable 5、GPT-5.5xhigh、Claude Opus 4.8均为海外闭源模型说明在本次评测集下头部综合能力仍主要由海外闭源模型占据。不过第二名的GPT-5.5xhigh得到68.35分第三名Claude Opus 4.8得分67.39分两者分差不足1分更适合看作同一头部梯队内的同水平竞争。结论2推理成为当前最强维度智能体仍是全场共性短板从四大能力维度看推理以70.49分的行业均分领跑其次是代码67.68分、通用64.35分智能体均分仅46.92分是本次评测中表现最低的维度没有模型在智能体维度突破60分即便是榜首Claude Fable 5智能体得分也只有57.38分。由此可见当前模型距离稳定完成复杂任务拆解、多步执行、工具调用和长期任务闭环仍有较大提升空间。结论3中游模型进入密集竞争区国产模型差距正在收窄但具体能力项存在差异本期榜单第5至第10名总分分差仅2.04分说明中游区间竞争非常激烈。在这个区间内涵盖多款国产模型也包括部分海外模型单纯用排名先后判断强弱已经不够准确。以Top 10中的GLM-5.2、Qwen3.7-Max和Gemini 3.1 Pro为例三者总分分别为64.53、64.32和64.18最大分差只有0.35分基本属于同一竞争梯队但三者能力特点并不相同GLM-5.2的智能体相对更高Qwen3.7-Max的推理更突出Gemini 3.1 Pro的通用更有优势。因此中游模型的关键看点不是“谁高0.1分”而是不同模型在具体能力项上的差异。评测维度本榜单基于智能体、代码、通用、推理四个维度进行综合评估基于加权分数计算模型的平均得分进行排序。其中 智能体占比最高为35%代码与推理各占25%通用占15%本期榜单并不只是看模型会不会答题而是更强调模型在复杂任务执行、代码能力、通用能力和推理表现上的综合能力。维度一智能体权重35%知识库智能体交互能力考察模型与知识库进行多轮交互、准确检索并整合信息的能力。网页浏览与信息检索能力考察模型在中文网页环境中浏览、定位和提取目标信息的能力。搜索增强推理能力考察模型结合搜索结果进行深度推理和复杂问答的能力。动态规划能力考察模型在购物等动态场景中进行多步骤规划与决策的能力。维度二代码编程权重25%多语言软件工程能力考察模型在多种编程语言下完成软件工程任务的能力。终端任务代码能力考察模型在终端环境中执行代码任务的能力。竞赛编程能力考察模型解决竞赛级编程题目的能力。自主代理端到端代码能力考察模型作为自主代理完成端到端编码任务的能力。科学计算编程能力考察模型进行科学计算和数值编程的能力。维度三通用权重15%知识考察模型在广泛知识领域的准确性。指令遵循考察模型精确遵循复杂指令的能力。幻觉考察模型抵抗幻觉、避免生成虚假信息的能力。长上下文考察模型在长上下文条件下的信息检索与理解能力。记忆考察模型在多轮对话中的长期记忆保持能力。维度四推理权重25%科学推理考察模型在研究生难度科学问题上的推理能力。数学推理考察模型在高难度数学竞赛题目中的推理和解题能力。逻辑推理考察模型在形式逻辑、语言理解和规划类推理任务中的表现。场景推理考察模型在真实世界场景中进行推理和规划的能力。评分指标一览表并附有对应具体的评测集评分方法本次6月大语言榜单统一采用客观评分无需主观打分不使用ELO对战打分且每次评估、任何打分均可一比一复现。具体的评分方式分为三种分别是Pass1模型一次生成即通过的比例适用于代码任务和智能体任务。Accuracy回答准确率适用于知识问答和推理类任务。Score综合评分适用于需要多维度评判的主观类任务。整体来看本期榜单呈现出一个清晰趋势推理和代码已经成为头部模型竞争的强项通用仍能体现模型之间的基础能力差异而智能体则是当前所有模型共同需要突破的关键短板。智能体Agentic智能体维度趋势图智能体是本次评测中均分最低的维度行业均分仅46.92分即便是总榜第一的Claude Fable 5智能体得分也只有57.38分第二名GPT-5.5xhigh为 56.98分二者只差0.40分。这说明在智能体维度上头部模型之间的差距并没有被明显拉开相比代码、通用和推理智能体更像是当前模型的共同薄弱项。从Top 10看智能体得分较高的模型包括Claude Fable 557.38GPT-5.5xhigh56.98Claude Opus 4.854.36GLM-5.254.07Claude Opus 4.753.17值得注意的是GLM-5.2虽然总分排名第5但智能体得分达到54.07接近 Claude Opus 4.8并高于Qwen3.7-Max、Gemini 3.1 Pro等同分段模型这说明在中游模型中GLM-5.2的任务执行类能力有一定相对优势。代码Coding代码维度趋势图代码维度行业均分为67.68分整体高于通用和智能体说明代码能力已经成为当前大模型相对成熟的能力项之一。在Top 10中Claude Fable 5的代码得分为78.71分是当前展示模型中的最高分GPT-5.5xhigh为74.83分Claude Opus 4.8为74.34分两者非常接近Claude Opus 4.7为73.05分也处于较高水平。从分差看Claude Fable 5领先第二名GPT-5.5xhigh3.88分领先 Claude Opus 4.8的分差是4.37分这个差距比智能体维度更明显说明 Claude Fable 5的总分优势很大程度上来自代码这样高权重能力项的领先。中游模型中GLM-5.2、Qwen3.7-Max、Claude Opus 4.6的代码得分都在70分左右GLM-5.270.76Qwen3.7-Max70.49Claude Opus 4.670.41这说明在代码维度上中游模型与头部模型之间存在差距但并不是断层式落后尤其是GLM-5.2与Qwen3.7-Max在代码能力上已经接近70分线具备一定竞争力。通用General通用维度趋势图通用维度行业均分为64.35分处于四个维度中的中间位置。这个维度更适合观察模型在通用理解、基础问答、综合表达等任务上的表现。在 Top 10 中Claude Fable 5的通用得分为75.92分明显领先其他模型第二梯队中Claude Opus 4.8为71.54Gemini 3.1 Pro为71.50GPT-5.5xhigh为70.47。这里有一个值得关注的点Gemini 3.1 Pro虽然总分排名第7但通用得分达到 71.50几乎与Claude Opus 4.8的71.54持平并高于GPT-5.5xhigh的70.47这说明Gemini 3.1 Pro在通用能力项上有明显亮点不能仅用总分排名来判断其价值。相反Claude Opus 4.6的通用得分为61.48在Top 10中偏低这也解释了为什么它虽然代码有70.41、推理有70.43但总分仍位于第10因为通用和智能体两项共同拉低了综合表现。推理Reasoning推理维度趋势图推理是本次四个维度中行业均分最高的一项达到70.49分这说明推理能力已经成为当前大模型整体表现最成熟的方向之一。在Top 10中Claude Fable 5的推理得分为78.29排名最高GPT-5.5xhigh为76.50Claude Opus 4.8为76.22。头部三款模型在推理上都超过76分形成比较清晰的高分区。中游模型中Qwen3.7-Max的推理得分为74.02表现非常突出甚至高于 Claude Opus 4.7的73.61、GLM-5.2的71.65和Gemini 3.1 Pro的72.91。这说明Qwen3.7-Max虽然总分排名第 6但在推理维度上具备较强竞争力。此外Qwen3.7-Max-Preview的推理得分也达到72.93高于Gemini 3.5 Flash的72.57和Claude Opus 4.6的70.43对于关注推理任务的用户来说虽然这类模型即使总分不是最靠前但也值得结合具体任务进一步观察。AnthropicClaude Opus 4.6 → Claude Opus 4.7 → Claude Opus 4.8 → Claude Fable 5Anthropic 的 Claude系列从Opus 4.6到Fable 5呈现持续上行趋势最新 Claude Fable 5已明显站上当前榜单头部位置体现出连续版本迭代带来的综合能力提升。AlibabaQwen3.5-Plus→Qwen3.6-Plus→Qwen3.6-Max-Preview → Qwen3.7-Max-Preview→Qwen3.7-Max→Qwen3.7-PlusAlibaba的Qwen系列整体呈稳定爬升趋势3.7版本已进入较高分段说明其在近期版本迭代中持续缩小与头部模型的差距。GoogleGemini 3.1 Pro → Gemini 3.5 FlashGoogle的Gemini系列两个版本分数整体接近Gemini 3.5 Flash相比Gemini 3.1 Pro没有形成明显上扬更像是不同的模型定位保持在相近能力区间。Moonshot AIKimi-K2.5 → Kimi-K2.6Moonshot AI的Kimi系列从K2.5到K2.6分数明显上涨显示新版本在综合能力上有较清晰的提升。Z.AIGLM-5 → GLM-5 Turbo → GLM-5.1 → GLM-5.2Z.AI的GLM系列经历短暂波动后持续走高GLM-5.2相比早期版本已进入更高分段说明后续版本迭代带来了较稳定的能力增益。MiniMaxMiniMax-M2.7 → MiniMax-M3MiniMax从M2.7到M3出现明显跃升分数跨越幅度较大是升级收益较突出的模型线之一。XiaoMiMiMo-V2 Pro → MiMo-V2.5 ProXiaoMi的MiMo系列从V2 Pro到V2.5 Pro分数稳步提升说明新版本在综合评测表现上有一定进步但整体仍处于中游竞争区间。其他GPT-5.5xhigh、DeepSeek-v2promax、Seed 2.0 Pro、Hy3-previewGPT-5.5xhigh、DeepSeek-v2promax、Seed 2.0 Pro和Hy3-preview当前仅有单个版本入榜暂时无法判断版本演进趋势更适合作为各厂商当前代表模型的横向对比样本。说明本文中提到的模型排名、分数及能力分析均基于晓天衡宇评测社区2026年6月大语言模型综合评测结果。评测结果受评测集构成、任务类型、评分方法、模型版本及调用参数等因素影响仅代表模型在本次评测条件下的表现不等同于模型在所有真实业务场景中的绝对能力排序。【模型能力-推理速度】分析散点图以推理速度为横轴、综合能力为纵轴呈现典型的能力-效率博弈格局。第一象限高速高能Gemini 3.5 Flash165.0 Tokens/s62.85分和Qwen3.7-Plus147.561.44分兼具速度与能力是当前最佳效率模型。第二象限低速高能Claude Fable 564.070.72分、GPT-5.578.668.35分和Claude Opus 4.860.067.39分牺牲速度换取深度推理集中在45-80速度区间但能力均超67分。值得关注的是GLM-5.280.064.53分兼具中高速与国产最高能力处于两个象限的交界位置。第三象限低速低能Seed 2.0 Pro29.358.04分速度与能力均处末位。第四象限高速低能MiMo-V2.5 Pro100.058.41分速度极快但能力偏弱。整体分布揭示当前超高能力67分与超高速度100 Tokens/s仍难兼得但58-65分区间已有多款速度破80的均衡模型出现。推理速度呈三级阶梯分布头尾差值达135.7。第一梯队100 Tokens/sGemini 3.5 Flash以165.0大幅领跑Qwen3.7-Plus147.5紧随其后Gemini 3.1 Pro108.2和MiMo-V2.5 Pro100.0同处百级区间四者均以推理优化见长。第二梯队60-100MiniMax-M380.0、GLM-5 Turbo78.9、GPT-5.578.6等11款模型密集分布构成主力区间。第三梯队60Claude系列集中在45-64区间整体偏慢DeepSeek-V4 Pro和Kimi系列均为34Seed 2.0 Pro以29.3垫底。速度与能力存在显著trade-off——榜首Claude Fable 5速度仅64.0速度冠军Gemini 3.5 Flash能力排第764.66分高能力模型倾向更深层推理计算。【模型能力-推理成本】分析以本次评测产生的实际推理总成本RMB为横轴、综合能力为纵轴散点图揭示了完成全部评测任务的真实花费与模型能力之间的关系。高成本高能力区Claude Fable 5评测总成本最高119,000元且能力最强70.72分GPT-5.582,688元68.35分和Claude Opus 4.861,250元67.39分紧随其后三者均为海外闭源模型评测总花费集中在6-12万区间。中等成本区Gemini 3.1 Pro24,413元64.18分和Qwen3.7-Max11,700元64.32分提供了较好的能力成本比后者以不到前三名1/5的花费获得接近的能力水平。低成本高效区MiniMax-M32,450元61.87分以极低评测成本进入前12Qwen3.7-Plus1,969元61.44分和DeepSeek-V4 Pro6,825元62.43分同样展现出优秀的成本效率。极致低成本Qwen3.5-Plus仅330元Hy3-preview仅1,188元。该指标综合反映了Token消耗量与API单价的乘积效应是衡量模型实际使用经济性的核心参考。API定价呈极端长尾分布头尾相差超127倍。【模型能力-模型参数】分析以模型参数量B为横轴、综合能力为纵轴散点图基于13款公开参数量的模型进行分析。参数最大的DeepSeek-V4 Pro1600B得分62.43位列第11并非能力最强说明参数规模已非决定性因素。高参高能区Kimi-K2.6和MiMo-V2.5 Pro均为1000B前者61.43分后者58.41分同参数下表现分化。中参高效区GLM-5.1754B61.79分和GLM-5 Turbo744B57.96分参数接近但得分差4分体现训练策略差异MiniMax-M3以428B获得61.87分参数效率极为突出。低参区MiniMax-M2.7230B52.06分为最小参数模型能力受限。整体趋势表明在600B以上区间参数增加带来的能力增益已明显递减400-800B区间是当前性能与效率的最佳平衡点。架构创新、数据质量和训练方法对最终能力的贡献已超过单纯的参数堆叠。【模型能力-Token消耗】分析以本次评测实际消耗的Token量MTokens为横轴、综合能力为纵轴散点图展示了各模型完成全部评测任务所需的Token资源与最终能力产出的关系。高消耗高能力区GPT-5.5完成评测消耗最高42 MTokens68.35分Claude Fable 534 MTokens70.72分以更少Token消耗获得更高分数评测效率更优。Claude Opus 4.835 MTokens67.39分与Claude Opus 4.732 MTokens65.35分同属高消耗阵营。高效率代表Gemini 3.5 Flash仅消耗14 MTokens即获62.85分Qwen3.6-Plus以13 MTokens获57.90分Qwen3.5-Plus以最低的12 MTokens获55.95分三者在评测中展现出极佳的Token利用效率。低效区域Hy3-preview消耗25 MTokens但仅获51.58分MiMo-V2 Pro消耗21 MTokens仅获48.77分评测资源消耗与能力产出不成正比。该指标反映模型在实际评测场景下的资源开销Token消耗越低意味着同等评测条件下推理成本越小。【模型性价比-API价格】分析API定价呈极端长尾分布头尾相差超127倍。高价区60元Claude Fable 5以140元独占高位GPT-5.578.75元和三款Claude Opus均70元构成海外高端定价带5款均为海外闭源。中价区10-35元Gemini 3.1 Pro31.5元、Gemini 3.5 Flash23.6元、Qwen3.7-Max18元和DeepSeek-V4 Pro11.4元分布其中Qwen系列以18元获第6名能力性价比突出。低价区10元聚集15款模型GLM系列9.25元、Kimi系列7元、MiniMax-M36.1元为代表Qwen3.5-Plus1.1元最低。整体来看大模型API定价已形成明确的三档格局高端市场由海外厂商主导而国产模型凭借成本优势在中低价区形成密集竞争同等能力下成本仅为海外的1/5至1/10。6月大语言评测榜单已同步上线至晓天衡宇•评测社区官网欢迎大家访问查看更详细的评测数据。