【美团LongCat-2.0技术解析】国产算力炼出的万亿参数Agentic大模型全景
文章目录美团LongCat-2.0技术解析国产算力炼出的万亿参数Agentic大模型全景一、引言二、发展历程从LongCat-Flash到2.0的纵向脉络2.1 起点LongCat-Flash-Chat2025年9月2.2 推理能力补课LongCat-Flash-Thinking2.3 多模态支线LongCat-Next2.4 决策逻辑为什么坚持模芯协同2.5 潜伏两个月Owl Alpha 的伏笔2.6 正式发布2026年6月30日三、核心技术架构万亿参数如何在国产芯片上跑起来3.1 MoE 架构与零计算专家机制3.2 ScMoE 跨层捷径与 N-gram Embedding 增强3.3 LongCat Sparse AttentionLSA3.4 6D 并行与超节点设计3.5 分离式 Prefill-Decode 架构与 Super Kernels3.6 架构全景示意四、深度对比性能表现与定价策略4.1 Benchmark 表现4.2 定价策略对比4.3 开源三大核心资产的战略含义五、工程实践与应用场景5.1 Agentic Coding 是核心定位5.2 免费缓存读取的 Agent 经济学5.3 1M 上下文的实际用途六、横向竞品对比七、横纵交汇总结八、总结美团LongCat-2.0技术解析国产算力炼出的万亿参数Agentic大模型全景一、引言亲爱的朋友们创作不容易若对您有帮助的话请点赞收藏加关注哦您的关注是我持续创作的动力谢谢大家有问题请私信或联系邮箱jasonai.fngmail.com2026 年 6 月 30 日美团正式发布 LongCat-2.0——一个总参数规模 1.6 万亿、全流程在国产算力集群上完成训练与推理的大模型。在此之前的两个月里一个叫 “Owl Alpha” 的匿名模型已经悄悄爬上了 OpenRouter 的月度调用量榜首月吞吐一度达到 10.1 万亿 token环比增长 242%在 Hermes Agent 榜单排名第一、Claude Code 榜单排名第二。美团官宣的那一刻开发者才发现自己用了两个月的神秘高手就是 LongCat-2.0 的预览版。区别于此前大模型竞赛里常见的先秀参数再秀跑分的打法LongCat-2.0 的路线是先让开发者用起来再讲清楚它是谁、怎么练出来的。这背后有两条更值得关注的主线——一是美团从 LongCat-Flash 到 LongCat-2.0 一年多的技术积累路径二是这个万亿参数模型第一次证明了纯国产算力集群能够独立完成万亿参数模型的全流程训练与推理不再依赖海外高端 GPU。本文将从发展历程、核心架构、性能定价、竞品格局等维度对 LongCat-2.0 进行完整解析。二、发展历程从LongCat-Flash到2.0的纵向脉络2.1 起点LongCat-Flash-Chat2025年9月2025 年 9 月 1 日美团正式发布并开源 LongCat-Flash-Chat这是 LongCat 系列第一个真正走向公众视野的版本。它采用 MoE 架构总参数 560B单 token 激活参数在 18.6B 到 31.3B 之间浮动平均约 27B核心创新是零计算专家Zero-Computation Experts机制——简单 token 走轻量子网络复杂 token 才调用更多专家参数从根源上消除了传统稠密模型一视同仁式的算力浪费。这一版本在 H800 上跑出 100 tokens/s 的推理速度API 输出定价低至 5 元/百万 token以 MIT 协议开源。在 ArenaHard-V2 拿到 86.50 分MMLU 89.71 分CEval 90.44 分在强调工具调用的 τ2-Bench 上超过了参数规模更大的模型在 VitaBench 复杂场景评测中以 24.30 分排名第一。这些数字说明美团从第一天起就没有把 LongCat 定位成又一个聊天模型而是瞄准了 Agent 场景下的工具调用与复杂任务处理能力。2.2 推理能力补课LongCat-Flash-Thinking在 Chat 版本之后团队推出了 LongCat-Flash-Thinking技术报告编号 2601补齐推理链路能力。官方技术报告显示该版本在传统推理任务上具备很强的竞争力同时在 Agentic 推理需要多步骤规划、工具调用、长链路决策的任务上优势更明显——这为后续 LongCat-2.0 全面转向Agentic coding定位埋下了伏笔。2.3 多模态支线LongCat-Next2026 年 4 月 2 日LongCat 团队发布并开源 LongCat-Next这是一个原生离散多模态模型。与此同时团队也在视频生成、图像生成、音频处理等方向持续布局LongCat 逐渐从单一对话模型演变成一个技术矩阵。2.4 决策逻辑为什么坚持模芯协同真正决定 LongCat-2.0 走向的关键决策其实在 2023 年就已经埋下。据美团技术团队披露从 2023 年起美团就与国产算力厂商共同推进模芯协同研发逐步攻克了万卡级容错恢复、NPU 确定性计算、算力利用率提升等核心难题。这不是一次应急选择而是三年时间里对国产算力路径的持续投入——万卡集群训练最怕的是硬件故障导致训练中断NPU 与 GPU 在数值计算行为上的细微差异又会导致模型收敛出问题这些都是模芯协同必须逐一啃下的硬骨头。正是这三年的积累让 LongCat-2.0 能够在峰值超过 5 万张国产算力卡的集群上完成迄今为止国产算力上规模最大的训练任务之一预训练数据规模超过 30 万亿 token训练全程实现稳态日吞吐超过 1 万亿 token/天。2.5 潜伏两个月Owl Alpha 的伏笔LongCat-2.0 在正式官宣前先以预览版形式通过 OpenRouter 平台和 longcat.ai 向全球开发者开放化名 “Owl Alpha”。在匿名的两个月里它凭实力冲上了全球 Agent 开发者常用的多个榜单Hermes Agent 工作区第一、Claude Code 第二、OpenClaw 第三均按月调用量排名月吞吐一度达到 10.1 万亿 token日均约 5590 亿 token环比增速 242%。这种先匿名跑生产流量再官宣的打法实际上是把最真实的压力测试——全球开发者的真实 Agent 调用负载——放在了发布之前完成比任何内部评测集都更有说服力。2.6 正式发布2026年6月30日2026 年 6 月 30 日美团正式揭晓 LongCat-2.0 的身份公布总参数规模 1.6 万亿、平均激活约 480 亿参数不同信息来源显示激活规模在 330 亿到 560 亿之间随任务复杂度浮动的完整信息并同步宣布将陆续开源 Infra 框架、推理引擎、模型参数三大核心技术资产以 MIT 协议开放给全球开发者。从 2025 年 9 月的 560B 到 2026 年 6 月的 1.6TLongCat 用不到一年时间完成了参数规模近 3 倍的跃迁但更重要的变化不是参数量而是这一次的训练和推理全程没有依赖海外高端 GPU。三、核心技术架构万亿参数如何在国产芯片上跑起来3.1 MoE 架构与零计算专家机制LongCat-2.0 延续并升级了零计算专家机制总参数 1.6 万亿单 token 平均激活约 480 亿参数具体数值随 token 复杂度在 330 亿到 560 亿之间动态浮动。简单来说模型会为每个 token 动态分配计算预算——复杂 token 激活更多专家简单 token 尽量走轻量路径省算力官方称这一机制在业界属首创。3.2 ScMoE 跨层捷径与 N-gram Embedding 增强模型引入 ScMoE跨层快捷连接架构让 MoE 层间的通信与计算可以更大程度并行执行缓解 MoE 模型常见的通信瓶颈。同时通过 N-gram Embedding 模块增强局部 token 关系的建模能力——据报道该模块通过 5-gram token 组合框架为核心 embedding 空间新增约 1350 亿参数将 embedding 空间扩大了近百倍用于捕捉密集的局部 token 关系并加速大批量推理该数字来自公开技术报道具体细节以官方技术报告为准。3.3 LongCat Sparse AttentionLSA针对 1M 级别的超长上下文LongCat-2.0 设计了 LongCat Sparse AttentionLSA官方将其定位为 DeepSeek Sparse Attention 的演进版本并将稀疏化思路进一步扩展到了 3-step 多 token 预测Multi-Token Prediction流程中用于兼顾长上下文效率与生成质量。3.4 6D 并行与超节点设计在 5 万卡级别的国产算力集群上训练和部署万亿参数模型通信开销是最大的挑战之一。LongCat-2.0 采用了超节点Super Node与 6D 并行策略在推理阶段通过大规模专家并行聚合访存带宽支撑万亿参数 MoE 模型的低延迟解码同时把零计算专家机制融入专家并行的通信流程让被路由到零专家的 token 真正避免不必要的数据传输和计算而不只是在计算层面省下算力。3.5 分离式 Prefill-Decode 架构与 Super Kernels推理服务采用分离式 Prefill-Decode 架构将长文本的预填充阶段和逐 token 生成的解码阶段拆分到不同资源池处理避免两类负载互相干扰。配合 “Super Kernels” 与 L2 缓存预取技术在国产硬件上尽可能隐藏 I/O 延迟这是能在国产芯片而非国际顶级 GPU 上跑出可用推理速度的关键工程细节之一。3.6 架构全景示意┌──────────────────────────────────────────────┐ │ 预训练数据层 │ │ 30万亿 tokens · 多来源语料 · Agentic场景强化 │ ├──────────────────────────────────────────────┤ │ 模型架构层1.6T MoE │ │ 零计算专家 · ScMoE跨层捷径 · N-gram Embedding │ │ LongCat Sparse Attention (LSA) │ ├──────────────────────────────────────────────┤ │ 训练基础设施层国产算力集群 │ │ 5万卡 峰值规模 · 6D并行 · 超节点 · 容错恢复 │ ├──────────────────────────────────────────────┤ │ 推理服务层 │ │ 分离式Prefill-Decode · Super Kernels · L2预取 │ │ 专家并行聚合访存带宽 · 1M上下文 │ └──────────────────────────────────────────────┘四、深度对比性能表现与定价策略4.1 Benchmark 表现在衡量真实代码任务解决能力的 SWE-bench Pro 榜单上LongCat-2.0 拿到 59.5% 的成绩整体排名第 9。作为参照Kimi K2.6 为 58.6%Qwen3.7 Plus 为 57.6%DeepSeek V4 ProMax为 55.4%——这意味着在这个特定榜单的这几个开源模型对比中LongCat-2.0 处于领先位置数据来自第三方评测平台 BenchLM具体排名会随榜单更新变化仅代表评测时间点的快照。4.2 定价策略对比模型输入价格每百万token输出价格每百万token备注LongCat-2.0标准价$0.75$2.95上下文缓存命中免费另有 10 亿 token 约 60 美元的量级套餐LongCat-2.0launch 促销价$0.30$1.20官宣后的限时优惠GPT-5.5$5$30国际一线闭源模型定价Claude Sonnet 5$2$10入门档定价DeepSeek V4-Pro$0.435$0.87长期定价小米 MiMo-V2.5 Pro$0.435$0.875 月降价后与 DeepSeek V4-Pro 持平从这张表能看出 LongCat-2.0 的打法促销价直接把输入价格压到 GPT-5.5 的 1/16、输出价格压到 1/25同时提供上下文缓存免费读取——这对高频复用相同上下文的 Agent 场景比如反复读取同一个代码仓库是实打实的成本优势而不只是营销噱头。4.3 开源三大核心资产的战略含义美团宣布将陆续开源 Infra 框架、推理引擎、模型参数三大核心技术资产。相比只开源模型权重同时开放训练和推理的基础设施框架意味着国产算力上训练万亿参数模型的工程路径本身被公开——这比单纯开源一个模型的价值更大目标很明确降低国产算力训练万亿级大模型的技术门槛推动国产算力和大模型生态的协同发展。五、工程实践与应用场景5.1 Agentic Coding 是核心定位从 LongCat-Flash 到 2.0团队的技术选择——工具调用能力优先、后补推理能力、原生长上下文——最终指向同一个场景Agentic Coding智能体式编程。LSA 稀疏注意力面向 1M 级上下文优化动态 token 级计算分配面向真实代码任务里大部分代码是常规逻辑、少部分是复杂决策点的特点设计整个模型架构是围绕编码、推理、交互类任务而非通用聊天场景来搭建的。Owl Alpha 匿名阶段的真实数据印证了这个定位Hermes Agent 工作区第一、Claude Code 第二、OpenClaw 第三全部是面向智能体编程和自动化任务的产品而不是通用对话类应用。5.2 免费缓存读取的 Agent 经济学Agent 类工作负载有一个典型特征同一个上下文比如一个代码仓库、一份系统提示词会被反复读取几十上百次。LongCat-2.0 把缓存命中的读取成本降为零意味着一个长期运行、反复调用同一上下文的编程 Agent实际综合成本会远低于按 token 定价表面数字的估算——这也是为什么它能在成本敏感的 Agent 开发者群体中迅速起量的直接原因。5.3 1M 上下文的实际用途原生支持 1M token 级别的超长上下文对应的实际场景是仓库级代码理解——不需要对大型代码库做人工切片和检索增强直接把足够大的上下文喂给模型减少了工程链路上的额外拼接和召回环节。这类能力的价值需要结合具体工程场景验证但方向上契合当前 Agentic Coding 赛道对一次性看懂整个项目的普遍需求。六、横向竞品对比大模型赛道当前处于充分竞争阶段同时对标 LongCat-2.0 的开源/半开源竞品不止一两个属于典型的3 个及以上竞品场景这里选取三个最具代表性的对比对象DeepSeek V4-Pro、Qwen3.7 系列、Kimi K2.6并简要提及 GPT-5.5、Claude Sonnet 5 作为国际闭源参照。维度LongCat-2.0DeepSeek V4-ProQwen3.7Plus/MaxKimi K2.6技术路线1.6T MoE零计算专家LSA稀疏注意力全程国产算力训练MoE 架构长期深耕推理效率与低成本路线阿里旗舰 MoE 体系Agent 时代能力全面铺开Moonshot 系 MoE工具调用与长任务见长产品形态面向 Agentic CodingOpenRouter/API 直接开放面向通用推理场景长期低价策略面向通用生态企业场景阿里云深度绑定面向 Agent 与复杂工具调用场景核心优势定价激进、缓存免费、1M上下文、国产算力自主可控叙事极致性价比长期稳定的低价心智生态整合能力强阿里云资源协同Agent 工具调用能力成熟社区认可度高明显短板品牌认知度仍在建立期此前长期匿名运行通用聊天体验与部分场景灵活性一般模型矩阵型号多选型成本较高定价相对没有 LongCat-2.0 激进用户口碑匿名阶段已获真实 Agent 开发者用脚投票官宣后关注度陡增长期口碑稳定便宜好用心智深入人心企业客户认可度高开发者社区活跃Agent 圈层内认可度高生态位用国产算力开源三大资产卡位同时抢占 Agentic Coding 用户卡位极致性价比通用模型卡位阿里云生态内的全场景覆盖卡位 Agent 工具调用细分场景趋势判断开源三大资产落地后可能吸引更多国产算力上的复现者价格战仍是核心武器需要持续技术突破维持差异化依赖阿里云生态协同效应持续放大需要在定价和生态曝光度上进一步跟进从 SWE-bench Pro 的横向数据看LongCat-2.059.5%确实领先 Kimi K2.658.6%、Qwen3.7 Plus57.6%、DeepSeek V4-Pro Max55.4%——但这只是单一榜单单一时间点的快照几个模型的分差并不悬殊说明当前头部开源模型在代码类任务上已经进入了贴身近战的阶段谁都不能靠一次跑分建立长期身位优势。对于国际参照系 GPT-5.5 和 Claude Sonnet 5LongCat-2.0 的差异化武器主要是价格和国产算力叙事而非跑分碾压——这也符合当前国产大模型的普遍打法用极致性价比和场景聚焦去争夺闭源模型覆盖不到或者定价过高的长尾场景。七、横纵交汇总结把纵向的发展路径和横向的竞争格局放在一起看LongCat-2.0 真正的分量不在参数规模而在于它同时验证了两件事第一国产算力集群可以独立完成万亿参数级别模型的全流程训练与推理模芯协同三年攻坚不是营销叙事而是有实际交付结果的工程积累第二先用真实生产流量匿名验证、再正式官宣这种打法证明了产品力可以先于品牌曝光赢得市场Owl Alpha 两个月的真实调用量数据是任何发布会都造不出来的信任状。从竞争格局看LongCat-2.0 并没有选择在通用对话场景与 GPT-5.5、Claude 正面竞争而是精准卡位 Agentic Coding——用低价、免费缓存、原生长上下文这三件事把自己嵌入到 Claude Code、Hermes Agent 这些开发者已经在用的工作流里这是一种渗透式竞争而非擂台式竞争。未来的关键变量有两个一是 Infra 框架和推理引擎的开源落地程度如果真正做到可复现可能会带动一批基于国产算力的后续模型训练形成生态效应二是价格战的可持续性——目前的促销价是否能长期维持取决于国产算力的单位算力成本能否持续下降。这两点目前都还只能算是趋势判断需要观察后续几个月的实际进展本段为基于已公开信息的推测非官方确认信息。八、总结维度核心要点发展脉络2025.09 LongCat-Flash-Chat560B→ LongCat-Flash-Thinking → 2026.04 LongCat-Next多模态→ 2026.06.30 LongCat-2.01.6T历时不到一年完成规模跃迁核心架构1.6万亿参数 MoE平均激活约480亿零计算专家ScMoE跨层捷径N-gram EmbeddingLongCat Sparse Attention训练突破5万卡国产算力集群全流程训练推理30万亿 token 预训练业界首个纯国产算力万亿参数模型市场打法两个月匿名Owl Alpha验证真实需求再正式官宣开源三大核心资产定价策略促销价 $0.30/$1.20每百万token缓存命中免费远低于 GPT-5.5逼近 DeepSeek V4-Pro竞争定位不与闭源模型正面拼通用体验精准卡位 Agentic Coding嵌入开发者既有工作流LongCat-2.0 代表的不只是美团在大模型赛道的又一次投入更是国产算力自主可控叙事第一次有了万亿参数模型全流程训练这样具体、可验证的落地案例。随着开源三大资产的逐步落地它能否从一个好用又便宜的模型变成一条可复制的国产算力训练路径将是观察这个方向的下一个关键节点。参考资料美团 LongCat-2.0 正式发布在国产算力集群上完成全流程训练与推理的万亿参数模型 — 美团技术团队2026-06-30美团发布LongCat-2.0大模型全程由国产算力训练 — 新华网2026-06-30业界首个美团 LongCat-2.0 发布国产芯片上跑出的万亿参数模型 — IT之家美团正式发布并开源 LongCat-Flash-Chat动态计算开启高效 AI 时代 — 美团技术团队2025-09-01Meituan open sources LongCat-2.0, the 1.6T, near-frontier agentic coding model thats been leading OpenRouter — VentureBeatLongCat-2.0: The Stealth AI Model That Was Quietly Topping OpenRouter All Along — DecryptSWE-bench Pro Benchmark 2026: 42 LLM scores — BenchLM.aiLongCat-Flash Technical Report — arXiv:2509.01322