过去一年里世界模型几乎成了具身智能领域最热的那个词但一个更现实的问题是世界模型到底要拿来做什么如果只是生成一段关于未来的视频它当然可以证明模型“见过”某种未来如果只是作为训练时的额外约束它也确实能帮助策略模型学到更好的表征。但真正用到机器人身上时问题会变得更直接机器人不是为了看见未来而是为了在动手之前知道自己这一步会不会错。在2026智源大会上星源智发布了具身交互世界模型ω-EVA相较其它具身世界模型ω-EVA想要探索的正是世界模型如何从训练辅助进入到机器人行动决策本身于是我们看到交互成了ω-EVA的一个关键词。在接受媒体采访时星源智团队也特别解释了为什么ω-EVA能够成为给全球首个具身交互世界模型。01 “交互”让世界模型参与到动作修正中在大会现场星源智用一块被随机打乱的华容道棋盘解释ω-EVA。对人来说华容道是逻辑推理对机器人来说它是连续行动每移动一步局面都会变化后续路径也会被重新塑造。机器人真正要判断的不只是“眼前是什么”而是“如果我这样动接下来会发生什么”。至于ω-EVA的名字则是来自Envision、Verify、Act即预演、验证、行动。它的核心不是让机器人直接输出动作而是先生成一个动作候选再由世界模型预演这个动作可能造成的后果最后根据后果修正动作。这就把世界模型的位置往前推了一步。过去许多世界模型更像训练旁路训练时帮助模型学习未来表征部署时未必真正参与每一次控制决策。ω-EVA想做的是把世界模型放进行动闭环里让它在一次控制决策中成为反馈模块。具体来说它把动作生成拆成三个环节Proposal、Latent Consequence、Refinement即先提出动作再预测这个动作诱导出的潜在后果最后重写动作。这里的“交互”并不是机器人与人的交互也不是简单把视觉、语言、触觉拼接到一起而是动作候选与世界模型之间的交互。世界模型不再只是回答“未来会怎样”而是进一步回答如果执行这个动作未来会怎样如果后果不理想动作该如何改这也是ω-EVA与其他世界模型的差异。其他世界模型预测解决的是“未来如何被表征”而ω-EVA更进一步把未来表征变成动作修正的依据ω-EVA的三阶段训练也围绕这个逻辑展开第一阶段学习以动作作为条件的潜在动力学让模型理解某个动作会带来怎样的未来状态第二阶段训练世界感知的动作生成器输出初始动作proposal第三阶段才是真正的关键refiner同时接收当前状态、想象未来和原始动作候选直接输出修正后的动作片段。这不是“多加一个模块”那么简单在实验中去掉imagined future模型表现会下降去掉action proposal模型表现下降会更明显。也就是说提升并不只是因为模型多了一层结构而是因为当前状态、候选动作和想象后果之间形成了明确的三方关系。星源智真正想证明的是世界模型的价值不该只停留在“预测世界”而应该进入“修正行动”。02 视频生成路线的瓶颈理解ω-EVA也要理解星源智这次刻意避开的路线视频生成式世界模型。视频生成路线天然优势是直观模型生成一段未来视频人一眼就能判断它像不像、真不真、有没有物理合理性。但机器人并不是观众机器人不需要看一段漂亮的视频它需要在很短时间内知道这个动作会不会撞、会不会偏、会不会抓空、会不会影响下一步。星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国在接受媒体采访时指出“以语言为条件的视频生成模型在具身领域最大的瓶颈是不能很好地对齐动作和预测视频。”这句话其实点出了视频生成路线在机器人控制里的根本矛盾。语言描述天然是不稳定的同一个任务不同人会有不同说法同一句话也可能对应多个动作路径但机器人的动作不是模糊的它必须落到手腕位姿、末端执行器状态、抓取开合、关节控制等具体变量上。如果模型以语言作为主要条件生成未来它可能生成一个看起来合理的画面却未必能严格约束“这个动作”导致的“这个后果”而机器人控制最需要的恰恰是这种因果关系。这也是星源智强调action-conditioned的原因它不是问“给定一句话未来画面是什么”而是问“给定这个动作未来状态会如何变化”。更进一步星源智并不把像素级视频生成作为建模目标因为对于机器人来说许多像素细节没有意义真正重要的可能只是几个关键状态是否接触到物体、是否接近碰撞、是否偏离目标、是否还能继续执行后续动作。视频生成的未来是给人看的未来ω-EVA要用的未来是给动作生成器看的未来。这也是为什么它选择在latent feature space中进行后果推理潜空间里的未来不一定可解释不一定能被人直接观看但它可以更紧凑、更低成本地参与动作修正。对机器人来说这比生成一段高清未来视频更实用。所以星源智这次发布的重点不是“我也能生成未来”而是“未来为什么要被生成”。如果未来信息不能反馈给动作它就只是模型内部的一种能力只有当未来能够修正当前动作世界模型才真正进入具身智能的核心链路。03 端侧部署是具身闭环的前提一旦世界模型要进入动作决策闭环端侧部署就不再是工程细节而是路线选择。机器人和大语言模型不同语言模型回答慢一点用户最多等几秒机器人动作慢几秒可能已经撞上货架、夹坏物体或者在危险场景里造成不可接受的后果。星源智创始人兼CEO刘东在接受媒体采访时指出“如果把机器人作为一个Agent来看它必然要做闭环不能几秒后才拿到反馈尤其是当机器人与物理世界发生交互高时延是非常危险的。”这就解释了为什么星源智反复强调具身世界模型要能在端侧部署。如果模型不能在端侧运行机器人就只能依赖线缆、局域网或云端协同但真实机器人身上往往有多个摄像头、激光雷达和其他传感器。要把这些感知数据实时传到云端再等云端推理后返回动作带宽、延迟、成本和稳定性都会成为问题。更不用说仓库、工厂、电力巡检等场景并不总有理想网络环境。端侧部署的意义在于让感知、推理、决策和执行都尽可能靠近机器人本体。这也是ω-EVA选择潜空间建模的重要原因。视频生成式世界模型如果要在推理阶段生成完整未来视频计算成本很高链路也更长星源智的判断是机器人不需要像素级未来它需要可用于控制的关键未来表征。刘东表示“基于星源智的路线算力需求并不高端侧模组可以跑起来而视频生成底座对算力要求很高很难端侧落地。”孙振国对此也补充道“隐空间建模路线在训练和推理上理论上都更节省资源本质差异会决定模型最终能否在端侧运行。”这背后其实是两种产品哲学一种路线追求更大的生成能力先把未来“画出来”另一种路线追求更短的控制链路把未来压缩成能够修正动作的信号。ω-EVA的意义也在这里它试图证明具身世界模型不是越大越好也不是未来视频越清晰越好而是要能以足够低的成本、足够短的链路、足够高的频率进入控制闭环。端侧部署本质上是在问一个更严肃的问题这个模型是不是为真实机器人准备的04 具身智能尚处于十年前的智驾阶段技术路线之外星源智创始团队在现场还聊到了他们对于具身智能当下发展进程的看法。刘东给出的一个类比是今天的具身机器人大约处在2015年、2016年自动驾驶刚起步的阶段。“那时候大家都在瞄准L4、L5自动驾驶但其实真正的L2还没有大规模落地这与今天的具身智能现状极为相似行业都在谈通用具身机器人、复杂操作和实际应用但真正能稳定落地的场景并不多。”这个判断比许多“机器人元年”的说法要冷静。星源智并没有把落地想象成一个全能人形机器人突然进入家庭而是把具身设备的定义放宽了叉车、搬运设备、拣选机械臂、巡检机器人只要装上能够理解环境和任务的大脑都可以成为具身智能的落地载体。刘东提到当前比较容易落地的场景大致有两类一类是纯移动任务比如巡检、导览、导购另一类是抓放类操作叠加基础移动后可以进入仓库拣选、工厂上下料、药店拣选等场景。实际上具身智能的产业化不会一步到位而会沿着结构化程度更高、任务边界更清楚、商业回报更明确的场景逐步推进。在这个过程中市场分工也会发生一些微妙变化。星源智的定位不是做本体而是做具身大脑、端侧算力平台和端侧Infra刘东把星源智称为行业里“卖铲子的人”他指出未来会有大量本体公司、制造业公司、车厂、家电企业进入机器人硬件制造领域但它们未必都具备底层大脑模型研发能力。中国制造业不缺硬件能力真正稀缺的是能跨本体、跨场景适配的大脑以及对应的数据、模型和端侧部署能力。这也意味着ω-EVA的价值不能只看发布会上的模型指标而要看它能否在垂类场景里带来更低部署成本、更高任务成功率和更短适配周期。说到底具身智能的下一战不会只是看“谁的模型更大”也不会只是看“谁的未来视频更漂亮”它会落到更硬的地方谁能让机器人在行动前完成一次有效预演谁能让模型在端侧稳定闭环谁能把数据、场景和模型连成持续进化的系统。