前几天刷到京东刚发布的一个新模型叫 JoyAI-VL-Interaction。有意思的不是它又刷了什么榜也不是参数又涨了多少。恰恰相反这个模型只有8B 参数放在今天动不动几十上百亿的大模型里简直算个小个子。却做了一件以前 AI 不会做的事。你有没有过这种感觉用 AI 的时候总觉得它慢半拍。锅里的汤扑出来了你得先喊一声它才反应过来。老人在家摔倒了等你想到要 AI 去看一眼人可能已经在地上躺了好几分钟。以前我一直以为这是速度问题。模型不够快网络不够好。看完这个模型的技术报告和演示我才发现这根本不是快不快的问题。是设计问题。一、你不问它不说今天我们用的所有 AI骨子里都是一个模式回合制。你问一句它答一句。你不问它就不说。哪怕有视频通话功能能看见你屏幕上的内容说到底也还是你触发一下它反应一下。聊天、查资料、写东西这模式没问题甚至挺好的——需要的时候才出现不打扰你。但放到真实世界里这个设计就有大问题了。真实世界不会等你。汤扑出来不会等你喊完再扑人摔倒了不会等你想起来再摔。而回合制的 AI永远是在你问的那个瞬间才开始「看」。之前发生了什么不知道之后会发生什么也不关心只处理你抛给它的那一帧、那一个问题。问题出在「谁决定什么时候说话」。回合制 AI决策权在你手里。它永远不会主动开口哪怕天塌下来了只要你没问它就假装没看见。二、一个新东西叫交互模型那有没有一种 AI不是这样工作的有。京东这次发布的 JoyAI-VL-Interaction走的就是另一条路。官方把它叫做「视觉驱动的交互模型」。最简单的理解就是把「什么时候说话」的决策权从你手里交到了 AI 手里。它不是等你问了才看、才想、才说。它是一直在看一直在判断然后自己决定这个时刻值不值得开口。值得它就说。不值得它就闭嘴。就这么一个变化把整个 AI 的工作方式都改变了。以前的 AI 像顾问你去找它它才出主意。交互模型像一个跟你一起在场的人同处一个空间看着同一件事发生。它不会一直说话烦你但关键时刻会开口。这个差异说起来好像不大不就是主动和被动的区别吗。但你仔细想这个区别太大了。我觉得是从命令行到图形界面那么大——不是功能更强了是整个交互的范式变了。图形界面为什么是范式跃迁因为它把「你告诉电脑做什么」变成了「电脑展示选项你选」。决策权和信息呈现的方式整个反过来了。交互模型也是一样。以前你得知道「什么时候该问 AI 什么」AI 再聪明你想不到问它就等于不存在。以后 AI 一直在那儿它判断什么时候该说话。大多数时候它是安静的但该出现的时候它就在。难的不是「能说话」是「知道什么时候该说话、什么时候该闭嘴」。三、每秒都在做选择以及怎么做到的难在哪里呢。难在分寸感。说早了聒噪说晚了错过时机说多了烦人说少了像摆设。你想想那些聚会里总插话的人或者该说话时又沉默的人就知道「知道什么时候开口」有多难。JoyAI-VL-Interaction 的核心机制说起来简单每秒钟做一次决策有三个选项。说话觉得值得说就开口。沉默没什么好说的就继续看。委托觉得自己搞不定就丢给后台大模型处理自己继续盯着画面。就这三个选项每秒选一次。要把这三个选择做得像个正常人背后需要的东西不少。得看懂眼前发生了什么能持续跟踪场景得有时间感和记忆最难的是得有「判断什么时候该说」的直觉这个没法用规则写死。京东的做法是用400 万带时间戳的交互样本去训练让模型自己从数据里学出分寸感。8B 的小模型又要实时跑又要做决策怎么做到的。有几个关键设计。第一个是双循环架构。前台是 8B 交互模型快、轻负责实时盯画面、做决策后台接更大的模型和工具处理前台搞不定的任务。前台把重活丢给后台自己继续盯着画面不中断。小的干轻活、大的干重活各司其职。另外两个关键设计是AdaCodec预测性视频编码和时间对齐的训练数据。前者挑变化大的帧细看、变化小的帧略过省 token后者的核心是 400 万样本每一帧都标注了「该不该说话」是连续的时序标注。数据的形态变了模型长出来的能力就变了。四、这些事以前真的做不到说起来有点抽象我挑一个最有代表性的场景——监控告警。这个场景最能体现交互模型和回合制的区别。你让回合制 AI 「帮我盯着有人摔倒了告诉我」官网上的对比演示里Doubao 在摔倒发生后大约 20 秒才反应过来Gemini 干脆把它当成了视频问答任务往后看而不是实时告警。20 秒是什么概念。老人摔到地上黄金救助时间可能就那几分钟。20 秒延迟放在安全监控里基本等于没用。JoyAI-VL-Interaction 呢摔倒发生的瞬间就发出警告了。不是因为它推理更快是因为它一直在看事件发生的那一刻它就在场。这不是速度的胜利是范式的胜利。实时翻译、实时计数、长时记忆这些场景也是一个道理——不是大模型能力不行是「持续跟进」这个动作回合制模型根本就不会。官网展示的九大能力有一个共同点都需要持续在场这个前提。而持续在场恰恰是回合制模型的设计盲区。就像一条鱼在水里游得比谁都快但你让它在路上走它一步都走不了。不是不够强壮是身体结构不对。五、8B 的小个子赢了大模型光看演示可能有人会说是不是挑了对自己有利的场景啊。有没有更客观的评估。有的。京东做了一个挺扎实的评测找了 58 个真实的视觉交互场景涵盖监控告警、实时翻译、直播解说、实时计数、时间感知、长时记忆这些方向然后让人来做两两对比评估。对比的对手是豆包和 Gemini 的视频通话助手。结果是这样的人类评估员认为 JoyAI-VL-Interaction 表现更好的比例对豆包是77.6%对 Gemini 是87.9%。这个数字挺震撼的。因为 JoyAI-VL-Interaction 只有 8B 参数。而它对比的这两位都是比它大得多的模型。小模型赢大模型而且赢的幅度还不小这在 AI 领域是挺少见的事。分场景看更有意思。监控告警 100% 赢两者范式碾压。实时翻译 80% 赢豆包实时计数 70% 赢豆包长时视觉记忆 77.8% 赢两者。这些数据来源是官方技术报告和官网的评估页面测试方法是人类评估员的两两对比。当然这里得说一句这个评测是京东自己做的场景也是他们选的。你可以说它有偏向性专门挑了自己擅长的场景。这也合理。但我觉得哪怕打个折看结论也是站得住的。就是在「需要持续在场、主动决策」的场景里一个专门为交互设计的小模型确实比一个大得多的回合制模型表现更好。这不是因为小模型更聪明。是因为路线对了。六、一个彩蛋没教过也会我觉得这篇报告里最有意思的发现是涌现能力。什么叫涌现呢就是训练的时候没教过但模型练完了自己就会了。最典型的是购物 APP 引导——跟着用户在 APP 里操作实时指路。训练数据里根本没这个主要是监控、翻译、计数这些场景没教过它怎么陪人逛购物 APP。但它就是会了。还有即兴演讲也一样给个幻灯片能一边翻页一边即兴讲解跟上节奏这个训练数据里也完全没有。为什么会这样呢。我自己的理解是当模型真正学会了「持续在场 主动决策」这个底层能力之后很多具体的应用场景就自然长出来了。底层能力通了上层的具体表现就会自动涌现。「在场」是一个底层能力。一旦模型真的理解了「我要一直看着该说的时候说不该说的时候不说」那么监控、翻译、购物引导其实只是换了个内容而已形式是一样的。这意味着交互模型可能还有很多我们没想到的应用场景。现在展示的九大能力可能只是冰山一角。七、它的边界在哪里说了这么多好的也得说说不好的。我一直觉得看一个技术靠不靠谱很重要的标准就是看它敢不敢说自己不行的地方。JoyAI-VL-Interaction 的局限性官方自己也列了挺实在的。第一个就是规模差距。8B 毕竟是 8B在需要深度推理、复杂知识的任务上跟大模型还是有差距的。比如数学证明、复杂代码它肯定不如 GPT 或 Claude。这也是为什么它设计了双循环架构遇到难的就丢给后台。前台 8B 模型的定位就是「看场子的」不是「干重活的」。第二个是幻觉问题。所有大模型都有幻觉交互模型也不例外。而且因为它是主动说话的幻觉可能更麻烦——被动的 AI 你问了它才瞎答主动的 AI 可能自己就开始瞎说了。官方也承认某些场景下会出现不准确的描述长时间观察后记忆偏差的概率更高。这个问题短期内不会完全解决是整个行业的通病。除此之外目前评测的 58 个场景主要集中在视觉交互比较直接的领域更复杂的场景效果还有待验证。隐私问题也是一个现实挑战。所以我觉得交互模型是一个很重要的方向但现在还很早。它打开了一扇门但门后面的路还很长。八、全栈开源才是真正的杀招说到这儿还得提一下开源。京东这次不是只开源了模型权重是全栈开源。模型、训练配方、数据、完整的可部署系统全放出来了。官方说计划 2026 年 6 月 20 日在 GitHub 完整发布。什么概念呢拿到仓库照着文档搭一下自己就能跑一个实时在场的 AI 助手。接个摄像头就能用不用依赖任何大厂的 API。我觉得这个事的意义可能比模型本身还大。一个范式能不能普及关键看门槛。只有少数大厂能玩发展速度就有限。人人都能拿来用、拿来改、做自己的东西生态速度就完全不一样了。而且这个模型只有 8B一张消费级显卡就能跑。门槛低到什么程度一个学生、一个小团队就能基于它做自己的交互应用。不是这个模型有多厉害。是从此以后「在场 AI」不再是只有大厂实验室里才有的概念变成了人人都能摸到、能玩、能改的东西。九、从工具到在场者收尾的时候我想聊点更远的。我一直在想AI 到底会以什么样的方式进入我们的生活。最早以为是工具需要的时候打开用完就关掉。后来大模型出来了以为是助理对话式地帮你完成任务。但现在我越来越觉得可能都不是。AI 最终的形态可能是「在场」。它不是你打开 APP 才能用的东西也不是喊一声才出现的东西。它一直在那儿像空气一样大多数时候沉默但关键时刻永远在场。人类发明工具的历史就是不断「延长在场」的过程。望远镜让视线到场电话让声音到场视频让影像到场。而 AI第一次让「注意力」和「判断力」也能到场。你的人不用在那儿但 AI 代理可以替你看着、听着、判断着。这不是遥远的科幻。京东这个 8B 的小模型已经在这条路上走出了扎扎实实的第一步。当然这条路还很长。技术的、伦理的、法律的问题一大堆。但方向我觉得是对的。从「你问我答」到「主动在场」。从「工具」到「在场者」。这可能就是 AI 的下一个范式。而我们刚好站在这个转变的起点上。如果你对大模型、视频生成这些方向感兴趣也欢迎来群里一起学习交流。 扫码即可加入