最近看 Vivify 的 Realtime Face Swap 页面时我第一反应其实不是“又一个换脸工具”而是实时AI换脸已经做到这个样子了确实有点不可思议。以前说到 AI 换脸大家更容易想到的是离线处理上传一张脸、上传一段视频、等模型跑完然后看生成结果。但现在已经可以在浏览器里打开摄像头给一张参考人脸画面可以持续返回 AI 处理后的预览。它不再像一个视频后期工具而更像一个实时视频效果。不可思议的点不是换脸而是“实时”单张图片换脸已经不算新鲜视频换脸也早就有人做。但实时预览是另一件事。因为实时意味着系统不能只追求最后一张图好看。它还要处理摄像头输入、参考图、网络延迟、模型推理、画面回传、前端渲染以及中途停止会话这些连续状态。任何一环慢一点用户看到的就不是“实时换脸”而是卡顿、延迟、跳帧或者不知道发生了什么。所以我觉得这类产品真正让人惊讶的地方是它把过去更像离线生成任务的东西压到了一个接近互动体验的链路里。用户不是等一段视频生成完而是在摄像头画面里直接看 AI 帧不断回来。从一次生成变成一段实时会话这背后的产品形态也变了。传统 AI 生成更像一次请求输入素材、提交任务、等待结果、下载文件。实时换脸更像一段会话开始摄像头、设置参考图、建立实时连接、持续处理帧、随时停止。这也是为什么它不能只做成一个“上传并生成”的表单。实时会话里开始和停止都很重要用户也需要知道当前是不是正在消耗计算资源。尤其是这类功能通常会按实时处理时长产生成本如果界面不把成本单位和会话状态说清楚体验会很不踏实。换脸、试穿、风格化其实开始合流了我比较感兴趣的另一个点是它不只局限在 face swap。从交互上看实时试穿和实时 restyle 也在走同一条路摄像头是输入参考素材决定变化方向模型持续返回处理后的画面。区别只是参考对象不同。换脸参考的是人脸试穿参考的是衣服或造型restyle 参考的是整体风格。这说明实时视觉生成正在从“生成一个结果”往“改写当前摄像头画面”靠近。这个方向很有想象空间因为它接近直播、视频会议、虚拟摄像头、OBS、短视频拍摄这些真实场景而不是只停留在生成一张图或一段短视频。如果想看一个现在已经能跑起来的形态可以看这个 实时AI换脸预览页。我觉得它值得看不是因为它把所有未来场景都做完了而是它已经把“参考输入 摄像头 实时 AI 输出”这条链路摆到浏览器里了。越实时边界越要说清楚当然这类技术越让人惊讶边界越不能含糊。首先是身份和授权。参考人脸、服装、风格素材都应该来自自己或得到允许的内容。其次是输出范围。如果当前只是浏览器预览就不要暗示它会自动保存、导出或录制直播流。再次是成本实时推理不是一次性生成按秒或按会话计量都需要提前让人知道。这些限制不会削弱技术本身反而会让体验更可信。因为实时换脸已经足够像“魔法”了产品层面更应该把摄像头、参考图、会话、成本和保存范围讲清楚。我现在对这类技术的判断是它已经不是简单的“换一张脸”了而是在把 AI 视频生成推进到实时交互层。哪怕还不完美看到摄像头画面能被模型持续改写本身就已经很有冲击力。