自然语言指令驱动视频编辑现状自然语言指令驱动的视频编辑是当前生成式 AI 的重要方向但现有工作普遍只处理纯视觉维度。InsViE - 1M、Ditto - 1M、OpenVE - 3M 等主流大规模数据集均不涉及音频编辑少数尝试联合音视频编辑的工作AVED、AVI - Edit也依赖受限范式与真实场景中用户直接给出自然语言指令的需求存在显著落差。与此同时评测体系同样缺位视频编辑 benchmark 忽略音频维度音频生成 benchmark 不评测指令一致性两者间没有统一标准。技术层面问题及解决方案在技术层面联合音视频编辑要求跨模态的时空与语义严格同步通常需要将多个专用模型级联但这带来跨阶段误差累积的问题已有“human - in - the - loop”流水线虽可缓解却难以在保证质量的前提下规模化扩展。针对上述问题浙江大学、腾讯团队及其合作者提出了 JAVEdit - 100k 数据集、配套评测基准 JAVEditBench以及基线模型 JAVEdit。研究结果显示JAVEdit 在 JAVEditBench 的 6 项指标中拿下 5 项第一音视频同步性相较最强级联方案提升 26%。研究团队观点研究团队表示该工作填补了「自然语言指令驱动 联合音视频编辑」这一任务形态在数据集与评测两个维度的空白是该领域首个大规模高质量资源。Agent - in - the - loop 质控框架可大幅减少人工介入合格率从 36% 提升至 83%为未来更大规模的多模态编辑数据构建提供可复用的自动化范式。此外实验结果揭示了音频基础模型是当前多模态生态的“木桶短板”明确指出领域亟需一个统一支持多种参考 - 条件音频编辑能力的音频基础模型。研究方法1. 数据构造流水线据论文描述源视频经过预处理 → 指令生成 → 类别专用编辑 → Agent - in - the - loop 质控四阶段最终产出约 100K 高质量联合音视频编辑三元组。预处理阶段从 OpenHumanVid、VIDGEN - 1M、VGGSound 三个开源源头汇聚原始素材先用 LatentSync SyncNet 过滤口型与音轨错位片段、再用 Koala - 36M VTSS 做视觉美学筛选随后调用 Qwen3 - Omni 生成视觉/声学/时序三类 dense caption并通过 SAM - Audio 把每条音频拆解为人声、音乐、环境音三路独立流。指令生成阶段由 Qwen3 - 235B 先判定每条视频适合哪些编辑任务再结合人工修订的 Topic Vocabulary Bank 以 least - frequently - used 采样避免主题失衡最后同时产出语义自洽的视觉 音频成对指令保证跨模态指令彼此呼应。类别专用编辑阶段针对 5 类任务设计了 4 条专用管线。Subject Editing 由 HunyuanImage - 3.0 Instruct 接 Wan2.2 - Animate 完成视觉换主体、DreamVoice 做声音克隆Background Editing 走 HunyuanImage - 3.0 Instruct FFP - 300K 路线、HunyuanVideo - Foley 配合 SAM - Audio 重建环境音Subject Removal 双路并择优MiniMax - Remover SAM3 与 HunyuanImage FFP - 300KSpeech Editing 用 Qwen3 - TTS 零样本克隆后交 LatentSync 对齐嘴型Subject Addition 直接复用高质量 Subject Removal 的数据对并反转输入输出。Agent - in - the - loop 质控阶段对候选数据闭环运行「检测 → 记录 → 修复 → 复检」把容易级联放大的局部失误就地拦截。2. Agent - in - the - loop 质控框架质控按三级分类处理L1 系统级模板/逻辑层面批量缺陷改代码、并重跑全批、L2 模块级单个模块参数失当仅调该模块重跑、L3 实例级偶发瑕疵预算内重试或过滤。经 3 轮迭代1K 子集合格率从 36% → 83%。InspectorGemini对小批量数据做高保真审查并产出结构化质量报告OrchestratorClaude负责分类失败、改写流水线代码、调参、协调重试并把验证有效的修复方案存入 Problem Pattern Library 供跨管线复用。3. 评测基准 JAVEditBench现有视频编辑 benchmark 均只评测视觉流没有任何机制衡量音频轨道是否被正确修。为此研究团队构建了 JAVEditBench人工精选 150 条多样性源视频人工审核全部编辑指令并设计跨 5 维的 6 项指标——以 VTSS、UTMOSv2、SyncNet 覆盖信号层面的视觉质量、音频质量与音视频同步以 Qwen3 - Omni 覆盖语义层面的 Instruction Compliance、Video Fidelity 与整体 AV Quality。经 5 名专业标注员在 60 条视频上的两两偏好实验验证6 项指标与人类偏好的 Spearman 相关系数均达 ρ ≥ 0.80。4. 基线模型 JAVEditJAVEdit 将 LTX - 2.3 改造为参考条件去噪模型参考视频、音频与目标在序列维拼接参考位置赋 σ 0、目标位置赋 σ 0二者在 RoPE 中共享坐标系以建立精确的时空对应仅在目标位置计算 loss并用 LoRArank 128作用于注意力与 FFN在 JAVEdit - 100k 上微调。研究结果1. 数据集规模最终 JAVEdit - 100k 包含 103K 条高质量编辑三元组5 类任务分布均衡Speech Editing 覆盖 32 个主题域统一规格 1280×720、121 帧、25 FPS。涵盖任务分布、关键词频率、指令长度、SyncNet/VTSS 分布、按任务音频组成、Speech Editing 主题分布等均衡性证据。JAVEdit - 100k 是唯一同时具备「音频 指令 智能体质控」三项能力的数据集。2. 定量比较JAVEdit 在 6 项指标中拿下 5 项第一相对 AVED 与 AVI - Edit 在 Instruction Compliance 与 AV Quality 大幅领先相对最强级联方案在 AV Sync 取得 26% 相对增益AVI - Edit 仅在 Visual Quality 略胜得益于显式分割掩膜对编辑区域的强约束。3. 定性比较AVED 与 AVI - Edit 常出现过度平滑或语义错位Sequential 视觉尚可但配音错位明显JAVEdit 在视觉一致性、指令忠实度与跨模态时序同步性上整体最稳定。4. 消融实验5K→15K→100K 性能持续提升同规模下移除 Agent QC6 项指标全面下滑印证数量与质量不可互相替代。不足与未来方向当前工作仍存在三点局限值得后续深入。第一数据集聚焦人物中心场景开放域泛化能力有待验证未来需扩展至更广泛的环境音、场景与主体类别。第二复杂指令的成功率仍受底层基础模型能力上界限制对接更强的视频与音频生成基础模型是提升上限的直接路径。第三当前模型主要由文本指令驱动引入参考图作为额外条件将支持「以图指示外观/风格」的更直观编辑范式进一步降低使用门槛并提升可控性。实验同时揭示了一个更深层的生态问题现有音频大模型对参考 - 条件下的生成与编辑支持相当有限没有任何单一模型能同时胜任“保持节奏的仅音色编辑”与“保持音色的仅内容编辑”这两类相反需求领域亟需一个统一支持多种参考 - 条件音频编辑能力的音频基础模型。