图生视频模型训练数据集
1. 模型总览与训练数据对比1.1 核心对比表模型开发者发布时间参数规模训练数据规模数据来源数据筛选方法字幕生成方法开源程度SVDStability AI2023.11~1.5BLVD: ~577M clips; LVD-F: ~144M clips网络视频多级场景分割 四维评分筛选(CLIP/美学/OCR/光流)CoCa V-BLIP LLM融合开源Wan 2.1阿里巴巴2025.021.3B / 14B~50亿图像 ~12亿视频片段(估计)大规模网络数据八维基本属性 视觉质量聚类 六级运动质量内部VLM密集字幕开源CogVideoX清华/智谱AI2024.082B / 5B~3500万视频片段 20亿图片LAION-5B COYO-700M六类负面标签过滤器 光流/美学评分CogVLM逐帧 → GPT-4/LLaMA2总结开源HunyuanVideo腾讯2024.12~13B数十亿图像-文本对 大规模视频未公开分层阈值筛选(256p→720p) 人工注释SFT结构化JSON字幕(7维度) 14类摄像机运动开源Gen-3 AlphaRunway2024.06未公开未公开YouTube 14个影视资源网站未公开未公开闭源Kling快手2024.06未公开未公开快手平台 AudioSetSNR/MOS/VAD CLAP一致性过滤音频分类 → 大模型融合字幕闭源Open-SoraHPC-AI Tech2024未公开Panda70M(~2100万) Pixart-Alpha(1100万)公开数据集五维评分过滤(美学/运动/模糊/OCR/抖动)LLaVA-Video(256p) Qwen2.5Max(768p) 运动分数开源2. Stable Video Diffusion (SVD)发布时间: 2023年11月开发者: Stability AI架构: Latent Video Diffusion Model论文: Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets (arXiv:2311.15127)数据集之前普遍用的是方法是2D 图像上去训练文生图模型然后插入时间序列层在小的高质量的视频数据集上进行微调。但是存在的问题1使用小视频数据集是不符合目前大数据的趋势的。2目前的视频数据集缺少一个统一的有效的策略去管理。作者本文针对这个问题提出一套比较流程化的有效的视频数据治理的手段。作者提出了一个三步走的步骤1text-to-image pretraining 文生图预训练实际上就是指我们目前已有的文生图的 stable diffusion base model。2video pretraining 文生视频预训练在大规模视频数据上去做预训练。视频预训练完成后能够得到在视频领域的一个很好的 base model这个 base model 会对视频的一些特征具有很好的表征而且对视频文本特征之间的对应关系会有一些认识具有了一些基础的能力。3high-qualtity video finetuning 高质量视频微调base model 有基础能力之后就要把 base model 去应用到各种具体的下游任务中。如果想要做文生视频那么就整理一个文本和视频对的数据集去继续 finetuning 之前视频预训练得到的 base model从而得到一个文生视频的模型。如果想要做图生视频那么就把图像作为控制条件继续 finetuning base model从而得到一个图生视频的模型。如果想控制视频生成的运镜那么就通过 camera motion-specific Lora 的方式在 base model 上 finetuning 出 Lora 来控制视频生成的视角。如果想做多视图的生成就用多视图的数据finetuning base model从而得到一个多视图生成的模型。所以第二步算是一个关键通过大量的数据做视频的预训练这样能让模型具有一个基础的能力。有了这个基础能力之后对于具体的下游任务再去做特异化的 finetuning这样就能得到各种各样的产出而且这些产出的模型在各自的领域都达到了 SOTA 的一个效果其实这也是大数据所带来的一个的优势体现。LVD首先作者是讲了他们的初始数据集的收集称为LVD (large video dataset)包含将近 600M 个视频片段。这个数据集怎么来的最初始去各处去搜集一些没有任何处理的原始数据然后要经过一些过程来得到处理后的 LVD 数据集。首先是 cut detection。什么叫 cut detection这里的 cut 是指生成的视频一般都是连续的可能中间不存在转换比如说突然换一个场景或者说有非常大的变动这种其实是要分割成两段视频去做训练的这样才有利于生成比较一致的视频。所以第一步就是检测这些视频中的cut把它切成更细的clips。关于 cut detection作者对一个基础的 pipeline 还做了一些改进。基础的 pipeline 就是一个视频每连续两帧之间它变化的一个幅度如果变化幅度很大它就认为这里是一个分界线要把它切成两段。但是作者认为这种情况只能去检测出那种瞬间变化的那种场景切换如果是那种渐变效果是检测不出来的。因此作者将这个检测方法做了一下改进改进之后就是一个多级的边界检测apply a cut detection pipeline in a cascaded manner at three different FPS levels。之前可能是连续两帧之间看它变化多大现在每隔几帧去看一下它之间的变化大不大。有不同的间隔模式有可能每隔 5 帧去看一下然后再隔个 10 帧去看一下它之间的变化大不大。类似于这样的一个多级的方式去检测是否存在一些边界。作者把视频分成更细的片段之后用三种不同的方法给这些视频打上文本标注three different synthetic captioning methods。image captioner CoCa基于图像的取视频中的一个中间帧用图像打标的方式去给这个视频添加描述。V-BLIP一种基于整个视频的打标算法考虑视频全局。基于大语言模型 LLM-based把前两种打标的结果去进行一个综合。这样每个视频就会有三个标注经过这两步之后作者就收集了他们的 large video datasets包含了 577 百万的 clips一共是 212 年的视频时间长度。LVD-F在形成 LVD 之后作者经过一些实验发现这个数据集可能还并不是最佳的需要对这个数据集做进一步的清洗让这个数据集更质量更高这样训练出来的这个视频生成模型才会更好。作者接下来就进行了第二个大的步骤得到一个更小的叫做 LVD-F。LVD-F 的数据量差不多是 LVD 的 1/4 左右。这里采取了什么措施作者去通过四个角度去计算了每个视频文本对之间的四个评分分别是:CLIP score是计算视频和它的标注之间的一个匹配程度。aesthetic score评判视频本身的美观程度。OCR detection scoreOCR(optical character recognition) 检测每个视频中文字所占区域的面积大小剔除包含大量书面文字的clips。optic flow score检测光流如果两帧之间的变化越大这个光流得分也会越高用于检测视频的运动变化大小。得到每个视频的四个指标之后通过这四个指标去筛选 LVD 数据集让它更小一点更精细一点。那怎么去筛呢很难人为去定义一个阈值说 CLIP score 高于多少分我认为是 OK 的就把它拿进来这个阈值是多少是需要通过实验去验证的那怎么去做实验呢在附录 E2.2 详细说明怎么去定这个threshold。举例来说首先看这个 aesthetic threshold 的阈值怎么选取为了实验的便捷首先作者先做一个 random simple将原来 600 百万的 LVD 数据集缩小到十百万这样验证的速度会更快因为作者只是为了得到一个阈值并不是为了训练一个非常好的模型那为了得到阈值它就在一个小一点的数据集上去做实验。然后怎么去做实验就是在这个小的数据集的基础上去建立 4 个不同大小的数据。怎么去建立 4 个大小不同数据蓝色表示保持 LVD-10M 这个数据集不变橙色表示将 aesthetic score 低于 0.125 的那部分数据丢掉只使用剩下的一些部分。依此类推这样就构成了四个不同大小的子集然后在这四个不同大小子集上去 finetuning 模型然后去生成视频让人去给这四个模型生成的视频打分。这里有三个指标一个是 prompt alignment指看四个模型之间文本和视频的匹配程度。第二个 Quality指视频本身的质量。第三个 Aggregated指综合前两项的综合得分。分数越高说明取这个阈值越好。这里绿色柱子综合得分最高绿色对应的是0.25所以作者选择的 threshold 就是0.25即把 aesthetic score 低于 0.25 的那些视频都从 LVD 数据集里去删掉这就是作者所说的数据治理那其他的指标也是以此类推。比如 clip score 最好的指标是0.5也就是 clip score 低于 0.5 的那些视频都丢掉最后把这些所有视频取一个交集就是说每一个指标都会丢掉一部分数据然后最后取一个所有指标的一个交集这样就得到最终的 LVD-F 数据集就是作者治理之后的数据集。第2幅图的 Motion 指之前说的那个光流根据光流做筛选。第1幅图中的 caption strategy 不是筛选指标而是对比不同的打标方式所带来的模型效果的影响但是作者认为现在一个通常的训练方式都是用尽可能不一样的 caption 去训练模型也就是说一个视频可能会对应多个caption这个是合理的即蓝色的 Coca 这种打标方式效果是最好的。作者去调配了这三种不同的打标在训练过程中所可能出现的概率50% 的情况下是 Coca 打的标签去作为数据的输入25% 的和另外 25% 的情况是另外两种打标方式作为模型标签的输入。3. Wan3.1 模型概述发布时间: 2025年2月开发者: 阿里巴巴Wan团队架构: Diffusion Transformer (DiT)参数规模: 1.3B轻量版和14B完整版论文: Wan: Open and Advanced Large-Scale Video Generative Models (arXiv:2503.20314)3.2 训练数据Wan2.1的整体数据是这样构建的。预训练数据主要从三个维度进行清洗和挑选包括基本维度、视觉质量、动作质量。基本属性光基本维度包含了大概八个方向确实很细节1文本覆盖率轻量OCR检测视频和图像的文本覆盖率排除含有过多文字的视频和图像2美学得分LAION-5B分类器过滤掉低分数据3安全分数通过训练一个安全评估模型来计算NSFW分数去过滤掉不当内容4水印、黑边裁剪5过曝利用过曝和不过曝的数据过滤掉过曝的视频和图像6合成图像/视频过滤通过训练一个合成内容检测器去过滤合成的视频和图像7模糊检测训练一个模型对样本进行量化模糊评分去除视觉模糊内容8时长过滤时长低于4s的内容视觉质量通过聚类划分100个子集每个子集随机采样数据并且进行人工的打分根据视觉质量打分1-5分然后用这些采样数据对整个数据进行打分。运动质量一共六个运动质量等级5-6的数据是完全排除4优先级低3需降低采样率1-2保留1最佳运动极佳的运动布局、视角和振幅以及干净、流畅的运动或动作2中等运动明显的运动但可能存在一些小问题如多主体或部分遮挡3聊天和访谈类视频运动信息极少但质量很高。 需要单独识别这些视频并降低其采样率4镜头驱动的运动 以摄像机运动为主如航拍主体运动极少与静态图像相似这些图像的采样优先级要低得多5低质量运动主体过多、严重遮挡或主体不清晰的视频如拥挤的街景6摇晃的摄像机镜头 摄影机明显晃动的业余录像、通常会造成运动模糊和模糊的前景-背景区分。额外处理步骤在纯白背景上渲染汉字合成了数以百万计的含文字图像收集了大量包含文本的图像。 采用多种 OCR 模型来准确识别图像和视频中的中英文文本。然后将这些提取的文本内容输入Qwen2-VL生成图像的自然描述确保尽可能包含精确的文本内容。预训练阶段整合合成数据和真实数据可以有效地生成视频中的罕见词汇。Post-training的数据在Pre-training的数据上进一步进行了细化。整个过程包含了人工和模型的共同的处理。图像数据首先根据专家模型预测的分数选出前20%的图像除此之外还考虑了风格和类别等因素以确保数据分布的多样性。然后是人工从不同类别和数据源中收集高质量数据报告写的数百万工作量还是很巨大的。视频数据采用与图像处理类似的策略来收集首先使用视觉质量分类器从候选数据集中筛选出一些排名靠前的视频然后还会根据运动质量分类器选择数百万个以简单动作为特征的视频和以复杂动作为特征的视频所有视频的选择都遵循强调类别平衡和高度多样性的策略。 同时从 12 个主要类别中选择数据科技、动物、艺术、人类、车辆以增强模型对常用类别的生成能力。密集video-caption收集过程 这个过程主要是根据原始的caption对这个caption进行扩充或者重写。wan2.1用了一个内部模型为数据集中的每张图片和视频生成密集的字幕。这个模型的训练用了各种开源视觉语言数据集和额外收集的数据。这一步非常重要很大程度决定了模型的指令遵循的能力开源dataset处理过程这部分数据集不仅包括标题数据集还包括侧重于视觉内容的视觉问答数据集如动作、计数和 OCR并且还会用内部模型根据用户指令生成特定样式或内容的字幕还收集了纯文本指令数据以增强模型遵循指令的能力。内部dataset处理过程这部分还挺复杂的主要是为了让模型的各种场景下的能力能够有所提升。4. CogVideoX发布时间: 2024年8月开发者: 清华大学/智谱AI (THUDM)架构: Expert Transformer (3D full attention)参数规模: 2B和5B论文: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer (arXiv:2408.06072)训练数据集我们构建了一个包含相对高质量视频片段和文本描述的集合这些片段通过视频过滤器和重字幕模型处理。经过筛选后大约剩下3500万个单镜头片段每个片段平均长约6秒。此外我们使用了来自LAION-5BSchuhmann等人2022和COYO-700MByeon等人2022数据集中的20亿张图片根据美学评分进行筛选以辅助训练。视频过滤:视频生成模型应该捕捉世界的动态本质。然而原始视频数据由于两个内在原因往往包含显著噪声首先在视频创建过程中的人工编辑可能会扭曲真实的动态信息其次由于拍摄问题如相机抖动或使用次等设备视频质量可能受到影响。除了视频本身的内在质量外我们也考虑视频数据对模型训练的支持程度。那些动态信息极少或在动态方面缺乏连贯性的视频被认为是不利的。因此我们制定了一套负面标签包括编辑经历了明显人工处理的视频例如重新编辑和特效应用这会损害视觉完整性。 动态连贯性缺乏过渡缺乏连贯运动的视频段常见于人工拼接视频或由静态图像编辑而成的视频。 低质量拍摄不佳的视频具有不清晰的视觉效果或过度的相机抖动。 讲座类型主要关注一个人连续讲话且有效动作最小的视频如教育内容、讲座和直播讨论。 文本主导含有大量可见文本或主要专注于文本内容的视频。 噪声截图直接从手机或电脑屏幕捕获的视频通常质量较差。我们首先抽取20,000个视频并根据其质量为每个视频标记为正面或负面。利用这些标注我们基于Video-LLaMAZhang等人2023训练了6个过滤器来筛除低质量的视频数据。负面标签的例子及分类器在测试集上的性能可以在附录J中找到。此外我们计算所有训练视频的光流得分和图像美学得分并在训练期间动态调整它们的阈值以确保生成视频的动态和美学质量。视频字幕生成视频-文本对对于文本到视频生成模型的训练至关重要。然而大多数视频数据并不附带相应的描述性文本。因此有必要为视频数据标记全面的文本描述。目前已经有一些视频字幕数据集可用如Panda70MChen等人2024、COCO CaptionLin等人2014和WebVidBain等人2021b。然而这些数据集中的字幕通常非常简短无法全面描述视频的内容。为了生成高质量的视频字幕数据我们建立了一个密集型视频字幕数据生成流水线详细情况如图7所示。主要思路是借助图像字幕的帮助来生成视频字幕。首先我们使用Chen等人2024提出的视频字幕模型为视频生成简短的字幕。然后我们采用CogView3Zheng等人2024中使用的图像重字幕模型CogVLMWang等人2023为每个帧创建密集的图像字幕。随后我们使用GPT-4总结所有图像字幕以生成最终的视频字幕。为了加速从图像字幕到视频字幕的生成过程我们通过GPT-4Achiam等人2023生成的摘要数据对LLaMA2Touvron等人2023进行了微调从而实现了大规模视频字幕数据的生成。有关视频字幕数据生成过程的更多细节请参见附录F。为进一步加速视频重字幕化我们还基于CogVLM2-VideoHong等人2024和Llama3AIMeta2024对一个端到端的视频理解模型CogVLM2-Caption1进行了微调使用上述流水线生成的密集字幕数据。这种端到端的CogVLM2-Caption模型生成的视频字幕示例见图15和附录G。CogVLM2-Caption可以提供详细的视频内容和对象变化描述。有趣的是我们发现可以通过连接CogVideoX和CogVLM2-Caption实现视频到视频的生成详情见附录H。5. HunyuanVideo (Tencent)5.1 模型概述发布时间: 2024年12月开发者: 腾讯混元团队架构: Dual-stream to Single-stream Transformer参数规模: 约130亿13B论文: HunyuanVideo: A Systematic Framework For Large Video Generative Models5.2 训练数据我们采用图像-视频联合训练策略。 视频被细致地分为五个不同组而图片又分为两组每组根据各自训练流程的具体需求量身定制。本节主要探讨视频数据策展的复杂性。我们的数据采集流程严格遵循《通用数据保护条例》GDPR中的原则[39]框架。此外我们还采用数据综合和隐私计算等先进技术确保符合这些严格标准。我们的原始数据库最初包含涵盖广泛领域的视频包括人物、动物、植物、景观、车辆、物体、建筑和动画。每个视频都采用了一套基本门槛包括最短时长要求。此外部分数据基于更严格的标准收集如空间质量、特定宽高比的遵守以及构图、色彩和曝光的专业标准。这些严格的标准确保我们的视频具备技术质量和美学吸引力。我们通过实验验证纳入高质量数据对于显著提升模型性能至关重要。图4我们的分层数据过滤流程。我们采用多种筛选器进行数据过滤并逐步提高阈值构建4个训练数据集即256p、360p、540p和720p最终SFT数据集则通过人工注释构建。本图重点介绍了每个阶段使用的一些最重要的过滤器。每个阶段都会删除大量数据从前一阶段数据的一半到五分之一不等。 这里灰色条表示每个滤波器过滤掉的数据量彩色条表示各阶段剩余数据量。数据过滤我们来自不同来源的原始数据持续时间和质量水平各不相同。为此我们采用一系列技术对原始数据进行预处理。首先我们使用 PySceneDetect[19]将原始视频拆分为单次视频片段。接下来我们使用OpenCV中的拉普拉斯算子[18]以识别清晰的帧作为每个视频片段的起始帧。利用内部的VideoCLIP模型我们计算这些视频片段的嵌入。这些嵌入有两个目的i基于嵌入的余弦距离对相似剪辑进行去重;ii 我们应用k-均值[59]以获得1万个概念重心用于概念重采样和平衡。为了持续提升视频美感、动态和概念范围我们实施了分层数据过滤流水线来构建训练数据集如图4所示。该流程包含多种过滤器帮助我们从不同角度筛选数据接下来将介绍这些内容。我们雇佣多佛[85]从美学和技术角度评估视频剪辑的视觉美学。此外我们还训练模型以确定清晰度并消除带有视觉模糊的视频片段。通过利用估计的光流预测视频的运动速度[18]我们过滤掉静态或慢动作视频。我们结合了PySceneDetect的结果[19]以及Transnet v2[76]获取现场边界信息。我们使用内部OCR模型来去除带有过多文字的视频片段并定位和裁剪字幕。我们还开发YOLOX[24]——类似于用于检测和去除某些遮挡或敏感信息如水印、边框和标志的视觉模型。为了评估这些滤波器的有效性我们使用较小的HunyuanVideo模型进行简单实验并观察性能变化。这些实验结果在指导我们构建数据过滤流程方面起着重要作用接下来将介绍该流程。我们针对视频数据的分层数据过滤流程产生五个训练数据集对应五个训练阶段第4.5节。这些数据集除最后一个微调数据集外是通过逐步提升上述过滤器的阈值来精心整理的。视频空间分辨率从256逐步提升到1280在阈值调整过程中我们会在不同阶段对滤波器施加不同程度的严格度见图4。接下来将描述用于微调的最后一个数据集。为了提升模型在最终阶段第4.7节的性能我们构建了一个微调数据集内容包括100万个样本。该数据集通过人工注释精心整理。注释员的任务是识别具有高度视觉美感和引人入胜内容动态的视频片段。每个视频片段的评估基于两个视角i分解后的美学视角包括色彩和谐、光照、物体强调和空间布局;ii 分解后的运动视图涵盖运动速度、动作完整性和运动模糊。最后我们的微调数据集包括具有复杂动态细节的视觉美观视频片段。我们还通过重复使用大部分滤镜排除与运动相关的滤镜建立了图像的层级数据过滤流程。同样我们通过逐步提高对数十亿图像-文本对的图像池施加的过滤阈值构建了两个图像训练数据集。 第一个数据集包含数十亿个样本用于文本到图像的初始预训练阶段。第二个数据集包含数亿个样本用于文本转图像的第二阶段预训练。数据注释结构化字幕。研究显示[7,4]字幕的精确性和全面性在提升生成模型的提示跟随能力和输出质量方面起着关键作用。大多数早期工作主要集中在提供简短的说明[14,50]或是密集的说明文字[93,9,10].然而这些方法也存在不足存在信息不完整、冗余的讨论和不准确。为了实现更全面、更丰富的信息密度和准确性我们开发并实施了内部视觉语言模型VLM用于生成图像和视频的结构化字幕。这些结构化字幕以JSON格式化提供多维的描述性信息包括简短描述捕捉场景的主要内容。密集描述详细描述场景内容尤其是场景转换和与视觉内容整合的镜头运动例如镜头跟随某个主题。背景描述主题所在的环境。风格描述视频的风格如纪录片、电影、现实主义或科幻。镜头类型识别突出或突出特定视觉内容的视频类型如航拍、特写、中景或远景。光线描述视频的光线条件。气围传达视频的氛围如温馨、紧张或神秘。此外我们还扩展了JSON结构纳入了更多元数据衍生元素包括源标签、质量标签以及来自图片和视频元信息的其他相关标签。通过实施精心设计的脱落机制结合置换和组合策略我们通过为每张图片和视频汇集这些多维描述合成长度和模式多样的字幕旨在提升生成模型的泛化能力并防止过拟合。我们利用该说明工具为训练数据集中的所有图片和视频提供结构化的说明。摄像机运动类型。我们还训练了一个摄像机运动分类器能够预测14种不同的摄像机运动类型包括放大、缩小、向上、向下、左移、右移、向上倾斜、向下倾斜、左倾斜、右倾斜、绕左转、绕右转、静态拍摄和手持拍摄。高置信度的相机运动预测被集成到JSON格式的结构化字幕中以实现生成模型的相机运动控制能力。6. Runway Gen-3 Alpha6.1 模型概述发布时间: 2024年6月开发者: Runway能力: 文本到视频、图像到视频生成特点: 显著提升的视频生成质量、时间连贯性和提示词遵循度6.2 训练数据数据来源Runway 在 2024 年 6 月发布了 Gen-3 视频生成模型 效果震撼整个视频生成领域 。这家毫无疑问的视频生成赛道头部创业公司刚刚被曝出一份内部文件。一个简单的 Excel 表格巨详细地罗列着 Runway 动员全公司上下在互联网上收集的高质量视频资源累积条目数万条。其中 YouTube 上的视频占据了一大部分光是「推荐油管频道」就有 3968 个。还有 14 个在线影视资源网站。7. Kling (快手)7.1 模型概述发布时间: 2024年6月1.0版本开发者: 快手科技能力: 文本到视频、图像到视频生成特点: 最长2分钟1080p分辨率7.2 训练数据图4音频和视频数据经过预处理和质量筛选以获得高质量的单一事件音频和视频片段。随后通过时间增强生成合成的多事件音频样本并使用大型模型生成并提取音频和视频的关键词和分类标题。最后将各种标题信息结合起来生成最终的训练标题。数据收集基于AudioSet[16]本体层次结构选择前三层类别构建标签集形成系统化关键词库指导视频平台检索。通过元数据筛选确保语义相关性并补充人工精选资源和开源数据集样本以增强长尾覆盖。数据清洗保留分辨率720P且字幕占比低的视频音频统一转换为44kHz/16bit立体声WAV格式。基于信噪比(SNR)、MOS评分、削波率和音频带宽进行质量过滤使用语音活动检测(VAD)选择静音比0.2的音频。通过CLAP模型计算音频-文本标签一致性保留高相关数据最终将长视频/音频分割为10秒片段。数据增强对短数据进行拼接获得10秒时长样本以提升动态视觉响应能力。引入时序数据增强[54]按不同时序规则拼接单事件视频/音频片段生成多事件数据并通过合并原始文本描述获得对应字幕。从音频中提取声源、对象、场景等关键信息结合大模型将非结构化原文转为语义完整的自然语言描述。字幕提取使用音频分类模型[81]将数据分为音效、音乐、语音和歌唱四类分别采用对应的大模型从音频提取文本描述同时从视频提取视觉描述。将音频描述、视频描述和增强文本输入大模型获得最终融合字幕[2]。训练数据Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation如图5所示我们的训练集包含文本-音频、视频-音频和视频-文本-音频三类配对数据覆盖自然环境、人类活动、动物声音等广泛声学场景为学习多样化生成模式奠定基础。图5训练集中声音事件的类别分布。真实世界声学事件的广泛覆盖确保了训练开放领域声音生成模型所需的多样性和泛化能力。7.3 基准数据集如表1所示现有音视频数据集存在共同缺陷缺乏对音频和视频模态的文本描述。为此我们推出首个支持视频、视频字幕、音频、音频字幕和声音事件标签的多模态基准Kling-Audio-Eval其构建过程如下从现有音效库选取覆盖所有一二级类别的1000个三级标签5.1节经严格数据清洗5.2节后筛选3万个带预生成字幕和声音事件标签的样本进行人工核验标注规范包括字幕修正核查并修正预生成音视频字幕模态独立确保音视频字幕标注互不依赖标签验证核对实际内容与预设标签的匹配性有效样本筛选遵循六项标准如前景音频不含人声、音效须源自可见对象等最终形成包含20,935个高质量样本的测试集原始1000个三级标签细化为1919个类别分布如图6所示。8. Open-Sora8.1 模型概述开发者: HPC-AI Tech / 北京大学架构: 3D full attention Transformer能力: 文本到视频、图像到视频生成开源: 完全开源8.2 训练数据我们的数据目标是构建一个层级式数据金字塔以满足渐进式培训流程的需求。为此我们开发了一组彼此独立的过滤器旨在应对各种类型的数据检测。通过逐步加强过滤度我们可以获得更小尺寸但纯度和质量更高的子集。为完整性我们还对收集的视频数据的一些关键属性进行了统计分析包括附录A中的视觉和文本属性分布。数据过滤图2分层数据过滤流水线。原始视频首先被转换成可训练的视频片段。然后我们应用各种互补分数过滤器获得每个训练阶段的数据子集。分层数据过滤系统如图2所示。我们先将原始视频预处理成视频片段然后逐步应用一系列从宽松到严格的过滤器构建结构化数据金字塔。预处理预处理阶段将原始视频转换为适合培训的短片。在此阶段我们首先剔除带有外部属性的损坏文件和原始视频。具体来说我们过滤掉时长少于2秒、每像素比特bpp低于0.02、帧率fps低于16、宽高比超出范围[1/3 3]的视频以及带有“受限基线”配置文件的视频。然后我们将原始视频切割成短而连续的片段基于FFmpeg中libavfilter计算的场景评分FFmpeg 开发者2023).最后我们处理获得的连续剪辑确保输出剪辑符合特定的格式约束帧率fps低于30较长尺寸不超过1080像素以及H.264编解码器。此外通过裁剪镜头黑色边框被去除。最后我们将超过8秒的镜头分为多个8秒的片段而少于2秒的镜头则被淘汰。评分过滤为了解决原始数据中的各种缺陷我们开发了一系列互补滤镜包括1美学评分;2运动评分;3模糊检测;4光学字符识别OCR;5摄像机抖动检测每个滤镜针对数据质量的特定方面。 这些过滤器协同工作形成一个全面且稳健的净化系统。 通常每个滤波器通过根据其相应标准分配评分来评估样本过滤强度由阈值控制。我们在附录B中介绍了所有基于分数的滤波器。数据注释在字幕方面我们采用开源的视觉语言模型LLaVA-Video。张等人2024)用于注释256px视频。我们提示模型聚焦六个方面以获得详细且全面的说明分别是1主要主题;2受试者的动作;3背景和环境;4光照条件和氛围;5摄像机运动;6视频风格如写实、电影感、3D、动画等。对于高分辨率768px训练数据我们采用更强的专有模型Qwen 2.5 Max团队2024)以生成更准确且语义一致的字幕。我们发现Qwen 2.5 Max产生更少的幻觉且语义一致性优于LLaVA-Video。无论是训练还是推理我们都会在字幕后加上运动分数详见第5.3节。Open-Sora-PlanOpen-Sora-Plan 数据管理管道我们从Pixart-Alpha获得了1100万对图像-文本[chen2023pixartalpha]字幕由LLaVA生成[刘2024视觉].此外我们还使用OCR数据集Anytext-3M[Tuo2023anytext任意文本]将每张图像与对应的OCR字符配对。我们通过筛选Anytext-3M的英文数据约占整个数据集的一半。自SAM以来[基里洛夫2023段]数据如Pixart-Alpha所用包括模糊的面部我们从Laion-5B中选取了16万张高质量图像[舒曼2022莱昂]提升生成过程中与人相关的内容质量。选拔标准包括高分辨率、高美学评分、无水印以及图像中人物的出现。视频方面我们从Panda70M下载了大约2100万个横向视频[chen2024panda]使用我们的过滤管道。对于垂直数据我们从VIDAL获得了大约300万的垂直视频[ZHU2023语言绑定]来源于YouTube Shorts。此外我们还从CC0授权的网站抓取高质量视频如Mixkit、Pexels和Pixabay。这些开源视频网站不包含内容相关的水印。9. 训练数据构建方法论总结9.1 数据来源分类数据来源 ├── 公开数据集 │ ├── LAION-5B (58.5亿图像-文本对) │ ├── WebVid-10M (1070万视频-文本对) │ ├── Panda-70M (7080万视频-文本对) │ ├── HD-VILA-100M (1亿视频-文本对) │ ├── InternVid (2.34亿视频-文本对) │ ├── HowTo100M (1.36亿视频片段) │ └── Kinetics-400/700 (30万视频) │ ├── 授权数据 │ ├── Shutterstock (图像、视频、3D资产) │ ├── Adobe Stock │ └── 其他商业媒体库 │ ├── 平台数据 │ ├── YouTube │ ├── 抖音/TikTok (字节跳动) │ ├── 快手平台 │ └── 腾讯视频等 │ ├── 网络爬取 │ ├── 股票视频网站 (Pexels, Pixabay等) │ ├── 社交媒体平台 │ └── 其他公开视频来源 │ └── 合成/生成数据 ├── AI生成的视频 └── CGI/3D渲染内容9.2 数据筛选与清洗流程各模型普遍采用多维度、分层级的数据筛选策略核心方法包括1. 场景分割与预处理使用PySceneDetect、FFmpeg场景评分等工具将长视频分割为单场景片段剔除时长过短2s、帧率过低16fps、宽高比异常的视频裁剪黑边、去除水印和字幕区域2. 多维度质量评分评分维度评估内容典型模型美学评分色彩、构图、曝光等视觉质量SVD, Wan, HunyuanVideo运动评分光流分析、运动幅度与连贯性SVD, CogVideoX, Open-Sora文本覆盖率OCR检测视频中文字区域占比Wan, HunyuanVideo模糊检测拉普拉斯算子等方法检测清晰度HunyuanVideo, Open-Sora摄像机抖动检测拍摄稳定性Open-Sora安全评分NSFW内容过滤Wan合成内容检测识别AI生成或CGI内容Wan3. 文本-视觉对齐评分CLIP Score衡量视频与文本描述的语义匹配度SVD实验表明CLIP Score阈值0.5时效果最佳4. 分层级阈值筛选SVD提出的数据治理方法论最具代表性在小规模子集上实验不同阈值通过人工评估确定最优筛选标准HunyuanVideo采用渐进式阈值调整构建256p→360p→540p→720p的分层数据集各过滤器取交集确保数据同时满足多维度质量要求9.3 数据标注与字幕生成视频字幕质量直接决定模型的指令遵循能力和生成质量各模型普遍采用多层级标注策略1. 图像级标注CoCa取视频中间帧进行图像描述CogVLM/CogVLM2生成密集的逐帧图像字幕LLaVA-Video开源视觉语言模型聚焦六个方面主题、动作、背景、光照、镜头运动、风格2. 视频级标注V-BLIP基于整个视频的全局描述Video-LLaMA视频理解模型端到端视频字幕模型如CogVLM2-Caption3. 结构化字幕HunyuanVideo提出JSON格式的结构化字幕包含7个维度简短描述、密集描述、背景、风格、镜头类型、光线、气氛通过脱落机制dropout和组合策略合成多样化的字幕防止过拟合4. 多模型融合CogVideoX先用图像字幕模型生成逐帧描述再用GPT-4/LLaMA2总结为视频字幕Kling分别提取音频描述和视频描述再融合生成最终字幕SVD综合CoCa、V-BLIP和LLM三种打标结果按50%/25%/25%概率混合使用5. 运动信息编码Open-Sora在字幕后附加运动分数增强模型对动态信息的理解HunyuanVideo训练14类摄像机运动分类器将预测结果集成到结构化字幕中9.4 多阶段训练策略主流模型普遍采用渐进式多阶段训练核心思路是从通用基础能力逐步过渡到高质量特定任务1. SVD的三阶段范式文生图预训练 → 大规模视频预训练(LVD-F) → 高质量视频微调第二步是关键通过海量视频数据赋予模型基础的视频理解能力微调阶段可根据下游任务灵活调整文生视频、图生视频、运镜控制、多视图生成等2. HunyuanVideo的五阶段训练256p低分辨率 → 360p → 540p → 720p → SFT微调(100万人工标注样本)每个阶段逐步提高分辨率和数据质量阈值最终SFT阶段由人工注释构建筛选具有高度视觉美感和动态表现的视频3. 图像-视频联合训练SVD先训练文生图模型再插入时间层做视频预训练HunyuanVideo图像和视频联合训练图像数据分两阶段数十亿→数亿Open-Sora使用1100万图像-文本对辅助训练4. 渐进式分辨率提升从低分辨率256p开始训练逐步提升至高分辨率720p/1080p