LTX-2 是由 Lightricks 开发的首个基于 DiT扩散变换器架构的音视频基础模型能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同LTX-2 将两者深度融合实现真正的音画同步生成。模型文件说明本应用首次使用某功能时会按需自动下载对应模型请确保网络畅通或提前将网盘内模型文件下载到项目文件夹内。模型保存在项目根目录的checkpoints/文件夹Gemma 文本编码器保存在gemma/文件夹。模型文件用途大小约ltx-2.3-22b-dev.safetensors开发版主模型画质最佳~44 GBltx-2.3-22b-distilled-1.1.safetensors蒸馏版主模型速度最快~44 GBltx-2.3-spatial-upscaler-x2-1.1.safetensors2× 空间上采样器~1 GBltx-2.3-22b-distilled-lora-384-1.1.safetensors蒸馏 LoRA辅助两阶段生成~7GBgemma-3-12b-it-qat-q4_0-unquantized完整目录文本编码器~22.7 GBLTX2.3整合包软件功能介绍八大功能详解1. 两阶段高清生成推荐适用场景追求最佳画质的正式出片。工作原理先用开发版主模型生成低分辨率草图再通过 2× 空间上采样器将分辨率翻倍兼顾内容质量与细节清晰度。所需模型ltx-2.3-22b-devspatial-upscaler-x2distilled-lora Gemma使用步骤切换到「两阶段高清生成」Tab在「提示词与基本参数」中填写提示词设置尺寸和帧数调整「蒸馏 LoRA 强度」默认 1.0范围 0~2过高可能过度锐化点击「开始生成」注意事项生成时间较长适合最终出片而非快速预览建议推理步数设置为 20~402. 蒸馏模型快速生成适用场景对速度要求极高的场景或显存有限的环境。工作原理使用经过知识蒸馏的模型仅需8 步固定 sigma 推理即可生成视频配合空间上采样器输出。所需模型ltx-2.3-22b-distilledspatial-upscaler-x2 Gemma使用步骤切换到「蒸馏模型快速生成」Tab填写提示词设置参数点击「开始生成」注意事项推理步数固定为 8 步修改「推理步数」参数对此模式无效速度最快但画质和细节丰富度略低于两阶段高清此模式不使用蒸馏 LoRA无需设置「蒸馏 LoRA 强度」3. 图像视频转换适用场景基于参考图像或参考视频生成风格一致、动作受控的新视频IC-LoRA。所需模型ltx-2.3-22b-distilledspatial-upscaler-x2 GemmaTab 内专属参数参数说明参考视频文件上传一个或多个参考视频作为条件引导生成参考视频强度每个参考视频的影响强度0~1逗号分隔如0.8,0.6跳过第二阶段上采样勾选后跳过高分辨率阶段速度更快但分辨率不翻倍注意力强度控制参考视频的注意力影响程度0.0~1.0越大越贴近参考内容遮罩视频可选上传遮罩视频白色区域受参考条件影响黑色区域自由生成使用步骤上传参考视频支持多个设置每个视频的强度如1.0或0.8,0.6在「图像条件」Accordion 中上传参考图像可选填写描述目标视频内容的提示词点击「开始生成」注意事项参考视频数量与强度值数量需对应若值少于文件数最后一个值自动补全遮罩视频尺寸会自动缩放为生成尺寸的一半4. 关键帧插值适用场景给定若干关键帧图像生成它们之间平滑过渡的视频片段。所需模型ltx-2.3-22b-devspatial-upscaler-x2distilled-lora Gemma使用步骤切换到「关键帧插值」Tab展开下方「图像条件可选」Accordion上传多张关键帧图像在「帧索引」中填写每张图对应的帧号如0,16,32帧号从 0 开始间隔表示插值帧数在「强度」中填写各关键帧的影响强度如1.0,1.0,1.0填写描述整体动作/场景的提示词确保「帧数」≥ 最大帧索引 1点击「开始生成」注意事项关键帧数量、帧索引数量、强度值数量需一致第一帧索引通常设为0最后一帧索引设为num_frames - 1蒸馏 LoRA 强度影响插值的平滑程度推荐保持默认值 1.05. 音频驱动视频生成适用场景以音乐或语音为驱动生成与音频节奏同步的视频内容。所需模型ltx-2.3-22b-devspatial-upscaler-x2distilled-lora GemmaTab 内专属参数参数说明音频文件上传 WAV、MP3 等格式的音频文件音频开始时间秒从音频的第几秒开始使用默认 0最大时长秒使用多长的音频片段0 表示自动与视频帧数匹配使用步骤切换到「音频驱动视频生成」Tab上传音频文件设置开始时间和最大时长通常保持默认填写提示词描述视频的视觉内容设置「帧数」和「帧率」让视频时长与音频时长匹配点击「开始生成」注意事项音频文件为必填项不上传会报错视频时长 帧数 ÷ 帧率建议与使用的音频时长保持一致可在「图像条件」中上传参考图像来影响视觉风格6. 视频片段重生成适用场景对已有视频中某段不满意的片段进行局部重新生成其余部分保持不变。所需模型ltx-2.3-22b-distilled GemmaTab 内专属参数参数说明源视频文件上传需要局部修改的原始视频开始时间秒要重生成的片段起点结束时间秒要重生成的片段终点重生成视频轨勾选后重新生成该时间段的视频画面重生成音频轨勾选后重新生成该时间段的音频使用蒸馏模型勾选使用快速蒸馏模型取消勾选则使用全量推理需手动设置引导参数使用步骤切换到「视频片段重生成」Tab上传源视频设置开始和结束时间精确到秒选择是否重生成视频轨和/或音频轨填写提示词描述重生成片段的目标内容点击「开始生成」注意事项「源视频文件」为必填项不上传会报错时间范围外的部分保持原样不变使用蒸馏模型时引导参数将自动使用预设值手动修改无效7. HDR 视频生成适用场景专业影视后期制作需要高动态范围HDR素材用于专业调色、色调映射和合成。所需模型ltx-2.3-22b-distilledspatial-upscaler-x2 HDR IC-LoRATab 内专属参数参数说明参考视频文件上传 SDR 参考视频作为 HDR 转换的基础参考视频强度各参考视频的条件强度逗号分隔空间分块大小控制上采样时的分块尺寸默认 1280影响显存占用仅输出 EXR勾选后只保存 EXR 序列不生成 MP4 预览EXR 半精度使用 float16 保存 EXR文件更小但精度略降高质量模式启用更精细的 HDR 处理流程速度更慢使用步骤切换到「HDR视频生成」Tab上传参考 SDR 视频点击「开始生成」输出说明输出为 EXR 帧序列LogC3 编码的线性光照数据保存在output/hdr_XXXXXX_exr/目录默认同时生成一个 MP4 预览文件可勾选「仅输出 EXR」跳过EXR 文件需在 DaVinci Resolve、Nuke 等专业软件中进行色调映射后才能正常显示注意事项空间分块大小越大显存占用越高OOM 时可适当减小通用参数说明提示词与基本参数参数默认值说明提示词空描述视频内容建议详细描述动作、场景、镜头、光影参见下方提示词写作技巧反向提示词空描述不希望出现的内容如blurry, low quality随机种子-1-1 为随机固定值可复现相同结果高度 / 宽度px512 / 768生成分辨率帧数33生成的总帧数视频时长 帧数 ÷ 帧率帧率fps24输出视频帧率推理步数8扩散去噪步数越多质量越好但速度越慢蒸馏模式固定 8 步最大批次大小1并行处理的分块数增大可加速但需要更多显存自动增强提示词否开启后用 Gemma 自动扩写提示词适合短提示词蒸馏 LoRA 强度1.0两阶段/关键帧/音频驱动模式专用影响第二阶段细节锐化程度图像条件可选上传参考图像为生成视频提供视觉锚点。参数说明条件图像文件上传一张或多张图像关键帧插值模式必须在此上传帧索引每张图像对应视频中的哪一帧从 0 开始逗号分隔强度每张图像对生成内容的影响程度逗号分隔CRF图像压缩质量值越小质量越高通常保持默认 33运行参数参数说明显存卸载模式none全部放显存cpu部分卸载到内存disk卸载到硬盘最省显存但最慢量化模式none全精度fp8-cast动态 FP8 量化40/50系列可开启fp8-scaled-mmHopper GPU 专用Torch 编译加速首次启用时编译耗时约几分钟之后每次生成明显加速附加 LoRA每行一条格式/path/to/lora.safetensors,0.8引导参数高级控制扩散过程的引导强度一般无需修改。参数建议范围说明cfg_scale2~7分类器引导强度越大越贴合提示词但可能过饱和stg_scale0~2跳步引导强度rescale_scale0.5~0.9引导缩放补偿防止过度饱和modality_scale1~5多模态音视频对齐强度skip_step0跳过的初始步数stg_blocks28应用跳步引导的 Transformer 块索引提示词写作技巧LTX-2 使用 Gemma 进行深度语义理解支持详细的自然语言描述。保持描述精确具体像电影分镜表一样思考。建议控制在 200 词以内。输出与设置保存输出文件生成的视频保存在项目根目录的output/文件夹文件名格式为output/{功能名称}_{日期时间}.mp4HDR 模式额外生成output/hdr_{日期时间}_exr/frame_00000.exr output/hdr_{日期时间}_exr/frame_00001.exr ...设置保存手动保存点击「保存设置」按钮自动保存每次点击「开始生成」时自动保存当前所有参数设置文件保存路径{项目根目录}/settings.json下次打开应用时所有参数会自动从settings.json恢复常见问题Q首次运行需要多少存储空间A完整下载所有模型约需 100 GB 以上空间dev 模型 ~44 GB、distilled 模型 ~44 GB、Gemma ~22.7 GB、上采样器等。如果只使用特定功能只下载对应模型。项目文件夹目录结构为复制--LTX2.3 --checkpoints --ltx-2.3-22b-distilled-1.1.safetensors --以及其它.safetensors模型文件 --gemma --hf --output --..Q最低显存要求是多少A显存较低时可启用「量化模式」fp8-castRTX30或更低系列不要开启 「显存卸载模式」cpu 或 disk组合使用。英伟达显卡显存越低速度越慢如果不想长时间等待建议显存大于12GB。Q生成结果和提示词不符A增大cfg_scale如从 3 调到 5~7提示词更具体描述更详细开启「自动增强提示词」增加「推理步数」Q视频中出现闪烁或不连贯A适当增大stg_scale或降低cfg_scale也可以尝试不同的随机种子。LTX2.3音视频生成软件下载链接夸克网盘分享