7900 XTX 本地跑数字人到底能不能用我拿 LTX-2.3 实打实测了 15 组带音频的这两年数字人火得不行但玩过的都知道大部分方案都挺烦的要么得走云端按分钟计费传个音频都怕数据流出去要么就是闭源平台素材全捏在别人服务器上你想二次开发都没门再就是某些效果好的对显卡的要求高得离谱没块4090好像不配玩似的。所以我就很想搞明白一个非常具体的问题一张 AMD 的 7900 XTX 24GB 显卡能不能就在本地跑出真正能用的数字人口播视频不是那种一张图随便动两下的玩具效果也不是静帧头像上贴个音频波形而是实打实地——给一张头像照片再喂一段真人录音让 LTX-2.3 生成嘴型跟着语音走、同时输出带同步音频的视频。直白点说就是看它能不能在本地做出“数字人张口说话”那味儿。先不卖关子结论我直接放在前头。先说结论这台搭载 7900 XTX 的机器确实可以在本地跑通 LTX-2.3 的数字人同步音频视频。但并不是“想跑多长就跑多长”也不是“768×1024 高清竖屏随便批量生成”那么美好。准确点说640×640 / 10 秒眼下最实用的长口播档位544×960 / 7–8 秒最合适做竖屏口播768×768 / 7 秒方形高清的上限了768×1024 / 5–6 秒高清竖屏的短视频还能撑住768×1024 / 7 秒往上别跟自己过不去速度已经失去实用意义了这次折腾下来我最大的感受是7900 XTX 不是跑不动是得选对分辨率和时长。真正卡脖子的不是系统内存而是采样速度。假如你只是想做短视频口播、AI 博主开场、产品小介绍、课程片头或者付费文章的导流视频这套方案真的可以进实用测试阶段了。可要是你打算批量出 10 秒以上的高清竖屏、嘴型还得稳如老狗那要么继续打磨工作流要么直接加钱上更大显存的卡。我的机器配置这次测试用的是我平时折腾 AI 的主力机项目配置系统Ubuntu 24.04CPURyzen 7 3700XGPUAMD Radeon RX 7900 XTX 24GB内存48GB 4GB swapROCm7.2.4PyTorch2.11.0rocm7.2ComfyUI本地部署注意这是 AMD 卡不是 NVIDIA。现在好多视频生成模型的教程张口就是 CUDA但我就是好奇7900 XTX 这种 24GB 大显存的消费级 A 卡在 ROCm 环境下到底能不能扛起本地数字人的活儿。为啥我没直接跑官方那个 BF16 工作流懂行的可能会问LTX-2.3 不是有官方工作流吗直接拿来跑不就得了问题是官方 BF16 方案吃显存吃得太猛了。LTX-2.3 的 22B 模型本身就很大完整的 BF16 路线基本是冲着 32GB 甚至更高显存去的。我的 7900 XTX 就 24GB多卡ComfyUI 这种视频工作流可不会自动把两张 24GB 拼成 48GB 给你用。所以这次我没头铁去硬啃原版 BF16而是走了更接地气的低显存方案主视频模型LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf文本模型gemma-3-12b-it-Q4_K_M.ggufvideo VAELTX23_video_vae_bf16.safetensorsaudio VAE loaderltx-2.3-22b-distilled-fp8.safetensors输出节点VHS_VideoCombine所以这里的结论不是“7900 XTX 能完整跑通 LTX-2.3 官方全量 BF16 工作流”而是在 24GB 显存 48GB 内存的本地环境下用 GGUF/Q3 这种低显存工作流能稳定跑出 5 到 10 秒的数字人带音频视频。这个界限得先划清楚。测试用的素材为了控制变量后面所有的测试我全用的同一张头像图同一段音频。图片一张年轻男生正脸照穿灰色卫衣音频一段大概 10 秒的真人说话录音测试的时候就只动三个参数分辨率、时长和对应的帧数。这样对比起来才清楚不同分辨率和时长对速度、内存压力、稳定性的影响到底有多大。第一阶段竖屏摸底我先拿竖屏比例开的刀。1. 544×960 / 3 秒只为了看链路通不通第一把非常保守纯粹验证整套流程能不能跑。结果分辨率544×960时长3.04 秒24fps73 帧输出成功MP4 带 AAC 48kHz 立体声音频流这一轮确认了三件事LTX-2.3 能吃进去头像和音频生成出来的视频不是静帧嘴型有变化输出 MP4 里音频流确实在。也就是说“头像 语音 → 数字人说话视频”这条路是走通的。2. 544×960 / 5 秒基础可用第二次直接拉到 5 秒。跑出来的结果时长5.04 秒121 帧执行时间206.58 秒采样速度大约 16.27 秒/次迭代s/it这个可以算“基础可用了”5 秒视频能正常生成音频也顺利进了 MP4。3. 768×1024 / 5 秒高清竖屏也能撑这次我把分辨率从 544×960 提到了 768×1024别看数字好像只加了一点像素数直接从 52 万多蹦到了 78 万多差不多是 1.5 倍的压力。实测时长5.04 秒121 帧执行时间291.16 秒采样速度约 26.46 s/it内存最低可用约 21.28 GiBswap 峰值才 0.03 GiB这轮特别说明问题。同样 5 秒544×960 花了 206 秒768×1024 花了 291 秒慢了四成多。所以 768×1024 能当高清短视频档位用但不能无脑拉长。4. 768×1024 / 6 秒快到实用天花板了再往上拉到 6 秒看看。时长6.04 秒145 帧执行时间368.11 秒采样速度约 34.82 s/it最大单步耗时到了 35.53 秒内存最低还有 18.95 GiBswap 只有 0.05 GiB能跑通但真的接近我能接受的极限了。6 秒视频生成要 6 分钟偶尔搞一条高质量片头还行批量这么干肯定受不了。5. 768×1024 / 7 秒不是爆显存是慢得没法用想试一把 7 秒结果中止了。目标7.04 秒169 帧中止原因单步采样耗时直接飙到 50.60 秒超过我设定的心理红线此时内存还有 18.29 GiB 可用swap 才 0.22 GiB根本不是 OOM这一次中止太有意义了。它证明瓶颈不是内存而是速度。第一步就 50 多秒一次迭代完全没法拿来日常出片。所以结论就是768×1024 / 7 秒在当前工作流下不适合实战。第二阶段测测方形画幅竖屏摸完底我又补了一波方形分辨率的测试。很多口播场景根本不需要全屏竖屏比如 AI 博主头像口播、知识卡片、课程片头、产品小介绍、导流视频之类的把数字人放在中间窗口外面加标题、字幕、背景包装方形画幅其实更实用。方形 5 秒基线640 / 768 / 896先跑三组 5 秒看个底分辨率时长执行时间平均 s/it最低内存swap640×6405.04s172.08s12.7127.86 GiB0.04 GiB768×7685.04s226.11s18.3323.43 GiB0.04 GiB896×8965.04s290.14s25.9821.74 GiB0.04 GiB这里面有几个有意思的发现。640×640 是当前跑得最快的档位12.7 s/it甚至比之前 544×960 的 16.3 s/it 还要快。896×896 的像素量跟 768×1024 很接近速度也就差不多 26 s/it 左右。方形 letterbox 这条路完全走得通不用改工作流的裁剪逻辑。拉长时长看看基线跑完我就继续试试这些方形和竖屏分辨率在更长时长下的表现。640×6408 秒、10 秒全成功项目8.04 秒10.04 秒帧数194242执行时间240.12 秒290.14 秒平均 s/it20.1825.99最低内存23.02 GiB21.63 GiBswap0.04 GiB0.04 GiB这个结果对我鼓舞很大。640×640 跑 10 秒都稳住了而且速度还在 26 s/it 左右。这意味着它真能当主力档位用。假如我要做一条 60 秒的数字人视频不用傻到一次生成 60 秒拆成 6 段 × 10 秒来跑后期拼起来就行。768×7687 秒可以10 秒跪了项目7.04 秒10.04 秒帧数170242执行时间302.15 秒中断 (122秒)平均 s/it26.6250.10 (第一步)swap0.05 GiB0.06 GiB768×768 跑 7 秒没问题速度跟 640×640 跑 10 秒差不多。但拉到 10 秒第一步就 50 s/it直接撞红线。所以 768×768 更适合做那种 5 到 7 秒的高清头像短句比如视频开头一句话、个人 IP 介绍、课程片头长口播还是算了。544×9607 秒、8 秒、10 秒都能跑项目7.04 秒8.04 秒10.04 秒帧数170194242执行时间264.13 秒298.16 秒442.24 秒平均 s/it22.9826.7343.75最低内存22.39 GiB21.46 GiB15.32 GiBswap0.06 GiB0.06 GiB0.06 GiB这么一看544×960 比 768×1024 更适合做竖屏长一点的口播。同样 7 秒768×1024 直接 50 s/it 中止了544×960 才 23 s/it 顺利跑完。如果你需要竖屏口播记住先选 544×960 7 到 8 秒偶尔需要更长的可以试试 10 秒但那会儿 43.8 s/it 的速度已经快到我忍耐极限了不适合大批量搞。最终测试矩阵一览前前后后总共跑了 15 项有效测试汇总一下分辨率5s7s8s10s可用上限640×640成功,12.7s/it—成功,20.2s/it成功,26.0s/it10s 很稳768×768成功,18.3s/it成功,26.6s/it—中止,50.1s/it7s 稳896×896成功,26.0s/it未测——只建议 5s544×960成功,16.3s/it成功,23.0s/it成功,26.7s/it成功,43.8s/it10s 能跑768×1024成功,26.5s/it中止,50.6s/it——6s 稳从这个表能很直观地看出来方形长口播就选 640×640方形高清短句用 768×768竖屏口播别一上来就冲 768×1024544×960 的实用性好得多高清竖屏 768×1024 只能做 5-6 秒的短镜头896×896 拉长了压力跟 768×1024 差不多5 秒内玩玩还行。真正的瓶颈到底在哪测了这么多我得出了一个非常明确的结论瓶颈真不是系统内存。整个测试过程中 swap 的使用量都非常低哪怕是 544×960 跑 10 秒swap 峰值也就 0.06 GiB。我加到 48GB 内存是对的系统没掉进 swap 地狱。真正让人头疼的是采样速度。我按照自己的感受把速度分了几档30 s/it 以下绿色档能日常用30–40 s/it黄色档能用但开始慢了40–50 s/it红色档只能偶尔测试别当主力50 s/it 以上别跑了太遭罪按这个标准一套640×640 10 秒、544×960 8 秒、768×768 7 秒这些都还在绿色或黄绿色区域。544×960 10 秒就摸到红色档边缘了768×1024 7 秒直接拉倒。这比简单说“能不能跑”更有实际指导意义因为本地跑 AI 不是一次性玩具得反复用、稳定出片才行。别总想一口气出长片拼接才是王道测完我最大的体会是用 7900 XTX 玩 LTX-2.3 数字人最现实的路线根本不是一次生成一整条高清长视频而是生成一堆 5 到 10 秒的口播片段然后再进剪辑软件包装成完整短视频。我推荐的流程大概是写出 45 到 60 秒的口播稿子按句子语义切成 5–10 秒的短句每一句单独生成数字人视频片段后期统包成 1080×1920 竖屏加上标题、字幕、BGM、背景和转场输出最终成片举个例子一条 50 秒的视频可以这样拆开场钩子768×1024 / 5 秒痛点说明544×960 / 8 秒测试结论544×960 / 8 秒参数展示640×640 / 10 秒使用建议640×640 / 10 秒结尾引导768×768 / 5 秒这样每段生成时间都不会失控画质也有保障。现在我会怎么选参数如果你也想试试我的建议很直接1. 速度最快、批量做长口播就用640×640 / 8–10 秒。适合 AI 博主口播、模型评测、博客导流、课程讲解、产品介绍这些。这是我现在最常用的主力档。2. 竖屏口播性价比选544×960 / 7–8 秒。适合抖音、小红书、YouTube Shorts 那种竖屏口播比 768×1024 实用得多。3. 方形高清短视频768×768 / 5–7 秒做头像口播、课程片头、品牌介绍、高质量开场刚好。4. 高清竖屏短镜头768×1024 / 5–6 秒适合视频开头、高质量展示、重点镜头、样片别拿它做长口播。5. 这些组合我建议绕开768×768 / 10 秒768×1024 / 7 秒以上896×896 / 6 秒以上544×960 / 10 秒批量生成不是说完全不能跑而是时间成本高得划不来日常出片耗不起。这次测试的局限得老实说这次测试也有不完美的地方。第一我没跑官方 BF16 工作流用的是 GGUF/Q3 低显存方案所以结论不代表官方原版满血方案的表现。第二我只测了一张头像、一段音频。后面还得试试不同的性别声音、中英文、快慢语速、明显停顿、真人头像/3D 头像/卡通头像还有戴眼镜、胡子、侧脸这些复杂情况。第三最终成片还得依赖后期包装LTX 出来的只是数字人片段不是直接能发的短视频标题字幕背景那些活儿一样不少。这套方案适合谁我觉得几类人挺适合本地 AI 玩家手里有 7900 XTX、4090、3090、A6000 这种大显存卡愿意动手搭工作流的AI 博主、教程作者用它生成自己的数字人开场做模型评测、教程导流、课程片头在意数据本地化的人不想把头像、声音素材传到任何云端平台有自动化想法的人如果愿意搭个本地 Agent把音频切片、调用 ComfyUI、生成预览图、拼合视频自动化这套方案价值会更大不适合谁也得说实话如果你想要的是一键出 1 分钟完整数字人视频直接就是 1080×1920 全屏高清口播唇形百分百逼真商业级的真人分身效果完全不想折腾环境、不想管节点工作流只想开个网页点一下生成那本地方案 LTX-2.3 对你来说还不够省心。目前云端数字人平台在这些诉求上还是方便得多。本地方案的优势本来就不是“省事”而是可控、可折腾、可自动化而且所有数据都留在自己手里。最后再啰嗦几句这一圈测下来我对 7900 XTX 跑本地数字人的判断挺清楚了。第一7900 XTX 24GB 确实能在本地跑通 LTX-2.3 数字人同步音频已经跑出了好几组带嘴型变化和音频流的 MP4。第二最实用的策略不是硬刚高清长视频而是短片段拼接。768×1024 只适合 5-6 秒的高清短镜头日常出片更舒服的参数是 640×640 10 秒和 544×960 7–8 秒。第三系统内存不是主要瓶颈48GB 完全够用swap 压力很低真正拖慢节奏的是采样速度。本地数字人已经能进入实用测试做短视频开场、口播、片头绰绰有余。我的定位很简单就是在本地生成 5-10 秒的口播片段再自动化包装成片不替代云平台但数据在手里可玩性更高。完整的安装部署步骤教程已经整理成文章放到我的博客感兴趣的小伙伴可以直接过去看看省得自己从头踩坑。