OpenTalking开源实时数字人全栈管线从 Mock 到生产级一键切换datascale-ai 开源数字人编排框架——LLM TTS WebRTC 可插拔模型后端CPU 即可验证全链路RTX 3090 本地实时对话OmniRT 远端高清推理。目录1. 项目简介——它是什么2. 为什么 OpenTalking 是数字人生产级方案3. 三大前端工作流4. 6 种部署路径——从 CPU 到分布式集群5. 支持的 7 种数字人模型6. 快速上手——两种方式跑起来7. 核心架构——编排层 合成后端8. 功能生态——不只是对话9. 近期更新一览10. 适用场景与优缺点11. 总结1. 项目简介——它是什么OpenTalking是 datascale-ai 开源的实时数字人对话编排框架一句话概括覆盖数字人产品全链路——前端交互、会话状态、LLM 回复、STT/TTS/声音选择、打断控制、字幕事件、WebRTC 音视频播放以及可插拔的本地/远端模型服务。它不是「只能跑一个模型」的实验项目——而是一个生产级数字人全栈方案WebUI、角色/声音资产库、知识库、记忆、多会话状态、LLM/STT/TTS 提供商、WebRTC 播放、模型后端全在一个项目里组织好。你可以从轻量 Mock 模式起步接本地 QuickTalk/Wav2Lip或用 OmniRT 跑 FlashTalk、FasterLivePortrait 等更高质量或更复杂的模型工作流。 项目地址https://github.com/datascale-ai/opentalking 官网https://www.opentalking.net 文档站https://datascale-ai.github.io/opentalking/latest/en/ OmniRThttps://github.com/datascale-ai/omnirt LicenseApache 2.02. 为什么 OpenTalking 是数字人生产级方案当前数字人开源项目大多是「单模型实验」——能跑 Wav2Lip 但没有完整产品链路能做实时对话但没有知识库和记忆。OpenTalking 把整个数字人产品的全链路做成了开源能力OpenTalking典型开源数字人项目 实时对话全链路✅ STT→LLM→TTS→数字人驱动→WebRTC❌ 通常只覆盖部分 可插拔模型后端✅ mock/local/omnirt 3种后端❌ 通常只绑一种模型 角色资产库✅ 创建/选择角色、声音、场景❌ 通常硬编码 知识库 记忆✅ LightRAG mem0 BM25❌ 通常没有 语音克隆✅ IndexTTS/CosyVoice/MiMo❌ 通常只支持一种 TTS 视频创作 克隆✅ 音频/文本驱动创作 摄像头/上传视频克隆❌ 通常只有对话 WebRTC 实时传输✅ 流式音频/视频推送❌ 通常用 WebSocket 生产级部署✅ Docker Compose 分布式❌ 通常只适合本地测试3. 三大前端工作流OpenTalking 支持三种核心前端场景A. 实时对话场景说明电商直播数字人主播带货实时回答观众问题陪伴角色数字人陪伴聊天支持记忆和个性化新闻播报数字人主播播报新闻字幕同步B. 视频创作驱动方式说明音频驱动上传一段音频数字人跟着说话✍️文本驱动输入文本自动生成 TTS 数字人视频️克隆声音驱动用克隆的声音驱动数字人说话C. 视频克隆方式说明实时摄像头模仿摄像头捕捉动作数字人实时模仿上传视频模仿上传一段视频数字人模仿视频中的动作表情4. 6 种部署路径——从 CPU 到分布式集群路径模型/后端设备适用场景快速验证mockCPU / 无 GPU不下载模型权重验证 API、LLM、TTS、WebRTC 全链路入门验证quicktalk/wav2lipRTX 3050/3060/4060真实视频渲染演示和部署验证消费级单机quicktalk/wav2lip/musetalkRTX 3090/4090接近实时本地演示轻量预生产全本地私有sensevoicelocal_cosyvoicequicktalkRTX 3090/4090STTTTS数字人全部本地跑零云端依赖高清远端推理flashtalk/flashhead/fasterliveportrait OmniRT多 GPU / 昇腾 910B2 / 远端 GPU多卡、GPU/NPU、生产隔离、更高视觉质量Docker/生产部署API Web Worker 外部模型服务单 GPU / 远端 GPU / 分布式集群服务部署、远端 GPU、生产验证关键设计编排层API/Worker/前端和数字人合成后端mock/local/omnirt可以独立部署——前端和后端分离5. 支持的 7 种数字人模型模型输入推荐后端显存要求mock参考图/静态帧mock无 GPUquicktalk模板视频 音频localRTX 3090/4090约 3.8 GiBwav2lip参考图/帧 音频local/omnirt≥ 8 GBmusetalk全帧 音频omnirt/local≥ 12 GBsoulx-flashtalk-14b人像 音频omnirt多 GPU / NPUsoulx-flashhead-1.3b人像 音频omnirt多 GPU / NPUfasterliveportrait人像/驱动视频/音频omnirt单 GPU 实时QuickTalk 性能参考模型硬件输入输出显存帧率quicktalkRTX 3090模板视频音频720×900 / 25fps~3.8 GiB~35 fps 35fps 实时驱动——在消费级 GPU 上已经达到流畅对话的标准6. 快速上手——两种方式跑起来方式一Compshare 云镜像最快体验不想配置环境用 Compshare 预构建镜像一键体验镜像地址https://www.compshare.cn/images/TdDwmKZUZebI开放端口5173WebUI包含OpenTalking OmniRT QuickTalk 运行环境 模型文件部署实例后打开5173端口即可访问 WebUI。方式二自部署从源码开始Step 1克隆 环境gitclone https://github.com/datascale-ai/opentalking.gitcdopentalking uvsync--extradev--python3.11source.venv/bin/activatecp.env.example .envStep 2配置 .env至少配置一个 LLM。默认 TTS 可用免密钥的edge语音。LLM、STT、TTS 是独立提供商——参考 配置文档。Step 3Mock 模式启动bashscripts/start_unified.sh--mock默认前端http://localhost:5173。自定义端口bashscripts/start_unified.sh--mock--api-port8210--web-port5280Step 4切换真实模型Mock 验证通过后按你的硬件选路径# 本地 QuickTalk消费级 GPU 单机路径exportOPENTALKING_TORCH_DEVICEcuda:0exportOPENTALKING_QUICKTALK_ASSET_ROOT$PWD/models/quicktalkexportOPENTALKING_QUICKTALK_WORKER_CACHE1bashscripts/start_unified.sh--backendlocal--modelquicktalk --api-port8210--web-port5280# 远端 OmniRT / FlashTalk高清或多卡路径bashscripts/start_unified.sh\--backendomnirt\--modelflashtalk\--api-port8210\--web-port5280\--omnirthttp://gpu-server:9000停止服务bashscripts/quickstart/stop_all.sh7. 核心架构——编排层 合成后端OpenTalking 的架构分为两大独立层┌──────────────── 编排层 ────────────────┐ │ React 18 前端WebUI │ │ FastAPI API 服务 │ │ Worker 进程会话管理/消息路由 │ │ 知识库 / 记忆 / 资产库 │ └────────────────────────────────────────┘ ↕ ┌──────────────── 合成后端 ──────────────┐ │ mock → 静态帧无 GPU │ │ local → 本地模型QuickTalk等 │ │ omnirt → 远端推理服务 │ │ direct_ws → 直接 WebSocket 连接 │ └────────────────────────────────────────┘关键设计前后端分离编排层和合成后端可以部署在不同机器上可插拔后端mock→local→omnirt三种后端无缝切换不需要改前端代码流式链路LLM 回复 → TTS 流式合成 → 字幕事件 → WebRTC 音视频推送全链路实时打断控制用户可以随时打断数字人说话立刻切换到新的回复多会话状态支持同时运行多个数字人对话会话8. 功能生态——不只是对话OpenTalking 不仅是实时对话还有完整的数字人产品功能矩阵 角色与声音功能说明角色资产库创建/选择数字人角色模板视频管理声音库多种 TTS 提供商声音预览声音标签语音克隆IndexTTS / CosyVoice / MiMo 声音克隆系统语音免密钥 Edge 语音开箱即用 知识与记忆功能说明LightRAG 知识库文档检索会话级知识选择Persona Package可复用的角色设定/知识素材/Prompt 包角色记忆面板mem0 BM25 SQLite 三种记忆提供商微信记忆导入导入微信聊天记录构建角色人设 视频创作与克隆功能说明音频驱动创作上传音频 → 数字人视频文本驱动创作输入文本 → TTS 数字人视频克隆声音驱动克隆的声音 数字人视频摄像头实时模仿实时驱动的数字人视频克隆上传视频模仿视频驱动的数字人克隆沉浸式场景场景资产 透明背景 视角切换 LLM / STT / TTS 提供商类别支持的提供商LLMOpenAI 兼容接口 / DashScope / Atlas Cloud300模型STTSenseVoice / 小米 MiMo / OpenAI 兼容TTSEdge免密钥/ CosyVoice本地 TRT/ IndexTTS / MiMo / OpenAI 兼容9. 近期更新一览OpenTalking 迭代非常快近一个月的更新密度令人印象深刻时间更新06-25✅ 微信记忆导入 人设工作流前端人设选择与驱动模型不再互斥06-23✅ 本地 CosyVoice TRT sidecar 部署TensorRT/FP16 加速06-22✅ 运行时配置页面mem0 运行时刷新沉浸式场景资产管线06-18/19✅ 快速入门拆分云镜像 自部署LightRAG 运行时配置06-12✅ QuickTalk 本地资产修复 Apple Silicon 支持06-12✅ IndexTTS 本地/OmniRT 提供商系统语音 声音预览06-02/10✅ Persona Package API/CLI/WebUILightRAG 知识检索角色记忆面板06-05✅ 资产库连接角色/知识/会话/Agent 上下文音视频导出06-05/06✅ OpenAI 兼容 STT/TTS 适配器小米 MiMo STT/TTS/声音克隆10. 适用场景与优缺点✅ 最适合谁人群场景 电商运营数字人直播带货实时回答观众 游戏公司数字人 NPC、游戏角色对话 媒体/新闻数字人新闻播报、字幕同步 教育/培训数字人教师、培训场景 企业客服数字人客服、知识库问答 AI 研究者数字人模型验证、对比评测 内容创作者音频/文本驱动视频创作、视频克隆⚖️ 优缺点对比优点缺点 覆盖数字人产品全链路 项目较复杂初学者上手门槛不低 mock 模式无 GPU 即可验证 mock 只用静态帧体验不直观 7 种数字人模型可插拔切换 高质量模型FlashTalk需多 GPU 知识库 记忆 人设体系完整 Agent 和工具调用仍在开发中 前后端分离编排层和合成层独立部署 Windows/WSL2 一键部署尚未完成 Docker Compose 分布式生产部署 消费级 GPU 多模型路径还在优化 Apple Silicon 支持MPS/CPU Apple Silicon 性能远低于 CUDA 迭代速度极快月内十余次更新 部分文档分散需频繁查文档站11. 总结OpenTalking 是目前开源数字人领域最完整的生产级全栈方案。它不是一个模型实验——而是覆盖了数字人产品从 STT 到 WebRTC 的全链路从角色资产库到知识库到记忆到多会话状态的全功能矩阵从 Mock 到本地到远端 OmniRT 的全部署路径。7 种数字人模型可插拔切换、3 种合成后端独立部署、6 种部署路径覆盖从 CPU 到分布式集群——这种灵活性在开源数字人项目中独一无二。加上 LightRAG 知识库、mem0 记忆、Persona Package 人设包、微信记忆导入这些产品级功能OpenTalking 已经超越了「能跑模型」的阶段进入了「能做产品」的阶段。迭代速度也令人印象深刻——一个月内十余次功能更新每次都是实际可用的功能而非概念。如果你要做数字人产品而非实验OpenTalking 是当前开源领域最值得深入的项目。推荐指数⭐⭐⭐⭐⭐ (5/5)数字人全链路 7 模型可插拔 知识库记忆 前后端分离 生产级部署——开源数字人领域的全能生产栈。原文链接https://github.com/datascale-ai/opentalking官网https://www.opentalking.net文档站https://datascale-ai.github.io/opentalking/latest/en/LicenseApache 2.0标签#数字人 #OpenTalking #实时对话 #WebRTC #TTS #开源项目 #生产级部署 #知识库分类原创文章