AI实时语音聊天对话软件,外语口语陪练/虚拟好友实时语音交流系统
AI 实时语音对话系统是一款集语音识别ASR、大语言模型LLM对话、语音合成TTS于一体的实时语音交互软件。用户通过麦克风说话系统自动识别语音内容并转为文字交由 AI 角色进行智能回复最终将回复内容合成为语音实时播放实现端到端的自然语音对话体验。本来想测试英伟达的personaplex但是发现personaplex不支持中文一时兴起就做了当前这个软件。软件功能特点1. 全链路实时语音对话语音输入 → 语音输出用户只需点击录音按钮说话系统自动完成”语音识别 → AI 推理 → 语音合成 → 语音播放”的完整闭环。流式处理ASR 文本、LLM 回复、TTS 音频均采用流式传输AI 的思考过程和语音播报几乎同步呈现延迟低、体验流畅。WebSocket 实时通信前后端通过 WebSocket 保持长连接支持双向实时数据传输。2. 多角色 AI 对话内置7 种不同性格的 AI 角色每个角色拥有独立的系统提示词和语音音色用户也可以自定义角色角色标签语言性格特点Lucy英语口语陪练英语热情友好纠正语法错误鼓励式教学Sakura日语口语陪练日语明るく親しみやすい耐心纠错Ah-May粤语口语陪练粤语热情友善粤语书面语对话银月话痨中文天生八卦自来熟情报中心南宫婉高冷中文极简回复冷淡但有分量范静梅女王中文若即若离成熟魅力情场高手陈巧倩治愈系中文温柔共情倾听陪伴式对话3. 智能语音处理语音活动检测VAD可配置音量阈值和静音超时时间自动判断用户是否说完话。降噪与回声消除内置回声消除、噪声抑制、自动增益控制播报 AI 回复时自动静音麦克风输入防止扬声器声音被重新识别。PCM16 音频编码麦克风采集 16kHz 采样率音频TTS 输出 22050Hz 采样率音频Web Audio API 精确调度实现无缝播放。4. 灵活的大模型配置兼容 OpenAI 标准 API支持任意兼容 OpenAI API 标准的模型提供商如果还没有大语言模型API可点击立即注册用户可自定义 Base URL、API Key、Model 名称,Model建议使用gpt-5.4-mini响应速度最快。可调参数支持调节 Temperature温度、Max Tokens最大生成长度适应不同场景下的回复风格需求。5. 可视化操作界面三栏布局左侧显示语音识别实时文本、中间展示对话历史、右侧显示 AI 完整回复。录音状态指示彩色指示灯显示当前状态待机/识别中/AI思考中/AI说话中一目了然。角色一键切换点击角色按钮即可切换无需重启软件。使用场景1. 外语口语练习使用Lucy练习英语口语获得实时对话反馈和语法纠错。使用Sakura练习日语口语沉浸式日语对话环境。使用Ah-May练习粤语口语学习地道粤语表达。2. 日常聊天陪伴选择银月天南海北聊天获取”八卦情报”般的趣味对话。选择陈巧倩倾诉心事获得温柔共情的倾听和回应。选择南宫婉、范静梅体验不同风格的对话乐趣。3. 本地化 AI 体验软件运行在本地服务器127.0.0.1:7860数据无需经过第三方服务器除 LLM API 调用外隐私性较好。支持本地 TTS 模型CosyVoice。注意事项需要麦克风权限首次使用时浏览器会请求麦克风访问权限请务必允许。需要 LLM API Key软件本身不内置大模型 API Key需用户自行在设置页面配置有效的 Base URL 和 API Key 方可使用对话功能。网络要求LLM 对话功能需要联网调用远程 APIASR 和 TTS 可在本地运行。性能建议TTS 语音合成和 ASR 语音识别均消耗一定的 CPU/GPU 资源建议英伟达显卡显存4G以上电脑使用。如遇卡顿可适当提高音量阈值以减少不必要的音频处理。扬声器回声使用外放时AI 回复的语音可能被麦克风重新拾取。建议佩戴耳机使用以获得最佳体验软件也内置了”播报后静默期”机制来缓解此问题。浏览器兼容推荐使用 Chrome、Edge 等基于 Chromium 内核的现代浏览器以确保 WebSocket 和 Web Audio API 的正常运行。首次启动较慢首次运行时会稍慢请耐心等待。后续启动速度会明显加快。快速开始双击0启动软件.bat启动后端服务。打开浏览器访问http://127.0.0.1:7860。点击页面底部”设置”填入 API Base URL 和 API Key。选择一个角色如 Lucy、银月等。点击”开始录音”按钮开始语音对话。AI实时对话软件下载链接夸克网盘分享