lmdeploy v0.14.0发布：FP8 KV Cache量化、Qwen3 Omni、OpenAI Responses接口、PPL端点全量升级解析-尧图建网站

2026年6月24日lmdeploy 发布了v0.14.0最新版本。从本次更新内容来看这次版本迭代覆盖范围非常广既有面向能力边界扩展的核心新特性也有围绕推理后端、服务接口、多模态处理、量化模型、前缀缓存、调度器、流式输出、工程依赖、Windows 兼容性等多个方向的深度优化与系统性修复。如果要用一句话概括这个版本那么可以总结为这是一个同时强调“能力扩展、接口兼容、推理效率、工程稳健性”的重要版本。一、版本概览lmdeploy v0.14.0 到底更新了什么本次版本更新主要包括以下几类内容新增功能FP8 KV Cache 量化支持 Qwen3 Omniturbomind 后端支持 qwen3.5 视觉推理新增兼容 OpenAI Responses 的接口新增/get_ppl端点核心改进turbomind 建模基础设施升级CUDA 错误处理整合并增加手动堆栈追踪新增 Qwen3.5 Moe lite awqsleep engine 时支持队列排空chat completions 与 v1/messages 扩展 token-in、token-out 与 routed experts 返回服务端进一步对齐 OpenAI 规范健康检查、指标、日志概率输出、XML 工具解析器、前缀缓存、cudagraph 捕获批大小等多方向持续优化大量 Bug 修复anthropic 适配器GPT-OSS 结构化输出多模态 tensor 紧凑化老版本 VLM 预处理器Dockerfile 依赖缺失FA3、CUDA 版本比较、KV Cache padding、流式 usage chunk大图输入内存泄漏Windows 模型加载与 CUDA 路径处理qwen3.5 多项推理与量化问题gdr、mtp、prefix caching、scheduler、tool-call XML 解析等多个底层问题文档与工程维护多模态模型支持文档更新依赖抽取、CI 调整、测试配置更新、版本冻结、版本号升级等可以看出v0.14.0 并不是一个单点突破的小版本而是一个覆盖功能、接口、性能、兼容性、稳定性和工程体系的综合升级版本。二、功能新增能力边界进一步拉开1. FP8 KV Cache quantization本次版本新增了FP8 KV Cache 量化。KV Cache 是大模型推理中的关键组成部分尤其在长上下文和高并发服务场景下对显存占用和吞吐能力影响非常直接。此次加入 FP8 KV Cache 量化能力意味着 lmdeploy 在 KV Cache 相关资源利用方面又向前推进了一步。从更新项本身来看这一功能的核心就是为 KV Cache 引入 FP8 量化支持面向推理过程中的缓存压缩与资源优化为更大上下文、更高并发场景提供基础能力支撑对于关注部署成本、显存利用率和服务密度的用户来说这是本版本最值得关注的新增能力之一。2. Support Qwen3 Omniv0.14.0 新增Qwen3 Omni 支持。这意味着 lmdeploy 在模型支持范围上继续扩大进一步适配更新的模型体系。对于使用 Qwen 系列模型进行部署和服务化的用户来说这一更新直接提升了模型接入的可选空间。从版本演进角度看模型适配本身不仅意味着“能跑”也通常伴随着推理链路、输入输出协议、多模态处理流程等一系列底层适配工作。因此这一新增项对生态兼容价值非常高。3. turbomind 后端支持 qwen3.5(vit) inference本次更新中turbomind 后端新增对 qwen3.5 视觉推理的支持。这条更新非常关键因为它指向了 lmdeploy 在多模态推理上的持续扩展尤其是视觉相关模型在 turbomind 路线上的适配能力增强。这意味着qwen3.5 视觉模型可以在 turbomind 后端进行推理多模态部署路径进一步完善视觉模型的后端支持能力更强对于希望在统一推理框架内部署文本与视觉模型的团队而言这是非常实用的能力补齐。4. Add OpenAI Responses-compatible endpointv0.14.0 新增兼容 OpenAI Responses 的服务端接口。这是本次版本另一个极具现实意义的更新。过去在 API 兼容层面很多用户最关心的问题就是现有应用是否可以尽可能少改动地接入新的推理服务框架。这次新增 Responses 兼容接口意味着lmdeploy 对 OpenAI 风格接口的兼容继续增强更有利于现有应用迁移对接标准化服务协议更加方便在生态适配层面迈出重要一步对于构建统一推理网关、兼容已有客户端 SDK、减少上层业务改造成本来说这项更新价值非常高。5. Add /get_ppl endpoint本次版本新增了/get_ppl端点。PPL 通常与困惑度相关在模型评估、效果对比、数据分析以及调试过程中都具有实际用途。这个新增项说明 lmdeploy 在服务接口层不仅关注生成式调用也开始补充更多模型分析与评估型接口能力。对于有评测需求、在线诊断需求或者研究需求的用户来说这是一个非常直接的增强点。三、改进优化从推理底座到服务协议的全面打磨1. turbomind 建模基础设施升级本次版本对turbomind modeling infrastructure进行了更新。这类更新往往属于底层系统能力重构虽然不会直接体现在单个 API 功能上但它会影响后续模型适配、推理流程组织、算子调度与整体可维护性。从版本信息来看这表明 turbomind 的建模基础设施继续演进为后续功能扩展与稳定性提升打下基础。2. 整合 CUDA 错误处理并增加手动堆栈追踪更新内容中明确提到整合 CUDA 错误处理增加手动 stacktracing这是一项非常偏底层但非常重要的改进。CUDA 相关错误一旦分散处理定位成本往往很高。统一错误处理机制并补充手动堆栈追踪能力能够显著提升问题诊断效率。这类改动说明 v0.14.0 不只是加功能也在补强底层可观测性与调试能力。3. Add Qwen3.5 Moe lite awq本次版本新增Qwen3.5 Moe lite awq。这表明 lmdeploy 对 Qwen3.5 系列、尤其是 Moe 与量化相关形态的支持继续扩大。对于依赖 AWQ 路线进行模型压缩和部署的用户来说这是一项非常直接的模型支持增强。4. sleep engine 时支持队列排空更新项中提到当 engine 进入 sleep 时支持 drain queues。这属于引擎运行状态管理方面的优化。其意义在于提升引擎休眠切换过程中的处理完整性降低请求残留风险改善运行状态切换时的行为一致性这类能力看似不显眼但对线上服务的稳定运行非常关键。5. chat completions 扩展 token-in、token-out 与 routed experts 返回在 chat completions 接口中本次版本引入了token-intoken-out返回 routed experts这说明 lmdeploy 的接口返回信息更加丰富。对于需要做调用分析、用量核算、专家路由观测或精细化监控的场景这类返回字段极具实用价值。6. 对齐 OpenAI 规范AllowedToolChoice 与请求解析失败返回 400本次版本进一步跟进 OpenAI 规范增加AllowedToolChoice当请求解析失败时返回 400这两项改进体现了服务接口兼容层的继续完善。一方面是参数规范对齐另一方面是错误语义更明确。对接现有 OpenAI 风格客户端时这种规范化行为非常重要。7. 健康检查端点改进更新中包含Improve health endpoint。健康检查端点直接关系到服务发现、实例剔除、自动运维与负载调度因此其改进意味着服务治理层也在同步增强。8. Remove state init本次版本移除了状态初始化相关内容。这条更新虽然简短但通常意味着某种初始化逻辑被简化或重构减少了不必要的状态准备过程有助于提升代码路径清晰度。9. 指标中纳入 spec stats版本更新将spec stats纳入 metrics。这代表监控指标更完整用户可以从指标侧获得更丰富的服务状态信息。10. 原始 chat completion logprob 输出本次新增raw chat completion logprob output。对于需要 token 概率、采样分析、生成质量诊断、调试输出细节的用户而言logprob 输出是非常实用的能力补充。11. PyTorch 路线将 guided decoding 的 CPU 操作移入线程池避免阻塞事件循环这是一个非常具体但很有价值的优化。其核心是将 guided decoding 的 CPU 操作 offload 到线程池防止阻塞 event loop对于异步服务框架来说事件循环被阻塞通常会直接影响整体并发响应能力因此这一改动有助于改善服务端吞吐与响应稳定性。12. 更新 gated delta rule state layout版本更新中调整了gated delta rule 的 state layout。这属于底层状态布局优化与相关推理路径或内部状态组织有关。13. dp 大于 1 时的 kernel dispatch 优化本次新增针对 dp 大于 1 的 kernel dispatch 优化。这说明在数据并行相关场景中内核调度行为得到了进一步改进有利于并行推理性能表现。14. v1/messages 同步扩展 token-in、token-out 与 routed experts除了 chat completions本次版本也对v1/messages接口进行了相同方向的增强增加 token-in增加 token-out返回 routed experts这说明接口升级不是局部行为而是整个服务协议体系的统一推进。15. Fuse gdr preprocess版本中加入了gdr preprocess 融合。这类融合型优化一般指向更紧凑的前处理流程与更高执行效率。16. 简化多模态预处理扩展逻辑更新中明确提到simplify multimodal preprocessing expansion。这说明多模态输入相关预处理链路被进一步梳理结构更简洁维护成本也会更低。17. 支持配置 cudagraph capture batch sizesv0.14.0 新增了可配置的 cudagraph capture batch sizes。这让 cudagraph 的捕获批次策略更具灵活性方便在不同场景下做更细粒度调整。18. PyTorch engine 前缀缓存重构版本对prefix caching for pytorch engine进行了重构。前缀缓存是优化复用、降低重复计算的重要机制本次重构说明该能力在 PyTorch 路线中被继续强化。19. 为 fa3 prefill 多 padding 一个 block更新中包含Pading one more block for fa3 prefill。这是一项与 prefill 阶段细节处理相关的优化属于底层执行路径调节。20. 为 prefix caching 增加 cached_tokens 统计字段本次版本新增usage.prompt_tokens_details.cached_tokens这条更新非常有价值因为它让前缀缓存的命中情况可以在用量统计中被更直接地观察到。21. XML 工具解析器优化增量流式与快速缓冲路径v0.14.0 对 XML 工具解析器进行了优化重点包括增量流式处理fast-path buffering这说明工具调用解析链路在性能与流式处理能力方面得到了加强。四、Bug 修复稳定性与兼容性大规模补强这一部分是 v0.14.0 内容最多的区域也最能体现版本成熟度提升。1. 修复 anthropic adapter修复了 anthropic 适配器问题提升协议兼容稳定性。2. 修复 GPT-OSS Models 的 Structured Output针对 GPT-OSS 模型的结构化输出问题进行了修复保证结构化结果生成更稳定。3. W8A8Linear 初始化支持 dtype不再硬编码更新后W8A8Linear 在初始化时可以接收 dtype而不是固定写死灵活性与兼容性更好。4. 紧凑化拆分后的多模态 tensors修复多模态 tensor 拆分后的紧凑化问题改善多模态数据处理路径。5. 修复旧版 VLM 预处理器对归一化图像数据的处理针对 legacy VLM preprocessors 在 normalized image data 上的问题进行了修复。6. 修复 Dockerfile 缺少 common.txtDockerfile 缺失common.txt的问题被修复部署链路更完整。7. 启用 SM80 及以上 GPU 的 FA3并修复 CUDA 版本比较逻辑这项修复包含两层内容为 SM80 及以上 GPU 启用 FA3修复 CUDA version comparison兼顾能力启用与版本判断准确性。8. flatten_kv_cache 零填充修复修复了 flatten_kv_cache 的 zero padding 问题。9. 流式 usage chunks 对齐 OpenAI 规范此次修复让 streaming usage chunks 更符合 OpenAI 规范协议一致性更好。10. 降低多模态特征内存使用针对视觉语言相关流程减少了 multimodal feature memory use。11. 修复大图输入导致的内存泄漏当输入包含 large image data 时的内存泄漏问题得到修复这对多模态服务非常关键。12. turbomind 中修复 Intern-S1 HF checkpoint key 映射模型权重加载映射问题被修复提升对应模型加载正确性。13. 服务端修复流式 tool-call 并发时的 stream_chunk delta 发射问题修复后所有 stream_chunk deltas 都会被正确发出用于解决并发工具调用流式输出问题。14. 修复 cp inference更新中明确修复 cp inference 问题。15. 服务端解析器避免按请求重复做 tokenizer 工作这是一次服务端重构性质的修复优化减少解析器内每请求 tokenizer 工作。16. MixtralForCausalLM 回归 Turbomind该模型重新支持在 Turbomind 中使用是兼容能力的恢复性修复。17. 修复 Windows 上模型加载问题Windows 平台模型加载能力得到修复和改善。18. 修复 RL 场景下无 warmup 时的 mtp cudagraph 问题针对特定条件下的 MTP cudagraph 问题进行了修复。19. Windows 取消硬性 CUDA_PATH 断言并从多来源搜索 DLL 路径这是 Windows 兼容性方面的重要修复去掉硬性 CUDA_PATH assert从多个来源搜索 DLL paths显著提升 Windows 部署体验。20. 单元测试修复移除 latest-transformers-unsupported models通过移除不受支持模型修复单元测试问题。21. 修复 qwen3.5 mtpqwen3.5 的 mtp 相关问题得到修复。22. 修复 tilelang 版本不低于 0.1.9 时的 gdr kernel针对 tilelang 较新版本的 gdr kernel 兼容问题进行了修复。23. 回退 mtp 中 cudagraph buffer 复用本次版本回退了对 mtp 的 cudagraph buffer 复用以修复由此带来的问题。24. 修复 PyTorch MP engine 中 client-disconnect 导致的 session 泄漏这是线上场景下非常重要的一项修复解决客户端断开连接后会话泄漏问题。25. 修复 cancel stopped seq停止序列后的 cancel 处理问题被修复。26. turbomind 后端支持 num_experts_per_tok10虽然更新项写法带有 feat但它出现在问题修复区域中本质上也是对专家数配置能力的补强支持在 turbomind 后端设置num_experts_per_tok10。27. 修复批处理中不同 stop words 的序列处理batched seqs with different stop words 的问题被修复批量请求行为更准确。28. 将 warmup 移入 wakeup更新中包含Move warmup inside wakeup这是引擎唤醒流程上的调整与修复。29. 修复 dequant_mixeddequant mixed 相关问题得到修复。30. 提升 engine health monitoring除了 health endpoint 改进之外这里还进一步提升了引擎健康监控能力。31. 修复 qwen3.5 27b gdr preprocessqwen3.5 27b 的 gdr preprocess 问题被修复。32. 修复由 vllm/llm-compressor 制作的 qwen3.5 量化模型的 dequant mixed 问题这项修复针对特定来源制作的 qwen3.5 量化模型进一步增强模型兼容性。33. 修复 decode delta kv_seqlens 中 max_q_seqlen 双重计数问题这个问题属于更底层的序列长度统计修复对解码过程正确性很关键。34. 修复 ssm 的 scheduler调度器层面的稳定性问题得到修复。35. 服务端修复 XML 解析器中并行 tool-call 参数泄漏这是一个很重要的服务端修复避免并行工具调用时参数相互污染。36. 修复 prefix caching版本末尾再次明确修复 prefix caching说明这一能力在本次版本中是重点优化区域之一。五、文档更新多模态支持说明同步完善本次文档部分只有一项但非常重要更新多模态模型支持文档这意味着随着 qwen3.5 视觉推理支持、多模态预处理优化、内存占用修复、大图泄漏处理等更新推进官方文档也同步进行了调整让用户能够更准确了解当前支持范围。六、其他工程与维护更新为长期稳定演进打基础除了功能与修复本次版本还包含大量工程层调整。1. 请求日志按 request level 控制请求日志被放在 request level 后面进行门控日志控制更精细。2. intern-s models 缺少 rdkit补充了 intern-s 模型所需的 rdkit 依赖。3. 抽取公共依赖到 requirements/common.txt将公共依赖统一提取到requirements/common.txt依赖管理更清晰。4. 移除 vlmevalkit 文档中的过时 CLI 参数清理过期说明减少使用歧义。5. 增加 response 日志用于调试新增响应日志以便排查问题。6. 当 PR 更新或合并时取消进行中的运行工程流水线层面优化避免无效执行。7. 更新 qwen3.5 397b 测试测试配置同步更新。8. 更新视频测试视频相关测试内容也做了调整。9. 校验最终 chat response 结构加入最终 chat response 结构校验提升接口结果可靠性。10. 为 qwen35 mtp 支持 dp数据并行与 qwen35 mtp 结合能力得到补充。11. 重构 testcoverage 配置测试覆盖率配置被重构CI 体系更清晰。12. 更新 ascend 与 mtp 测试配置针对不同硬件与功能路径的测试同步完善。13. 更新 FP8 处理逻辑并移除重复 MTP 测试测试和处理逻辑都做了整理与优化。14. 冻结 tilelang 版本将 tilelang 版本冻结有助于控制依赖波动。15. 修复 Windows CIWindows 持续集成环境相关问题得到修复。16. 在 pr_test 中增加 mtp 测试配置MTP 的测试覆盖进一步增强。17. 支持 disaggregated weight update新增对 disaggregated weight update 的支持。18. 版本号升级到 v0.14.0最终完成版本号提升形成正式发布版本。七、lmdeploy v0.14.0 的更新重点总结如果从实用价值角度提炼本次版本最值得关注的几个核心方向主要有模型与能力扩展支持 Qwen3 Omniturbomind 支持 qwen3.5 视觉推理增加 Qwen3.5 Moe lite awqTurbomind 支持num_experts_per_tok10量化与推理效率FP8 KV Cache 量化cudagraph capture batch sizes 可配置dp 大于 1 的 kernel dispatch 优化gdr preprocess 融合prefix caching 重构与修复cached_tokens 统计加入 usage接口与生态兼容OpenAI Responses-compatible endpoint/get_ppl端点AllowedToolChoice请求解析失败返回 400流式 usage chunks 对齐 OpenAI 规范chat completions 与 v1/messages 扩展 token-in、token-out、routed experts多模态链路强化qwen3.5(vit) inference 支持简化多模态预处理扩展修复旧版 VLM 预处理器降低多模态特征内存占用修复大图输入内存泄漏更新多模态模型支持文档稳定性与工程质量CUDA 错误处理整合与手动堆栈追踪engine health monitoring 改进XML 工具解析器优化与并行参数泄漏修复Windows 模型加载与 DLL 路径修复Dockerfile、CI、测试配置、依赖抽取等工程更新八、结语v0.14.0 是一次“面向实战部署”的全面升级代码地址github.com/InternLM/lmdeploy综合来看lmdeploy v0.14.0 并不是单纯增加几个新特性的例行更新而是一次非常典型的实战型版本迭代。附lmdeploy v0.14.0 更新清单总览新功能FP8 KV Cache 量化支持 Qwen3 Omniturbomind 后端支持 qwen3.5 视觉推理新增 OpenAI Responses 兼容接口新增/get_ppl端点改进更新 turbomind 建模基础设施整合 CUDA 错误处理并增加手动堆栈追踪新增 Qwen3.5 Moe lite awqsleep engine 时排空队列chat completions 扩展 token-in、token-out 与 routed experts增加 AllowedToolChoice并在请求解析失败时返回 400改进 health endpoint移除 state initmetrics 纳入 spec stats增加 raw chat completion logprob outputguided decoding CPU 操作转移线程池更新 gated delta rule state layout优化 dp 大于 1 的 kernel dispatchv1/messages 扩展 token-in、token-out 与 routed experts融合 gdr preprocess简化多模态预处理扩展支持配置 cudagraph capture batch sizes重构 PyTorch engine 前缀缓存fa3 prefill 多 padding 一个 block为 prefix caching 增加 cached_tokens 统计XML 工具解析器支持增量流式与快速缓冲路径Bug 修复修复 anthropic adapter修复 GPT-OSS 结构化输出W8A8Linear 初始化支持 dtype修复多模态 tensor 紧凑化修复旧版 VLM 预处理器归一化图像问题修复 Dockerfile 缺少 common.txt启用 SM80 及以上 GPU 的 FA3并修复 CUDA 版本比较修复 flatten_kv_cache 零填充流式 usage chunks 对齐 OpenAI 规范降低多模态特征内存占用修复大图输入内存泄漏修复 Intern-S1 HF checkpoint key 映射修复并发 tool-call 流式 delta 发射修复 cp inference避免解析器按请求重复 tokenizer 工作MixtralForCausalLM 回归 Turbomind修复 Windows 模型加载修复 RL 无 warmup 时 mtp cudagraphWindows 去除 CUDA_PATH 硬断言并多来源搜索 DLL修复单元测试中的不支持模型问题修复 qwen3.5 mtp修复 tilelang 新版本下 gdr kernel回退 mtp cudagraph buffer 复用修复 PyTorch MP engine client-disconnect session 泄漏修复 cancel stopped seqturbomind 支持num_experts_per_tok10修复批处理中不同 stop wordswarmup 移入 wakeup修复 dequant_mixed提升 engine health monitoring修复 qwen3.5 27b gdr preprocess修复由 vllm/llm-compressor 制作的 qwen3.5 量化模型 dequant mixed修复 decode delta kv_seqlens 的 max_q_seqlen 双重计数修复 ssm scheduler修复 XML 解析器并行 tool-call 参数泄漏修复 prefix caching文档更新多模态模型支持文档其他请求日志按 request level 控制补充 intern-s models 所需 rdkit公共依赖抽取至 requirements/common.txt移除 vlmevalkit 文档中过时 CLI 参数增加 response 日志用于调试PR 更新或合并时取消进行中的运行更新 qwen3.5 397b 测试更新视频测试校验最终 chat response 结构为 qwen35 mtp 支持 dp重构 testcoverage 配置更新 ascend 与 mtp 测试配置更新 FP8 处理逻辑并移除重复 MTP 测试冻结 tilelang 版本修复 Windows CI在 pr_test 中增加 mtp 测试配置支持 disaggregated weight update版本升级到 v0.14.0

相关新闻

MTK刷机救砖终极指南：如何用MTKClient拯救你的变砖设备？

G.168回声消除库在嵌入式DSP平台的集成与调试实践

终极指南：3分钟为Royal TSX添加完整中文界面，工作效率提升50%

最新新闻

编写算法评估服装文化符号价值，logo，纹样，版型分别赋值，计算总溢价空间。

nc 命令

EdgeRemover：Windows用户彻底卸载Microsoft Edge浏览器的终极解决方案

Windows和Office激活难题？这个开源脚本让你3分钟搞定！

【2024虚拟化平台迁移避坑白皮书】：从VMware转向Hyper-V的7个致命陷阱，第3个95%运维总监都踩过！

PvZ Tools终极指南：如何轻松解锁植物大战僵尸的隐藏玩法

日新闻

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

【Netty源码解读和权威指南】第54篇：Netty在Elasticsearch中的应用——分布式搜索引擎的网络通信

周新闻

Google AI Studio 300美元额度的真相与实战指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

月新闻