个数字引发的思考0.05ms上周LiteLLM 发布了一篇技术博客宣布正在用 Rust 重写核心网关。数字很震撼指标Python 版Rust 版差距每请求延迟~7.5ms~0.05ms150 倍吞吐量50 并发453 req/s6,782 req/s15 倍峰值内存358.9MB31.7MB11 倍0.05ms 意味着什么网关本身的开销基本消失了。你的请求从进来再到转发给上游 LLM中间只花了 50 微秒。瓶颈完全在 LLM 那边不在网关这里。31.7MB 意味着什么一个吃 32MB 的进程你根本注意不到它在跑。部署到生产环境每个 pod 都省几百 MB跨区域、跨副本一乘云账单差异巨大。但如果我们只看 LiteLLM 这一个案例会误以为这只是某家公司的性能优化。把时间线拉长你会发现一个更底层的趋势AI 基础设施正在分层重构Python 正在被系统性替代。二、Rust 的替代逻辑Python 运行时层的性能替代2.1 为什么管道层必须 Rust 化AI 工具链里有一类组件不做模型推理但负责把数据搬到正确的地方——路由、转发、检索、格式化、持久化。这些活的共同特征高频、低延迟、内存敏感、长期稳定运行。而 Python 在这些场景下有几个结构性问题第一GIL全局解释器锁。Python 的多线程在高并发 I/O 场景下基本是摆设。AI Gateway 是什么就是高并发 I/O——同时几百个请求进来每个都要转发给不同的 LLM 提供商。GIL 让 Python 先天吃亏。第二内存不可控。引用计数 垃圾回收长时间运行的服务内存会慢慢涨涨到 OOM kill。LiteLLM 的原话Python proxys memory consumption multiplies across every pod, region, and retry, causing OOM kills at critical moments.——最关键的时候它崩了。第三部署体积。Python 服务需要解释器、依赖、虚拟环境。Rust 编译出来就是一个二进制文件扔上去就能跑。2.2 这不是个案是趋势如果你关注 AI 基础设施的演进会发现 Rust 已经渗透到了各个管道层终端 Agent 层Claude Code 的 harness 生态里CodeWhale、oh-my-pi 都是 Rust 写的记忆引擎层AgentMemory 核心检索路径用 Rust 优化全文检索从百毫秒级降到个位数毫秒AI Gateway 层LiteLLM 正在 Rust 化此前还有多个开源网关项目已经迁移这些项目的共同点它们都是 AI 工具链里的管道。Rust 的所有权系统在编译期就干掉了数据竞争和内存泄漏没有 GC内存分配是确定性的编译产物是单二进制文件——这些设计目标恰好命中了 AI 管道层的核心矛盾。2.3 LiteLLM 的迁移策略最值得学的不是技术是节奏LiteLLM 没有一夜重写。它分了四个阶段每个阶段都能独立上线、拿到收益Stage 0纯 PythonFastAPI—— 当前状态 Stage 1Rust 核心 Python I/O Rust 负责数据转换请求/响应/流式块/token 计数 Python 仍然负责网络、数据库、认证 通过 PyO3 桥接 Stage 2FastAPI 变成薄壳 认证、限流、回调还在 Python 整个转发路径变成一次 Rust 调用 Stage 3纯 Rust 服务器axum/hyper Python 彻底退出热路径 用户的 Python 插件通过可选 sidecar 继续运行路由按风险排序迁移先迁最简单的 OCR再迁 /v1/messages加流式复杂度最后迁 /chat/completions最大表面积工具调用、多模态。每条路由迁移前过一致性检查——Rust 版本输出必须和 Python 版本完全一致才能激活。这不是技术决策是工程决策。技术上用 Rust 重写不难难的是怎么在生产环境里一步步替换不翻车。时间表半年四步走。2.4 但 Rust 不是银弹150 倍这个数字需要看测试条件——LiteLLM 的 benchmark 用的是 mock upstream模拟上游 LLM只测网关本身转发性能。在真实场景下你的瓶颈在 LLM 那边动辄几秒网关从 7.5ms 降到 0.05ms 的体感差异没有 150 倍那么夸张。它解决的是网关自身不成为瓶颈和内存不爆炸。Rust 的开发成本也是真实的。学习曲线、编译时间、类型系统的严格程度都意味着开发速度会比 Python 慢。LiteLLM 能推进这个迁移说明团队已有足够的 Rust 能力——不是每个团队都能做这件事。最终形态里用户的 Python 插件仍然通过 sidecar 运行。这暗示了一个事实Python 在 AI 生态里的位置短时间内不会被 Rust 取代它会被推到它擅长的层——运行时归 Rust用户自定义逻辑和快速原型归 Python。这个分工比全 Rust更健康。三、C#/.NET 的替代逻辑企业 AI 全栈的生态替代如果说 Rust 是在管道层与 Python 正面竞争性能C#/.NET 走的是另一条更隐蔽的路——让企业级 AI 应用彻底不需要 Python。3.1 推理层原地替代无需桥接.NET 10 引入原生 ONNX 支持ML.NET 作为本地推理引擎让 C# 应用可以直接运行模型推理。对于企业业务场景分类、异常检测、推荐这消除了Python 做模型、C# 做业务的架构割裂。你不需要一个 Python 微服务来做推理C# 应用自己就能跑。3.2 编排层Microsoft Agent Framework 的原生 C# 生态2025 年 10 月Microsoft 将 Semantic Kernel 和 AutoGen 合并为统一的Microsoft Agent Framework。这不是简单的 SDK 更新而是一个战略信号C# 是最成熟的 SDK 语言Python/Java 次之与 Azure OpenAI、Ollama 等提供商深度集成与 .NET Aspire 的云原生 AI 部署能力打通内置 Agent Governance Toolkit运行时安全层亚毫秒级策略执行这意味着在 .NET 企业生态中AI Agent 的编排、规划、记忆、工具调用全部可以用 C# 原生完成。不需要引入 Python 技术栈不需要维护两套语言环境不需要在 C# 和 Python 之间做序列化/反序列化的性能损耗。3.3 性能不如 Rust 极致但足够好维度Rust (Axum)ASP.NET CorePython (FastAPI)吞吐量~500k req/s~150-300k req/s~10-20k req/s内存占用5-30MB50-200MB200-500MB启动时间毫秒级秒级JIT秒级解释器开发效率低所有权系统高成熟生态极高动态类型C# 的 GC 虽然存在但 .NET 8/10 的 Server GC 已大幅优化对大多数企业 API 场景不是瓶颈。更重要的是依赖注入、中间件管道、OpenAPI 集成、身份认证——这些在 .NET 里是一行配置的事在 Rust 里需要手动组装观测性、合规、治理、Azure 生态集成——这些是企业级刚需Rust 生态目前欠缺.NET 开发者可以直接上手学习曲线远低于 Rust3.4 关键差异Rust 是管道工C# 是建筑师维度RustC#/.NET替代 Python 的层面运行时基础设施网关、路由、代理企业应用全栈推理编排业务核心优势极致性能、内存确定性、无 GC开发效率、企业生态、Azure 集成与 Python 的关系Python 退居插件层SidecarPython 可能根本不出现在架构中适用场景高并发 I/O、边缘计算、Serverless企业业务系统、Azure 云原生、合规场景学习曲线陡峭所有权系统平缓.NET 开发者可直接上手部署形态单二进制10MB运行时依赖但容器化/云原生支持成熟四、两条路径的交汇点AI 基础设施正在分层重构过去十年AI 领域发生过两次基础设施迁移