每百万 Token 成本砍六成,出海 AI 团队开始重算推理这笔账
单个 token 的价格在下降但很多 AI 产品的账单并没有变轻。一家亚太的 AI 情感陪伴出海公司就撞上过这个问题。它不是没人用而是用户涨得越快亏得越多。语音交互、多模态生成、持续在线的陪伴关系把每一次调用都变成一笔细账模型要跑数据要传结果要送回海外用户手里。后来它换了一套推理基础设施把整体 AI 与 IT 成本砍掉约六成项目才从亏损转向盈利。我们带着这笔账找到了李文涛。他是 Akamai 亚太区云计算架构师总监这些年经手过大量出海团队的算力架构。在他看来出海的 AI 团队这两年正在发生一个明显的转变。三年前多数团队还在试水多是拿 AI 给主营产品加点增值功能在自己的模型上做些调优和打磨服务也没真正上量。今年开始重心从打磨模型转向把正式服务发出去、把钱投到推理上。越来越多团队跑通了产品接下来要做的是快速铺向全球、尽快盈利。在他接触的出海团队里AI 的用法也越来越广从早期做营销、广告和游戏素材的文生图扩展到文生视频再到情感陪伴、智能客服、会议转写、实时翻译以及电商个性化、库存预测、用户行为分析等场景。其中面向消费者的实时交互类应用比如陪伴和对话对成本和延迟尤其敏感。接下来的问题就很具体了。一个手里已经有模型、可能正在用 H100 或者消费级卡的团队到底该怎么把这笔账算清楚。我们和李文涛聊了三件事选哪张卡怎么算账把推理放在哪里跑。当年出海团队选 CDN是在为网页、视频和下载体验算账现在选推理跑在哪里是在为每一次回答、每一帧视频、每一段语音算账。区别只是这一次账单来得更快也更难藏在后台。以下为实录经不改变原意的编辑。硅星人很多团队默认跑推理就得上 H100真是这样吗李文涛不一定。英伟达的数据中心卡分好几档从中高端的 H100到中端的 RTX PRO 6000 Blackwell再到更老更小的型号每张卡擅长的工作不一样。英伟达对这些卡有定位有些更适合训练有些更适合推理。训练吃的是多卡互联和内存带宽推理更看重单卡能不能把模型装下、把并发顶住所以对很多推理场景来说H100 是杀鸡用牛刀。按英伟达自己的产品线资料RTX PRO 6000 在推理这一档被标为最高性价比。它最关键的一个特点是原生支持 FP4 精度这一点 H100 这一代Hopper 架构还做不到只能到 FP8。FP4 比 FP8 省一半显存对很多模型来说精度损失很小省下来的显存可以多扛并发。再加上 96GB 的大显存量化后单卡就能装下一个 70B-140B的 模型这是它跑大模型推理时真正占便宜的地方。硅星人能举个例子吗同样是 AI不同场景怎么配不同的卡李文涛我们一个韩国客户就是例子做《跑跑姜饼人》系列的 DevSisters。它在全球运营实时在线游戏有两个 AI 场景用了两张完全不同的卡。一个是游戏里 NPC 的实时对话背后是一个 70B 的大模型对实时性要求高跑在 RTX PRO 6000 上在 int8 精度下96GB 显存可以装下这个模型还留出 20 多 GB 给用户上下文和并发基本能把这张卡跑满。另一个是离线生成游戏素材的文生图模型小得多用上一代的 RTX 4000 Ada 就够更早之前他们用的是 A10、L20 这类更老的卡。一张高端卡跑实时大模型一张小卡跑离线生成就是按模型和场景把钱花在刀刃上。硅星人那为了省钱直接上消费级游戏卡或者显存小一些的便宜卡行不行李文涛国内确实有不少客户用比较低端、甚至消费级的卡跑推理比如 5090 这种PC游戏卡这里面有几个问题。一个是算力创业初期拿它跑通产品没问题但用户量一上来、模型一迭代很快会撞到显存容量和带宽的瓶颈。再一个是可靠性消费级卡在这块设计上有局限比如没有 ECC 显存纠错机制KV 缓存里一旦出错就可能导致服务中断。还有扩展性它不支持 NVLink连卡间GPUDirect P2P直通也不支持一旦要多卡协作性能会断崖式下跌。所以从算力到可靠性再到扩展性消费级卡都不是长久之计。另外有些团队用显存 48GB 甚至更小的卡比 RTX PRO 6000 小一半左右跑小模型没问题真要跑一个 70B单卡装不下就得拆成两张卡和卡之间的通信复杂度和开销一上来反而不划算。硅星人聊回 RTX PRO 6000你们自己测过说它的推理吞吐能做到 H100 的 1.63 倍。这个数怎么测的又是什么样的团队其实不该选它李文涛那个测试用的是业界开源的 Llama 70B 模型按英伟达推荐的标准方法测的从吞吐看RTX PRO 6000 能做到 H100 的 1.63 倍。而且这还只是吞吐的比较从性价比的角度看优势会显著高于 1.63 倍。这里我补充一个点我们在 RTX PRO 6000 上跑的时候用的是 FP4 精度相比常用的 FP8、int8它在精度几乎不损失的情况下又把显存需求降了一半H100 这一代还不支持 FP4只能用 FP8。即便这样我们的吞吐还是做到了它的 1.63 倍。至于什么样的团队不该选它如果是要训练参数量在数百亿甚至更大的模型需要 HBM3 那种高显存带宽、支持 NVLink 的卡那 H100、甚至 B300 这类更高端卡的会更合适。RTX PRO 6000 的强项是推理而且它能用的场景很广从推理、后训练调优到数据分析、科学计算、实时渲染都行是英伟达数据中心卡里用途最广的一款。选卡说到底还是看它配不配得上自己的模型和业务最强的那张往往不是最划算的。硅星人注1.63 倍是 RTX PRO 6000 用 FP4、H100 用 FP8 比出来的差距很大一部分来自精度本身并不是同精度下的硬件差距。第三方测试机构 CloudRift 做过一组同模型、同量化、同框架的对比结论是两张卡的推理吞吐基本持平RTX PRO 6000 每百万 token 的成本低约三成。换句话说拉到同一精度两者接近能用上 FP4才是 RTX PRO 6000 真正拉开差距的地方。硅星人选完卡接下来是算账。推理的成本除了 GPU 每小时多少钱还有哪些容易被忽略的李文涛除了 GPU 的租金推理时其实还有不少周边成本容易被忽略比如 CPU、存储和网络流量。以 GCP 为例同一台 GPU 机器里的 CPU 和存储是分开计费的只看 GPU 单价各家差不多把 CPU、本地存储、网络都算进去差距就拉开了。Akamai 是把 GPU、CPU、存储、网络打包卖的据我们自己测算同样一台机器的性价比比 GCP 的同类机型高出一倍多。最容易被低估的是出站流量也就是 egress。训练是一次性投入推理却是持续在跑做语音、图片、视频这类多模态生成一次请求传出去可能就是几十兆到几百兆。Akamai 的出站流量按约 0.005 美元一 GB 算只有大厂常见价格的二十分之一左右大厂动辄要 0.08 到 0.10 美元。这和我们做了多年 CDN 的底子有关长期和运营商互联把缓存服务器放进运营商网络带宽和跨网结算的成本结构本来就和一般云厂商不同。另外AI 应用现在很多是多云架构要和别的云上的应用互访。Akamai 用做 CDN 起家的那张全球骨干网把自己所有的云区域打通还和几乎所有主流云直连客户跨云互访不额外掏一笔带宽费。随着 AI Agent 越来越多地调用外部工具和云上服务多云之间的频繁互访会把网络成本和延迟重新放大这种打通到时会更加提升性价比应用部署也更加灵活。硅星人价格上Akamai 在市场里大概是什么位置李文涛大厂的 GPU 定价普遍偏高条款也比较苛刻往往要客户承诺比较大的使用量才放出一点折扣。纯卖裸 GPU 的算力云确实便宜但很多是规模不大的初创公司算力的全球分布并不完整服务质量和可靠性也有待验证。Akamai 想兼顾的是性价比和企业级的全球网络与服务。对出海团队来说还有很重要的一层是本地化服务。很多问题不是出在国内总部而是出在目标市场当地有没有技术团队、能不能做24*7的架构咨询和故障响应会直接影响生产服务能不能长期稳定地跑下去。Akamai 在中国做了十几年一直服务中国企业出海在国内和目标市场都有技术团队和资源客户也能方便地用上我们全球的技术支持。除了性价比这是客户很看重的地方。硅星人能不能讲一个真实的案例从选卡、部署到成本账是怎么一步步算下来的李文涛我们有一个做情感陪伴的亚太客户。它原来用大厂的 A100比较老的旗舰训练卡做多模态的语音交互。A100 的租金本来就高再叠加比我们高 20 多倍的出站流量每生成一百万 token 的综合成本接近 4.5 到 5 美元。后来我们帮它优化架构换到 Akamai 推理云、用 RTX PRO 6000、精度上 采用FP4出站流量也降到几乎可以忽略综合成本降到 1.8 美元整体的 AI 与 IT 开销砍掉六成项目从亏损转向盈利。这也是不少出海团队走的路起步图省事用大厂跑到一定规模、单位成本压不下去时再靠开源自建加合理选卡迁出来。迁移这件事我们配了专门的架构师和商务方面的支持。硅星人除了选卡和选云模型这边还有压成本的空间吗李文涛空间不小。我们推荐 FP4 量化它比 FP8 对显存的需求小一半精度损耗几乎可以忽略省下来的显存可以多扛并发、放更大的上下文。再加上把 KV 缓存从显存挪到内存单卡能服务的量就上去了。我们有个做 AI 消费体验的海外客户靠这些办法把单张图片的生成成本压到了一美分上下。模型侧和基础设施侧的优化是叠加的两边都做单位成本才真正压得下来。硅星人延迟对出海的 AI 产品有多重要位置对它的影响又有多大李文涛延迟对出海产品比较重要的毕竟中国出海的很多是 to C、实时交互类的产品。对一个大模型来说首个 token 如果超过两秒用户就会觉得 AI 卡住了可能会流失这跟以前网页加载太慢、用户放弃率高是一回事。对话类大概是两秒这个量级实时语音、在线客服会更苛刻几百毫秒用户就能感觉到延迟大了。前面说的 DevSisters实时多人在线的游戏互动也是要优化延迟的场景。这些都还是 to C 的场景再往后像自动驾驶、机器人这种要在物理世界里实时反应的对延迟和可靠性的要求只会更高。这里面其实是两件事一是离用户近不近二是网络路径好不好后面这点常被忽略。从区域数量看三大云全球大概 30 到 50 个我们的核心云区域在全球有32个在网络边缘我们铺了 4400 个节点覆盖了130个国家这个量级上比三大云多了上百倍。节点离用户越近中间的网络跳就越少。不过这些节点不是每个都能跑大模型它为推理提供周边服务如函数即服务容器服务边缘AI网关等。。网络路径这方面我们做过一个对比帮一个卡牌游戏客户它之前用亚马逊的华盛顿区域服务南美的西语用户换到我们的华盛顿区域之后到南美的延迟缩短了大概 15%。两边都在华盛顿物理距离没变变的是流量进入和穿过互联网的路径。硅星人除了选区域还有别的办法降延迟、降成本吗李文涛有有时候还能跳出纯 GPU 的范围。我们有个客户做全球的家庭安防摄像头本来打算全部用 GPU 跑机器视觉后来发现这个工作流可以拆成两步先把视频里有异常的帧抽出来再把这些帧交给 GPU 去识别。抽帧这一步我们用一个叫 VPU 的视频处理芯片来做把它从 GPU 上卸载下来跟 GPU 配合成本降了三到五成。把一个推理流程拆开、每段放在最合适的硬件上能省不少成本。当然不是所有推理都适合下沉到边缘。大模型训练、超大模型的多卡推理仍然更适合集中在少数高算力的集群里。边缘真正擅长的是那些对响应速度、跨区域体验和流量成本和数据合规更敏感的推理服务。硅星人往前看 6 到 12 个月一个准备出海的 AI 团队在算力这件事上最该提前准备什么李文涛这取决于业务形态但要说通用的建议现在 AI 的模型和技术迭代都非常快越来越多企业在转向 Agent 式的架构所以设计云架构时别只盯着当前的需求要往更长远看搭一个能适应 Agent 时代的平台。具体是三点。一是多云友好前面说的跨云打通就是在为这个做准备。二是技术栈的选择是用大厂的私有技术栈像 Bedrock、Vertex AI 这种还是用开源加基础设施服务搭一个没有技术锁定、容易迁移的技术栈这个选择很重要。三是 Agent 时代会带来新的扩展性和安全需求人和模型的交互如果是一个量级Agent 和 Agent 之间的交互可能是数百、数千甚至上万倍的量级平台的扩展性、可管理性和安全都要充分考虑。硅星人最后一个问题。对想出海的 AI 团队最该补的能力是什么李文涛最该补的是规模化的运营能力。具体来说是海外的安全合规、面向全球用户的扩展性以及产品体验在不同市场的适配。技术上中国团队并不缺更需要专注的是把一个能跑通的产品做成一套能在全球稳定、高扩展、安全和低成本运转的系统。尤其是合规和安全这方面分量越来越重。应用一旦做到欧洲就要面对 GDPR做到美国又有 CCPA 这类严格的数据合规要求再加上 AI 应用本身正在成为新的攻击面。Akamai 本身是从 CDN 起家、转向网络安全、再转向云的防 DDoS、全球合规这些能力是直接长在这套推理云基础设施里的。对出海团队来说算力和安全合规可以在一处一起解决。