【OpenAI推理成本减半引发关注】6月30号晚上The Information发布了一篇文章标题十分吸睛OpenAI工程师找到办法推理成本直接砍一半。经仔细阅读其核心内容为OpenAI的工程团队本月向同事透露推理成本降低了超过一半。成本降低并非依靠更换新芯片或进行架构革命而是在纯软件层面提升了现有服务器的利用率。这一优化主要应用于ChatGPT未登录用户的流量。优化后仅需几百个NVIDIA GPU就能满足需求。要知道ChatGPT每天有几亿用户使用以往仅未登录的访客就需要大量算力支持如今几百个GPU便足够了。【美股硬件股表现与市场逻辑】关注硬件的人看到这一数字难免会担心需求是否会出现问题。看看昨晚美股的表现AMD涨超7%盘中创历史新高Wells Fargo将其目标价从505美元上调到615美元Cantor Fitzgerald更是直接给出700美元的目标价。分析师预计AMD的服务器CPU营收在2026年同比将上涨68%。SanDisk也受到关注Bernstein直接将其目标价从1700美元提升到3000美元这只股票今年涨幅达781%在标普500中排名年度第一。Bernstein认为SanDisk签订了大量长期内存协议以每GB 0.29美元的低价锁定成本即便内存价格暴跌72%到2030年每股盈利仍能达到214美元。此外昨晚美股台积电涨了3%Intel涨超7%费城半导体指数涨超3%纳斯达克涨超2%。一边是The Information提示算力可以砍半另一边华尔街却在热捧硬件股这种情况看似矛盾实则并非首次。在过去18个月里类似的“利空”至少出现了四轮且每一轮市场的反应都不尽相同。【过往“利空”事件回顾】第一次是在2025年1月27号DeepSeek推出主打免费开源好用。而当时硅谷宣扬的是训练一个前沿模型需要耗费几十亿美元上万张顶配GPU还需排队等待供货。DeepSeek的出现打破了这一说法当天英伟达股价下跌17%市值蒸发5890亿美元费城半导体指数下跌9.2%纳斯达克跌超3%博通跌17%Marvell跌19%美光跌11%。不过两天后股价开始反弹11个月后全部收复失地NVIDIA还创下新高。第二次是今年2月份OpenAI此前宣称未来八年投资1.4万亿美元进行基建此次却向投资人表示到2030年算力支出为6000亿美元。这一变化引发华尔街的关注有人质疑算力需求是否已到顶。实际上这两个数字的统计口径不同一个是八年全基建承诺涵盖数据中心、硬件、电力、人力等所有方面另一个是五年纯算力支出仅计算训练和推理的费用。市场在明白这一点后一周内便消化了这一消息。第三次是在2026年4月28号《华尔街日报》报道OpenAI用户数未达标周活目标10亿未达成营收目标也未完成多个月度KPI均有差距CFO甚至警告若情况持续可能无法支付数据中心账单。此次事件导致费城半导体指数下跌3.6%甲骨文跌超4%AMD跌3.4%CoreWeave跌5.8%。但一个月后股价全部收复并继续创新高。第四次是六月初的博通财报AI芯片营收同比增长143%这一数据相当惊人。然而市场并不买账原因是华尔街私下流传着一个“耳语数字”官方一致预期每股2.4美元博通实际交出2.44美元虽超出预期但与耳语数字2.45美元相差一分钱。这一分钱导致两天内AMD跌了12.6%美光跌了17%Intel跌了9%全球半导体板块蒸发超过一万亿美元。不过三周后股价全部收复AMD和Intel均创下历史新高。第五次就是此次OpenAI推理成本减半事件市场反应是全线上涨。【市场免疫力增强的原因】将这五次事件排列在一起可以发现市场的反应逐渐趋于平稳。第一次暴跌一天大半年修复第二次恐慌一个周末一周消化第三次下跌一天一个月恢复第四次下跌两天三周收复第五次则根本未跌。这并非是“鬼故事”减少了而是市场的免疫力在不断增强。市场经过18个月的思考终于明白这些“鬼故事”每次打击的都是同一个地方而这个地方并非要害。AI硬件生意可分为两层上层是“装修”即软件和算法如FlashAttention、模型蒸馏、推理优化、量化压缩等其目的是在同一颗芯片上挖掘更多性能下层是“房子”即物理硬件包括芯片、内存、先进封装、代工产能等这些硬件的供给较为刚性。回顾这五次“鬼故事”无论是DeepSeek训练成本降低、OpenAI算力支出调整还是推理成本减半都只影响到了“装修”层面并未触及“房子”的需求。实际上装修越便宜房子反而越值钱。以Anthropic的数据为例2024年其每卖1美元token推理的硬件成本接近2美元毛利率为负94%到2025年毛利率提升至约38%今年二季度推理毛利率预计已达到百分之六十几。这表明价格下降的同时利润率反而提高了软件优化对卖token的公司来说是有利的。此外成本下降并未导致需求减少反而刺激了需求增长。中国官方数据显示2024年初中国大模型日均词元调用量为1000亿到今年3月达到140万亿两年内增长超过一千倍。现在人们使用AI的方式更加复杂需求不断增加。Meta将退役服务器上的旧DDR4内存拆下来复用也反映出内存需求的紧张。不过这一切的前提是需求的增速持续超过效率的提升。目前数据显示token消耗的增速远快于成本下降的速度但如果未来需求增速放缓那才是真正的利空。【AI从训练时代到推理时代的转变】6月30号的盘面中还有一个现象值得关注AMD和Intel涨幅均超7%而英伟达仅上涨1.3%差距明显。这并非偶然从当天的催化因素来看分析师上调AMD的评级关注的是服务器CPU在AI推理场景的渗透率Bernstein看好SanDisk关注的是NAND闪存的长期供货协议。资金流向CPU和内存领域内存市场的数据也能直观反映这一趋势。今年4月一支内存主题ETF上市10个交易日资产管理规模突破10亿美元25天突破50亿美元。闪存合约价一季度环比上涨55% - 60%二季度涨幅扩大到70% - 75%。内存占云巨头数据中心支出的比例从2023年的约7%增长到今年的30%三年翻了四倍多。这是因为AI从训练时代进入了推理时代瓶颈发生了变化。训练时GPU性能是关键英伟达在此领域占据优势而推理时每生成一个token都需要从内存中反复读取模型参数此时内存成为了瓶颈。可以将内存比作AI工作的“桌子”即使大脑算力再快桌子不够大也会影响工作效率。在当前需求快速增长、供给增长缓慢的市场中物理硬件具有重要价值软件和模型的优化会进一步提升其产出价值。因此AI效率的提升并不会使硬件失去价值AI硬件的故事可能还会持续一段时间。那么未来市场又会如何发展呢