3D 堆叠技术:国产 AI 芯片突破‘内存墙’与‘面积墙’,弯道超车的关键!
AI 芯片发展遇难题3D 堆叠技术成新选择AI 大模型迭代速度惊人可存储与带宽增速却追不上模型膨胀‘内存墙’问题困扰行业已久。而且当前主流的 2.5D 封装技术是单一平面扩展布局布线资源受限、集成密度低在 AI 高算力场景下芯片面积无法进一步压缩。当横向扩展难以为继‘向上生长’的 3D 堆叠技术就成了必然选择。对国产 AI 芯片来说在先进工艺产能受限、高端 HBM 供给不畅的情况下3D 堆叠提供了‘空间换性能’、绕过部分工艺封锁的可行道路。封装技术从‘平面铺砖’到‘立体盖楼’在先进封装领域2.5D 封装通过在硅中介层上集成多个裸 die实现芯片间高速互连和短距离通信。硅中介层用硅通孔TSV技术实现垂直互连有高密度、高性能互连特性能提高系统整体性能。3D 堆叠技术通过芯片堆叠或封装堆叠如用硅通孔或混合键合技术增加功能、提高集成密度、降低封装成本还因缩短互连长度有助于提升运行速度。通过 3D 堆叠可将 2.5D 封装中原本平铺在不同芯片上的功能单元在垂直维度上进行物理叠层与电气互连突破平面集成的物理极限。3D 封装与 3.5D 封装采用了 3D 堆叠技术。3D 封装技术将多个裸芯片垂直堆叠借助硅通孔和微凸块等先进互连技术实现层间通信突破传统平面集成物理限制缩短电子传输路径降低传输延迟与功耗实现极高互连带宽和封装密度。3.5D 封装则在 3D 垂直堆叠基础上引入 2.5D 硅中介层进行横向扩展形成‘立体 平面’复合架构。当前国内主流 AI 芯片如寒武纪、昆仑芯、壁仞科技、天数智芯等基本都用 2.5D 封装技术将 GPU/AI 计算芯粒与 HBM 显存并排互连利用硅中介层Interposer和 RDL重布线层构建高密度互连网络。但这种显存外挂方案带宽普遍仅 1–4TB/s且受限于平面面积集成密度和互连带宽已接近物理极限。国际巨头3D 堆叠和 3.5D 已迈入量产阶段国际半导体巨头早已布局 3D/3.5D部分产品已进入量产交付阶段。2023 年AMD 发布了 Instinct MI300 系列 AI 加速器这是采用 3.5D 封装技术并实现量产的芯片产品。AMD 将其技术描述为 3D 堆叠 GPU 和 I/O 芯片通过混合键合融合并与标准 2.5D 封装相结合。AMD 的 3.5D 封装方案融合了台积电的 CoWoS2.5D 硅中介层和 SoIC3D 混合键合技术通过 Cu - Cu 混合键合将 GPU/CPU 芯片垂直堆叠在 I/O 芯片之上再依托 CoWoS 硅中介层与 HBM3 内存并排互连。2024 年 12 月博通公司首次公开发布了业界首个 3.5D XDSiPeXtreme Dimension System in Package封装平台。其结合了 2.5D 技术和采用 Face - to - FaceF2F面对面技术的 3D - IC 集成。该平台核心是 Face - to - Face(F2F)堆叠技术采用无凸块混合铜键合(HCB)直接连接上下芯片的顶层金属实现上下两层芯片顶部金属层的直接连接。相比传统的面对背F2B技术F2F 无需依赖硅通孔可让信号连接数量增加 7 倍将芯片间界面的耗电量降低 90%并减少 3D 堆叠内运算、内存和 I/O 元件间的延迟时间。2026 年已交付业界首款基于 XDSiP 的 2nm 定制计算 SoC 给富士通用于 AI 超算集群。英特尔的 EMIB 3.5D 封装技术将 EMIB 2.5D嵌入式硅桥横向互连与 Foveros Direct 3D混合键合垂直堆叠结合支持多种芯片异构灵活集成兼容 UCIe 行业标准。英特尔数据中心 GPU Max 系列 SoC 便是利用 EMIB 3.5D 打造的英特尔有史以来最复杂的量产型异构芯片内含超千亿个晶体管、47 个主动模块和 5 个制程节点。最近高通的高带宽计算HBC技术采用创新的专用近存计算架构通过 3D 堆叠硅基解决方案将计算与超高速带宽内存相融合解决 AI 计算中的数据搬运瓶颈。搭载第一代 HBC 技术的 AI250单卡可实现业界领先的 133TB/s 带宽速率与采用 LPDDR5X 的 AI200 相比有效内存带宽提升 18 倍搭载第二代 HBC 技术的 AI300 进一步实现阶梯式性能跃升有效内存带宽较 AI200 提升 54 倍。国产 AI 芯片集体选择 3D 堆叠面对国际巨头在 3D 堆叠和 3.5D 封装上的领先布局以及国内先进工艺产能和高端 HBM 供给受限国产 AI 芯片厂商正积极探索通过 3D 堆叠技术将存储单元和计算单元垂直集成。紫光集团的紫弦架构以 3D DRAM 为核心首创 3.5D 异质异构集成方案存储带宽可达 30TB/s。其 PNM 近存计算模式下访存延迟最多降低至 1/18模拟仿真显示同等算力下 Token 吞吐率较英伟达 B200 系列高出 1.5 - 2 倍且可基于国内供应链规模化量产。清微智能下一代 AI 芯片采用 3.5D 异构堆叠实现可重构计算芯粒与 DRAM 存储芯粒的三维垂直堆叠通过‘计算芯粒 存储芯粒’的垂直集成在先进工艺受限条件下以架构创新换取性能跃升。其第二代 3D 可重构芯片突破性采用 3D 存算一体 四芯 Chiplet 集成技术将传统芯片 2D 平面单车道传输模式升级为‘算力 4 车道 4 层存储高架’的立体架构大幅提升数据吞吐效率与算力密度在性能、能效、灵活性上形成显著优势。算苗科技旗下面向大模型推理的 3D TokenPU 芯片 A4E 已于 6 月 15 日正式流片实现依托国产供应链、采用 3D 混合堆叠架构的大模型专用处理器落地。第一代产品 A4E 将 8 层存储晶圆垂直堆叠在计算逻辑晶圆上通过硅通孔TSV与凸点bump技术实现微米级互联将传统芯片间的‘毫米级’传输距离压缩两个数量级带来 16TB/s 的超大访存带宽有效缓解数据饥饿问题。云天励飞宣布正在研发的推理芯片引入 3D 堆叠存储架构以获得更高带宽与更低访问时延突破‘内存墙’提升推理效率。前身为快手集团的异构计算与芯片事业部的凌川科技下一代芯片已于今年 4 月完成流片采用全国产 3D 堆叠技术首创 3D 近存架构针对散热、一致性、可靠性等行业关键痛点做了专项优化设计。其首款芯片 SL200 已累计销售近十万颗部署至快手、阿里云、百度云、B站等互联网公司覆盖快手 99.7% 直播转码业务稳定服务 7 亿用户。3D 堆叠需要跨越从实验室到量产鸿沟尽管 3D 堆叠前景广阔但 3D 堆叠的工程化难度远超传统封装。首先是热管理与散热。在传统的 2D 平面架构中裸片产生的热量可直接传导至顶部的均热板Heat spreader和散热器中。但在 3D 架构中热量必须克服重重阻碍垂直穿透多层硅片、TSV 阵列、聚合物底部填充胶Underfill以及微凸块界面。对于 2.5D 集成结构传统的空气冷却系统在大约 300 瓦的总功率下仍能维持运作但当系统转入真正的 3D 垂直堆叠时一旦封装总功率超过 350 瓦基于空气的散热将完全失效必须强制引入液冷系统与高性能的热界面材料。其次是混合键合工艺与良率。无凸点混合铜键合HCB要求10μm 甚至 1μm 级的互连间距对表面平整度CMP、键合精度、热膨胀匹配提出极高要求。硅桥与基板材料差异可能导致热膨胀不匹配引发机械应力与裂纹3D 堆叠工艺复杂良率提升依赖键合精度持续改进。第三是 EDA 工具与设计协同。3D 设计数据量爆炸性增长IC 设计师与封装工程师需深度协同现有 EDA 工具难以同时处理热、信号、电源完整性多维优化亟需发展热 - 电 - 机械协同设计平台。目前国际 3 家头部 EDA 企业均有针对 3D 堆叠芯片设计的一些工具支持而反观本土 EDA 企业专门做 3D 堆叠芯片设计的全流程设计工具还比较少有些企业可提供针对 3D 堆叠芯片仿真环节的部分点工具但涉及到布局布线、多芯片验证、Multi - Die DFT 测试等工具国内仍存在较大空白。第四是测试与可靠性。芯片 3D 堆叠封装技术的复杂性和高密度使得测试和可靠性成为重要挑战。需要开发新的测试方法和设备以确保封装体的质量和可靠性。同时还需要对封装体进行长期的可靠性评估以确保其在各种环境下的稳定工作。最后是组装复杂性与供应链。物理组装涉及不同厚度、不同热膨胀系数裸片的精密对准需要密集的热机械认证工作设计分析数据量远超标准封装。这也导致芯片 3D 堆叠封装技术的制造成本相对较高需要不断优化制造工艺和降低制造成本让芯片 3D 堆叠封装技术能够更广泛地应用于实际产品中。后摩尔时代晶体管微缩边际效益递减先进封装已成为‘超越摩尔’的关键。对于国产 AI 芯片而言在先进制程和高端 HBM 进口受限的产业现实下单纯追赶国际巨头的 2.5D HBM 路线已难以形成差异化竞争力。从紫光的紫弦架构到清微智能的 3.5D 异构堆叠国产厂商正在证明当平面扩展触及物理极限向上生长用三维维度重新定义芯片的集成方式或许正是打破‘内存墙’与‘面积墙’、在全球 AI 算力竞赛中实现弯道超车的关键所在。