作者毛烁网络设备正从100G、400G迈向太比特级互联视频处理从4K升级至8K乃至沉浸式应用无线通信开始向6G演进边缘侧Agentic AI也具备越来越复杂的推理能力。这些变化共同推动嵌入式系统对内存容量和带宽提出更高要求高速网络数据包处理、宽带RF信号处理、实时图像增强等任务都需要比上一代更大的内存资源。01 HBM为何在边缘侧“水土不服”与数据中心不同嵌入式系统无法通过增加服务器节点、扩展机架来缓解内存压力。无论是专业摄像机、遵循OCP 3.0标准的智能网卡还是PXI模块化测试仪器都必须在有限的PCB空间内兼顾功耗、散热、尺寸和可靠性。这使得行业面临着架构级矛盾。应用需求持续增长系统物理空间却几乎没有扩展余地。如何在有限空间内提升内存容量和带宽同时控制功耗、成本和设计复杂度成为嵌入式系统设计的核心挑战。借鉴数据中心的发展路径引入HBM被业界认为是可行方案。然而随着产品落地HBM与嵌入式应用之间的矛盾也越来越明显。其一是生命周期不匹配。工业控制、医疗设备等产品通常需要10至15年的持续供货而HBM受数据中心市场驱动产品迭代速度快一旦某代器件停产整个平台都可能面临重新设计。其二是环境适应能力不足。大量工业级设备需要支持宽温甚至需要低温环境运行而现有HBM产品普遍难以满足工业级宽温认证要求限制了其在关键场景中的应用。其三是成本结构失衡。HBM依赖CoWoS、硅中介层等先进封装工艺不仅制造成本高还受到先进封装产能的限制。数据中心可以依靠大规模部署和高算力利用率摊薄成本但嵌入式产品出货规模相对有限更关注成本、功耗、尺寸和长期可靠性HBM带来的高性能很难转化为相应的商业价值。归根结底对于嵌入式市场而言需要的并非是数据中心的内存方案而是能够在容量、带宽、尺寸、功耗、成本,以及长期供货之间实现平衡的新型内存架构。02 MoP封装重塑“功耗、空间、性能”铁三角面对行业的困境AMD 最近推出了第二代 AMD Versal Premium MoPMemory on Package封装上内存自适应SoC。第二代 AMD Versal Premium Memory on Package MoP 器件其实该器件并没有沿用 HBM所依赖的硅中介层和CoWoS 先进封装而是采用“有机基板无硅中介层”的 MoP 封装工艺将符合JEDEC 标准的LPDDR5X 内存直接集成到自适应SoC封装内部。这种路线选择源于嵌入式市场与数据中心截然不同的需求。AMD自适应与嵌入式计算事业部 高级产品管理经理Mike Rather强调CoWoS成本高、先进封装产能紧张更适合服务数据中心。而MoP则面向嵌入式系统对空间、功耗和成本的需求重新定义了系统级内存集成方案。从物理结构来看第二代AMD Versal Premium MoP在封装顶部集成最高1.5M LUT 的计算芯片底部则通过有机基板与四颗 LPDDR5X 组件直接互连。具体来说这一设计带来的价值首先体现在容量、带宽与空间的突破上。传统离散内存方案需要将计算芯片和外部内存颗粒分别焊接在PCB上内存器件及高速布线占据了大量板级空间。以第二代 AMD Versal Premium MoP的典型高性能系统为例其采用分立方案2VP3602 器件搭配8颗32bit LPDDR5X时整板面积约为107mm×74mm。而采用第二代AMD Versal Premium MoP2VP3622后封装尺寸缩减至55mm×57.5mm板级面积减少约60%。更重要的是这种缩减并非以牺牲性能为代价。2VP3622在LPDDR5X-9000配置下仍可提供32GB内存容量和288GB/s内存带宽似的容量、带宽与空间利用率的同步提升。正因如此PCIe HHHL半高半长插卡、OCP 标准网卡、企业级 EDSFF存储设备以及各类小型化定制系统都拥有了更大的设计空间。相比空间节省更大的改变来自开发流程。在传统高速DDR接口开发中从器件选型、原理图设计到电源完整性PI、信号完整性SI分析再到高速PCB布线和板级验证每一步都需要大量工程投入。这其中高速DDR布线往往还需要增加 PCB 层数不仅推高制造成本也增加了信号调试和反复流片的风险。然而第二代 AMD Versal Premium MoP将LPDDR5X 与计算芯片直接集成在同一封装内并在出厂前完成内存互连及相关验证。封装内部互连间距仅0.4mm对外引脚间距则达到0.92mm可直接适配标准PCB 工艺。这意味着工程师无需再自行完成高速内存接口的设计、布线和调试开箱即是已经验证完成的完整内存子系统而非需要重新集成的内存颗粒。相比采用分立内存重新开发硬件平台工程师可以省去高速DDR接口开发和验证环节节省开发时间缩短产品上市周期。对于嵌入式系统来说开发效率只是产品价值的一部分。工业控制、通信设备以及关键基础设施等应用往往需要持续运行十年以上相比峰值性能用户企业更加关注产品能否长期稳定运行以及核心器件能否持续供应。其实第二代 AMD Versal Premium MoP采用了符合JEDEC 标准的LPDDR5XAMD能够提供超过15年的产品生命周期支持使产品无需随着HBM快速迭代而被迫重新设计从而降低因内存停产带来的平台维护成本。除了可靠性和生命周期MoP的封装结构本身还带来了额外的安全优势。由于内存芯片与计算核心集成在同一封装内外部难以直接探测或接入内存信号天然缩小了硬件层面的攻击面。在此基础上该器件通过进一步集成DDR内存加密无需占用可编程逻辑资源、PCIe 6.0 IDE 完整性保护与数据加密以及硬化的400G高速加密引擎可对静态数据和传输中的数据提供全链路保护在保证吞吐性能的同时满足金融等敏感行业的安全与合规要求。03 深水区博弈应用场景与供应链“新解法”第二代AMD Versal Premium MoP在架构层面重新平衡了容量、带宽、尺寸和开发效率而检验这套方案价值的却需要落到具体应用场景中。广播视频与测试测量正是目前典型的两类场景。其中广播视频正在向IP化、智能化快速演进。新一代专业摄像机不仅需要同时处理多路4K、8K视频流还要支持ST 2110确定性IP网络传输并在边缘端完成目标检测、内容分析等AI推理任务。在有限的机身体积内既要容纳更大的内存容量也要集成更多计算资源板级空间已经成为新的瓶颈。测试测量领域同样如此。以PXI平台为例厂商需要在标准3U PXI机箱内完成5G、6G宽带信号采集、深度缓存以及高速回放同时还要不断缩短新品研发周期。在固定尺寸下每节省一块PCB面积都意味着可以集成更多模拟前端、接口或计算资源。面对这些场景Mike Rather强调不同应用有不同答案。例如高端示波器更依赖持续的数据缓冲能力因此需要容量和带宽兼顾而网络设备、更紧凑的边缘计算平台则更加看重有限空间内能够集成多少计算资源。MoP的价值是在容量、带宽、尺寸以及开发效率之间重新建立平衡让不同类型的系统能够根据自身需求完成取舍。另外还值得注意的是第二代AMD Versal Premium MoP并非完全重新设计的新平台而是建立在第二代Versal Premium已经完成验证的架构基础之上。其绝大部分第二代的 Versal Premium IP以及封装上内存的IP都已经在 Versal Premium 的平台上获得了验证所以MoP更多是在成熟平台上完成内存集成创新这也是其能够进一步缩短开发周期的重要原因。除了产品设计本身在供应链方面过去几年大模型训练持续推高HBM与高性能内存需求整个存储产业链的资源不断向数据中心领域倾斜嵌入式行业也因此承受越来越大的采购压力。对此AMD正在发挥另一层价值。由于采用符合JEDEC标准的LPDDR5X并完成多家内存供应商的兼容性验证AMD可以统一完成LPDDR5X的采购、验证和封装再将完整器件交付客户。这意味着客户采购的不再是FPGA与内存颗粒而是已经完成系统级验证的计算平台。对于很多嵌入式企业而言这不仅减少了高速内存设计的工作量也降低了单独采购LPDDR5X、进行兼容性验证以及应对供应波动的复杂度。某种程度上MoP所带来的不仅是新的封装也是新的供应模式。04 写在最后后摩尔时代更重要的是“工程平衡”事实上AMD并没有将MoP定义为唯一的发展方向。此次更新的第二代Versal Premium系列同时提供了采用传统外部内存方案的版本支持最高4条RDIMM、超过512GB DDR5容量以满足更大容量和灵活扩展需求MoP版本则针对空间受限、开发周期敏感以及长期部署的嵌入式应用。根据产品路线图第二代Versal Premium非MoP版本样片已经推出计划于2026年底量产MoP版本样片预计于2026年第四季度供货大规模量产则计划于2027年第三季度启动。回顾半导体的发展历程计算与存储之间的距离始终在不断缩短。从板级离散内存到数据中心采用的HBM与CoWoS再到将LPDDR5X集成进封装的MoP每一次变化的背后都对应着不同应用场景对系统架构提出的新要求。这也意味着MoP的价值并非在于取代HBM也不是为了盲目追求最先进的封装技术而是在嵌入式应用的现实需求下为系统架构提供另一种选择。随着边缘AI、物理AI、高速网络、工业自动化以及专业视频系统不断提升对内存容量和带宽的需求传统板级内存架构正在逼近空间和成本的双重瓶颈。第二代AMD Versal Premium MoP给出的答案就是在成熟工艺、长期供货、开发效率和系统集成之间寻找新的工程平衡。对于如今的嵌入式计算而言这种面向应用场景的平衡或许比单纯刷新性能参数更加重要