核心观点AI时代存储不再是算力的附属品而是决定AI能力上限的关键因素。从存算一体到存算分离从机械硬盘到全闪分布式存储架构正在经历深刻变革。高性能全闪存储、并行文件系统、数据湖架构、向量检索引擎正在共同构筑AI时代的记忆系统。一、为什么存储是AI的核心瓶颈之一1.1 AI训练的数据饥渴症大模型训练有句行话数据决定上限模型只是逼近这个上限。但很多人忽略了后半句存储系统决定了数据能不能被高效地喂给模型。在算法迭代步入小时级的2025年企业级AI基础设施正经历从算力为王到存算协同的深刻转变。一个千亿参数的大模型训练数据量达到TB甚至PB级别而且这些数据需要被反复读取、预处理、增强。如果存储系统跟不上GPU就会像等米下锅的厨师——算力再强没数据也白搭。1.2 AI存储的五大挑战AI场景对存储的要求和传统业务场景有本质的不同1. 超高带宽需求大模型训练需要持续、稳定的高带宽数据供给。一个千卡集群每秒可能需要读取几十GB甚至上百GB的数据。传统存储的带宽根本喂不饱。2. 海量小文件处理AI训练数据往往是海量的小文件图片、文本片段等可能是几百万、几千万甚至上亿个文件。传统文件系统在处理海量小文件时元数据操作会成为严重瓶颈。3. 复杂的混合负载AI存储不是只做一件事。训练时需要高带宽顺序读推理时需要低延迟随机读数据预处理时需要高并发随机读写。多种负载混合对存储系统的QoS能力要求很高。4. 数据生命周期管理AI数据有明显的生命周期特征热数据正在训练的、温数据准备训练的、冷数据归档保存的。不同温度的数据需要不同的存储介质和策略才能平衡性能和成本。5. 多模态数据统一管理大模型是多模态的数据也是多模态的——文本、图片、音频、视频、向量……这些不同类型的数据需要统一存储、统一管理、统一检索这对存储架构提出了全新的要求。二、全闪化存储介质的革命2.1 从机械硬盘到全闪存储传统数据中心存储以机械硬盘HDD为主SSD只用于缓存或高性能场景。但在AI时代全闪存储正在成为标配。原因很简单HDD的性能跟不上了。一块HDD的随机读写性能只有几百IOPS顺序带宽也就200MB/s左右。而一块NVMe SSD随机读写能到几十万IOPS带宽能到几GB/s——差了两个数量级。对于AI训练这种对性能极度敏感的场景全闪不是奢侈而是刚需。2.2 SSD技术的快速演进SSD技术本身也在快速迭代不断刷新性能和容量的上限接口协议从SATA到PCIe 3.0、4.0、5.0带宽翻了好几番。PCIe 5.0 SSD的顺序读取带宽已经达到12GB/s以上介质类型从TLC到QLC容量不断提升。QLC SSD的单盘容量已经突破60TB形态演进从2.5寸到U.2、E1.S、E3.S密度越来越高更重要的是SSD的成本在快速下降。每GB的价格已经降到了几年前的几分之一。这让全闪存储的TCO总拥有成本越来越有竞争力。2.3 全闪存储的优势性能强悍带宽是HDD的10-20倍IOPS是HDD的100-1000倍延迟极低亚毫秒级甚至微秒级延迟远低于HDD的几毫秒到几十毫秒稳定可靠没有机械部件抗震抗摔故障率更低能耗更低功耗只有HDD的几分之一更符合绿色数据中心的趋势密度更高单盘容量越来越大单位空间的存储密度远超HDD目前主流AIDC的存储系统都已经全闪化。像华为OceanStor Pacific、焱融YRCloudFile等产品都能提供11PB/2U甚至更高的容量密度。三、分布式并行文件系统AI存储的核心引擎3.1 为什么需要分布式并行文件系统单机存储的性能和容量都是有限的。要满足AI训练的超高带宽和海量存储需求必须把很多台存储节点组合起来形成一个统一的存储池——这就是分布式存储。但传统的分布式存储比如Ceph主要是为云存储、对象存储设计的更看重容量和可靠性对高性能计算场景的支持不够好。AI训练需要的是并行文件系统——它的核心特点是多个客户端可以同时、并行地访问同一个文件每个客户端都能获得很高的带宽。所有客户端的带宽加起来就是整个系统的聚合带宽。这就像一条多车道的高速公路——车越多总流量越大。3.2 主流并行文件系统目前AI存储领域主流的并行文件系统有文件系统代表厂商技术特点适用场景LustreDDN、华为等开源、成熟、超大规模超算、大规模AI训练GPFSIBM企业级、功能丰富企业级HPC、AIBeeGFSThinkParQ轻量、易用、高性能中小规模AI集群OceanStor Pacific华为全闪、高密、多协议企业级AI、大数据YRCloudFile焱融科技全闪、高性能、国产化智算中心、国产化替代3.3 并行文件系统的关键技术1. 分布式元数据管理海量小文件场景下元数据操作是最大的瓶颈。好的并行文件系统会把元数据也分布到多个节点上并行处理避免单点瓶颈。2. 条带化Striping一个大文件被切成很多小块分散存到不同的存储节点上。读取时多个节点同时往外读聚合带宽就上去了。这是并行文件系统的核心技术之一。3. 客户端缓存在计算节点本地缓存热点数据减少对后端存储的访问。对于AI训练这种反复读取同一批数据的场景客户端缓存能大幅提升性能。4. RDMA支持和计算网络一样存储网络也在用RDMA。通过IB或RoCE网络存储节点和计算节点之间可以直接内存访问延迟更低、CPU占用更少。四、存算分离架构理念的变革4.1 从存算一体到存算分离传统的HPC和AI集群很多是存算一体的——每个计算节点自带硬盘数据就存在本地。这种方式简单、直接但问题也很明显资源利用率低有的节点存储不够用有的节点存储空间闲着没法调剂扩容不灵活加算力就得加存储加存储也得加算力没法独立扩数据共享难节点之间的数据要共享得靠网络拷贝慢还麻烦运维成本高每个节点都要管存储运维复杂度高存算分离就是把计算和存储拆开各自独立部署、独立扩展。计算节点只管计算数据都存在统一的存储集群里。4.2 存算分离的核心优势资源弹性伸缩算力不够加计算节点存储不够加存储节点按需扩展数据统一共享所有计算节点访问同一份数据不用拷贝一致性有保障资源利用率高计算和存储各自池化利用率都能提上来运维管理简单存储集中管理运维效率高成本优化不同温度的数据存在不同介质上整体TCO更低4.3 存算分离的演进路径存算分离不是一步到位的而是有一个演进的过程第一阶段简单分离计算和存储物理上分开通过网络连接。这是最基础的存算分离也是目前大多数AIDC的状态。第二阶段分层存储存储系统内部分层热数据存在全闪层温数据存在混闪层冷数据存在大容量层。数据自动在各层之间流动平衡性能和成本。第三阶段数据湖架构构建统一的数据湖支持多协议访问文件、对象、大数据多模态数据统一存储、统一管理。配合数据治理、数据血缘等能力让数据真正成为资产。第四阶段存算协同存储不再是被动的数据仓库而是主动的数据引擎。存储系统可以做数据预处理、特征提取、甚至部分计算减轻计算侧的压力。五、数据湖与向量检索AI的长记忆系统5.1 AI数据湖统一的数据底座AI时代的数据种类多、规模大、来源杂。如果每种数据都存一套、管一套不仅成本高还会形成数据孤岛。AI数据湖的理念是把所有数据都放到一个统一的池子里用一套架构、一套接口、一套管理体系来支撑。一个典型的AI数据湖应该具备这些能力多模态存储文本、图片、音频、视频、结构化数据、向量……都能存多协议访问文件接口、对象接口、大数据接口、数据库接口……都支持海量扩展从TB级到EB级平滑扩展性能不下降数据治理数据目录、数据血缘、数据质量、数据安全……全生命周期管理智能检索全文检索、语义检索、向量检索……快速找到需要的数据像华为的DME Omni-Dataverse统一数据空间就是这种理念的体现。它支持多模态、跨站点数据实时入湖与全局管理具备千亿千维向量数据秒级检索能力。5.2 向量检索大模型的记忆宫殿大模型有个痛点它的知识都在参数里更新不灵活也容易幻觉。如果能让大模型在回答问题时先去知识库里查一下相关资料再基于资料回答效果会好很多。这就是RAG检索增强生成的思路。RAG的核心就是向量检索。把文档、图片等数据转换成向量embedding存在向量数据库里。查询时把问题也转成向量然后找最相似的几个向量对应的原文作为上下文喂给大模型。向量检索对存储的要求很特殊海量向量千亿级甚至万亿级向量每个向量几百到几千维低延迟查询毫秒级响应不能让用户等太久高召回率要尽量找到最相关的结果不能漏实时更新新数据要能快速入库实时可查向量检索引擎正在成为AI存储栈中不可或缺的一层。5.3 上下文记忆存储推理的短期记忆除了长期记忆知识库大模型推理还需要短期记忆——也就是对话上下文。传统的推理上下文存在GPU显存里。但如果上下文很长比如几万、几十万token显存就不够用了。而且多轮对话、多用户共享上下文的场景也需要把上下文存到外部。上下文记忆存储Context Memory StorageCMS就是为这个场景设计的。它支持异构算力与PB级共享KV Cache池让大模型推理可以处理更长的上下文同时降低显存成本。六、AI存储选型如何构建高效的数据底座6.1 选型评估维度AI存储选型建议从以下几个维度评估评估维度关键指标权重性能聚合带宽、IOPS、延迟、小文件性能★★★★★扩展性最大集群规模、扩容方式、性能线性度★★★★☆可靠性数据冗余机制、故障恢复时间、可用性★★★★☆易用性部署难度、运维复杂度、监控工具★★★☆☆生态兼容支持的框架、接口、硬件平台★★★☆☆成本CAPEX、OPEX、TCO★★★★☆6.2 不同场景的存储方案建议场景一小规模AI实验与开发建议单机全闪存储或小规模分布式存储。性能要求不高重点是易用性和成本。场景二中等规模模型训练几十到几百卡建议全闪并行文件系统容量几十到几百TB。重点是带宽和小文件性能。场景三大规模大模型训练千卡以上建议高端全闪分布式存储容量PB级。重点是聚合带宽、扩展性、稳定性。场景四推理服务建议高性能全闪存储缓存层。重点是低延迟、高并发。场景五企业级AI平台训推一体建议分层存储架构数据湖。热数据全闪、温数据混闪、冷数据归档统一管理。6.3 存储性能优化最佳实践数据预处理把原始数据转成训练友好的格式比如TFRecord、binary减少小文件数量本地缓存在计算节点配置本地SSD缓存热点数据本地读取预取机制训练前把数据预取到缓存或内存避免训练时等待网络优化存储网络用RDMA带宽要足够避免网络成为瓶颈条带优化根据文件大小和访问模式调整条带大小和数量七、未来趋势存算一体、近存计算与内存语义存储7.1 存算一体打破冯·诺依曼瓶颈传统架构中计算和存储是分开的数据要在二者之间搬来搬去。这不仅慢还费电——存储墙和功耗墙越来越成为瓶颈。存算一体的思路是把计算做到存储里面去数据不用搬来搬去在存储的地方就完成计算。对于AI这种数据密集型计算存算一体的潜力巨大。目前基于闪存、忆阻器等介质的存算一体芯片正在快速发展预计未来几年会逐步商用。7.2 近存计算在数据旁边做计算如果存算一体太激进近存计算就是更务实的选择。把计算单元比如CPU、GPU、DPU放得离存储更近减少数据搬运的距离和开销。比如在存储控制器里加计算能力做数据压缩、加密、特征提取等操作或者在存储节点上部署GPU直接在数据所在地做预处理。7.3 内存语义存储内存级的存储体验传统存储的访问方式是块或文件和内存的字节寻址完全不一样。这就导致程序访问存储的方式很复杂性能也上不去。内存语义存储Memory Semantic Storage的目标是让存储用起来像内存一样——字节寻址、load/store指令、纳秒级延迟。随着持久内存PMem、CXL、Gen-Z等技术的发展内存和存储的边界正在变得模糊。未来的存储系统可能会提供内存级的访问体验同时拥有磁盘级的容量和持久性。八、结语如果说算力是AI的大脑那存储就是AI的记忆系统。没有好的记忆再聪明的大脑也发挥不出来。从全闪化到分布式从存算分离到数据湖从向量检索到存算一体——AI存储的技术演进之路就是不断缩短数据和计算之间距离的过程。在AI越来越深地融入各行各业的今天存储的重要性只会越来越凸显。构建高效、可靠、可扩展的数据底座是每一个AIDC都必须面对的核心课题。下一篇预告《供配电专题800V HVDC与SST——供电架构的范式革命》我们将深入探讨传统供电架构的瓶颈800V高压直流技术的原理与优势以及固态变压器SST的未来展望。