2026年4月10日,全球AI基础设施领域的**智慧齐聚 2026 Open AI Infra Summit,围绕大模型时代的算力、网络、存储与架构革新,展开*前沿的深度分享。下文 基于Solidigm(思得)公司亚太区技术总监翁昀的主题演讲整理。
AI时代的存储趋势
从Solidigm的 视角, A I的发展直接推动了硬件的发展 ,无论是服务器支出的年复合增长率,还是各种各样的 算力优化 ,以及互联技术的各种风向,都有**多的创新。这些创新产生了一个作用,就是我们可以看到后端存储的数据量增加了至少三倍。当然,我们在做这份 Slide 的时候是在去年,实际上如果我们看今年的数据,尤其是推理等等一些新模型所带来的影响,数据增长量是远远超过三倍的。
数据在增加,越来越多的厂商或伙伴在投资建新的数据中心。我们可以看到 , 有很多看起来跟存储不相关的参数,实际上会影响存储的选择,比方说电力 , 我们看到至少50% 的关键 IT 电力其实是由 AI 驱动的。今天 上午会议提及 的百兆瓦级或者是 吉 瓦级的数据中心,基本上都是由 AI 的一些需求在驱动。数据中心的电力有40% 是用 于 散热 , 作为存储厂商,我们 要思考如何 帮助系统在散热 这一部分 降低成本。 AI对算力的需求让 机房的空置率降 低 到了个位数,但是计算机机架的利用率还是比较低的。 限制机架利用率的主要因素是供电和散热。
计算的三大组件 —— 计算、互联和存储 , 如果其中有一个出现短板,就会 拉低 GPU的利用率和性能。GPU的性能增长**快, Blackwell的推理性能相对前代产品已经提升了30倍。 推理的工作负载也增长 了 35%。如果系统 中 存在短板,数据加载或者检查点这两个 瓶颈可以将 利用率 拉低至 46%。作为存储厂商,我们**希望贡献我们的力量来解决电力、空间或者 GPU 利用率的问题,所以QLC就是应 时 而生。
QLC并不是在 AI 流行 以后才诞生的,只不过我们认为QLC在 AI 流行 以后,有了更好的价值,或者说有了更加合适的时机来发挥它的作用。 QLC 能够 缓解 AI 建设所面临 的供应短缺。根据一些合作伙伴的数据,我们看到 2026 年至少有250EB的HDD供应 链 挑战。这一块的供应需要有人补上去,毕竟没有数据的话,GPU去算什么呢? QLC 其实是承担了 **重要的份额 。除 了 满足供应, QLC 还 能 提升性能。 QLC 虽然 相较 于 TLC在写性能上会有一定的劣势,但是相 比 HDD, QLC 的性能还是**高的。如果我们计算 每 瓦特 IOPS , QLC 其实是比 HDD 要合算很多,所以 QLC 可以影响 前面提及 的所有因素,比方说GPU的利用率 , 以及对机房电力的分配。
存储在AI集群中的双重作用
存储在 AI 的集群 中 所处的位置或者说使用方式无非就是两种 : 直连 式 存储(DAS) 、 网络存储 (NAS或对象) 。
直连 式存储 理解起来比较直白,就是直接把这些存储或者SSD放在服务器的内部 。我们一般习惯于通过 CPU 去连 SSD , 但CPU 的PCIe Lane (通道) 数是有限的,也就导致了在 服务器内部 可以 连接 的 SSD 数量也是有限的,毕竟还要把PCIe Lane的资源分配给网络等等。所以我们看到的比较常规配置一般是2到8块 SSD 放在服务器 内 。 直连式存 储*主要的目的还是为了 尽可能 快,不希望网络引入额外的延时 。 SSD落盘的主要负载是以高混合的读写为主,尤其是写的比例可能会比较高。在这一 部分 比较 重要 的关注点就是IOPS / Watt,就是功耗的有效性,以及IOPS / Dollar。 我们在 今天 上午 的演讲中 也听到了类似的说法,就是Token / Watt 或者是Token / RMB。
网络存储是为了追求性能、容量、可扩展性 的 平衡 。它通过以太网或者是InfiniBand连接 。 大部分网络存储都会做成弹性存储或者是池化存储的方式。 网络存储可以有 多台服务器,每台服务器可能有数十个 存储接口 , 配置的 CPU 性能 不用很强 , CPU 主要承担管理 SSD 的功能。 网络存储的 优势是易于共享,因为它可以有多个机头去对应一个存储池。 网络存储的写性能 会有一定程度的 限制 ,毕竟还要通过网络,所以对于网络存储,看的比较多的性能指标是读。网络的限制 还 会带来一些带宽或者延迟上的损耗。网络存储的关注点一般来说是GB/Watt,就是每瓦可以支持的容量 , 还有就是每平方英寸(或者每平方厘米)可以存储的容量,以及每秒钟可以输送的数据量。
在两 种 配置中,直连式存储 使用 TLC会是一个更加合适的场景;在网络存储 中 QLC 可以扮演一个更有效的角色。
AI业务流中的存储
我们可以看看 存储 在 AI 的整个流程 中 所担当的角色。
如果把直连式和网络存储结合起来看,直连式存储一般是放在数据准备和数据训练这一 阶段 。 这个阶段 数据的交互动作会比较频繁,希望用*短的延时拿到数据,或者用*短的时间把数据写进去, 因此 以直连式存储为主。 图中两侧的阶段 (数据摄取、数据存档) 都 涉及到海量数据的存储, 主要 采用网络存储, 但 也 需要尽快地把原始数据集 载入 , 因 而 可以看到有很多的 QLC 使用案例。
如果把QLC、TLC和网络存储、直连式存储放到 AI 的流程里面,我们看到的大致是这样的一个场景 : 在右侧,通过不同的颜色标识了一些数据的类型,比方说浅紫色是临时数据 、 深紫色是**数据等等。临时数据对于性能,或者说是对于IOPS 、 延时的要求会更高一些。
为什么存储对推理如此重要
在去年这个时候,我们在谈存储在 AI 里面的价值时,更多还是基于训练这一 部分 ,主要是数据摄取、存档和RAG数据库的扩容等等。今年热门的新兴趋势是Token,包括一些 Key-Value (键值) 、Parameter (权重)的 Offload ( 卸载 ) 、Cache (缓存) 等等。 对于 大型模型、长查询、多轮交互的应用 , Key-Value 、Token等对于存储的影响特别大。 截止今年2月, 光是由推理这一块额外产生的Offload所触发的存储需求,已经超过了100 EB,相当于Solidigm在大连厂一年的产能。
KV Cache对存储的挑战
我们来看一下 Key-Value 对于存储提出的一些挑战。
大语言模型应用 在*开始的时候,单次提示推理的上下文压力还好,产生的KV Cache还是 GB 级别的。随着新一代推理架构、算法大模型以及Ver a Robin 等新平台的 诞生 ,新一代72 GPU的机架 中的 HBM4的容量已经 达 到了20.7TB,DRAM的容量也达到了54TB。 为 适配大规模推理上下文,如果以10万用户、64K Token乘以15 轮对话 来做计算,KV Cache的存储就要达到45PB。45PB 容量使用 直连式存储是很难实现的。如果 以TLC SSD 单盘32T B 来算,相当于大概1400多片盘。 因此, KV Cache卸载 其实是为 大容量 QLC SSD 又创造了一个**好的机会 。
Solidigm的存储产品组合
我们再把 AI 的 业务流程 拿回来,看一下Solidigm在 其中 的产品分配。原先在数据摄取和存档这两块的**数据,**方案是 QLC,在功耗、空间还是性能的角度上来 看 都是远远优于HDD。 QLC 其实也适合 推理 的场景,它对于性能每瓦特的提升是**明确的。
我们可以看到目前给出的**配置是 PCIe Gen 4的QLC SSD ,但是我们在一年之内会推出基于 Gen 5的QLC。这样的话在 G 3.5 层 下 能够提供 Gen 5的带宽,同时又 有 QLC 的容量密度以及成本。
Solidigm D7-PS1010/D7-PS1030是 基于PCIe 5.0的 TLC SSD 。这 款 产品设计于两年以前,当时主流的接口还是 U.2 ,紧接着我们推出了 E 3. S ,后面又推出了 E1.S 。我觉得这就是一个很好的例子,Solidigm跟整个生态结合的一个范式。 Solidigm 这个基础上 推出了业内 首 个 基于冷板设计的 SSD 。
我们也**期待,随着机柜功率的提升,随着 800 V 的推广,随着互联技术从112G升级到224G,这些看起来跟 SSD 并不 直接相关的一些参数会对 SSD 带来一些什么样的影 响 。 比方说散热系数需要怎么去做设计?厚度是不是会 增加 ?比方说现在的 E1.S、E 3. S SSD 都是采用1T设计,散热其实是不如2T的。那是不是真的需要用到 2T?在将来的服务器 中 ,功耗分配给存储大概 多少 ?PCIe Lane 数的分配 如何 ?我在*近两个月之内已经听到了很多,比方说一个PCIe x 4的 SSD ,希望能够支持PCIe x 2等等。存储看起来有很多东西都是已经标准化的,但是放到一直在日新月异变化的 AI 工作负载或者机柜 之中 ,存储厂商怎么样去适应?或 者说怎么参与到这个规范的设定里面来,这个其实是对我们一个很好的课题。
Solidigm D5-P5336是一款QLC SSD ,已经上市的容量 点 达到 122T B。 它 目前还在采用 U.2 接口 , 下一代产品会采用 E 3和 E1. L的Form Factor。 E1. L的单盘容量可以支持到 244T B ,甚至接近500T的容量也都在考虑范畴之内。
这个时候再回到刚才的话题,存储的设计怎么样去适配 AI 里面的规范?我的Power Budget (功耗预算) 是多少?E3 .S 理论上 是 支持到40瓦的,但是我是不是用到这么多?还是说我可以把功耗省出来一点?其实 性能可能 只要两根 PCIe Lane就可以了。在这一 部分 ,**期待能够跟各位专家多做一些探讨。
QLC存储产品***
Solidigm 在 QLC 方面,其实是业界的一个***。我们大概在六七年之前,就已经推出了基于 QLC 介质技术 的 SSD ,当时是跟傲腾技术在做搭配。截止到 2025 年,业界所销售的 QLC SSD的总EB数的 五分之四 是来自于Solidigm。30 ~ 60TB的大容量 企业级SSD 的一半 出货容量 来自于Solidigm。 2025 年,所有出货的122T B 企业级 SSD 都来自于 Solidigm。我们也有信心在 PCIe Gen5 项目 中 ,我们的244T B产品 也会有比较好的表现。
Solidigm 基于Floating Gate(浮栅)技术的 QLC NAND 在 底层技术上,相比较其他NAND 技术 在做 QLC 或者将来的PLC是有一定优势的 。 所以我们很有信心我们是 超大容量SSD 的***。现在的问题在于我们 的 产品如何适配到日新月异发展的 AI 的大生态环境 中 。
从 AI 的发展来看,我们坚信海量的数据一定是会 产 生的。无论有什么样的新模型,无论做什么样的优化,数据量只会产生的越 来越 多。 AI 的发展 和 海量的数据是一个长期的趋势。海量的数据一定需要有设施去存储的,这涉及到基础设施。基础设施一定会涉及到效率的提升。今天 上午会议的 很多话题都是围绕效率的提升来 展开的 。在效率提升方面,我们相信存储部件厂商可以贡献很大的力量。所以**期待在后面的讨论里面能够跟各位专家讨论 。
关于 Solidigm
Solidi gm 是企业数据存储领域的***。凭借数十年的产品领导力和技术创新力, Solidigm 正 与客户携手推动业务转型,共同迈向以数据为中心的未来。 Solidigm 在打造创新产品和助力客户成功等领域处于长期**地位,借助从核心数据中心到边缘的强大端到端 产品,为 AI 等前沿领域的发展提供有力支持。 Solidigm 是 SK 海力士的独立子公司,总部位于美国加州兰乔科尔多瓦,业务遍及全球。如欲了解有关 Solidigm 的更多信息,请访问 [ https://solidigm.com ] ,或关注微信公众号 [SolidigmChina] 。
欢迎扫码关注我们