全球AI基础设施领域的**智慧齐聚 2026 Open AI Infra Summit，

成都科汇科技有限公司

Kehui Technology Co., Ltd.

成都科汇科技有限公司

拥有15年数据存储专业经验的私有云解决方案商

全球AI基础设施领域的**智慧齐聚 2026 Open AI Infra Summit，

来源: | 作者:成都科汇科技 | 发布时间: 2026-04-29 | 10 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

2026年4月10日，全球AI基础设施领域的**智慧齐聚 2026 Open AI Infra Summit，围绕大模型时代的算力、网络、存储与架构革新，展开*前沿的深度分享。下文 基于Solidigm（思得）公司亚太区技术总监翁昀的主题演讲整理。

AI时代的存储趋势

从Solidigm的视角， A I的发展直接推动了硬件的发展 ，无论是服务器支出的年复合增长率，还是各种各样的算力优化，以及互联技术的各种风向，都有**多的创新。这些创新产生了一个作用，就是我们可以看到后端存储的数据量增加了至少三倍。当然，我们在做这份 Slide 的时候是在去年，实际上如果我们看今年的数据，尤其是推理等等一些新模型所带来的影响，数据增长量是远远超过三倍的。

数据在增加，越来越多的厂商或伙伴在投资建新的数据中心。我们可以看到，有很多看起来跟存储不相关的参数，实际上会影响存储的选择，比方说电力，我们看到至少50% 的关键 IT 电力其实是由 AI 驱动的。今天上午会议提及的百兆瓦级或者是吉瓦级的数据中心，基本上都是由 AI 的一些需求在驱动。数据中心的电力有40% 是用于散热，作为存储厂商，我们要思考如何帮助系统在散热这一部分降低成本。 AI对算力的需求让机房的空置率降低到了个位数，但是计算机机架的利用率还是比较低的。限制机架利用率的主要因素是供电和散热。

计算的三大组件 —— 计算、互联和存储 ，如果其中有一个出现短板，就会拉低 GPU的利用率和性能。GPU的性能增长**快， Blackwell的推理性能相对前代产品已经提升了30倍。推理的工作负载也增长了 35%。如果系统中存在短板，数据加载或者检查点这两个瓶颈可以将利用率拉低至 46%。作为存储厂商，我们**希望贡献我们的力量来解决电力、空间或者 GPU 利用率的问题，所以QLC就是应时而生。

QLC并不是在 AI 流行以后才诞生的，只不过我们认为QLC在 AI 流行以后，有了更好的价值，或者说有了更加合适的时机来发挥它的作用。 QLC 能够缓解 AI 建设所面临的供应短缺。根据一些合作伙伴的数据，我们看到 2026 年至少有250EB的HDD供应链挑战。这一块的供应需要有人补上去，毕竟没有数据的话，GPU去算什么呢？ QLC 其实是承担了 **重要的份额。除了满足供应， QLC 还能提升性能。 QLC 虽然相较于 TLC在写性能上会有一定的劣势，但是相比 HDD， QLC 的性能还是**高的。如果我们计算每瓦特 IOPS ， QLC 其实是比 HDD 要合算很多，所以 QLC 可以影响前面提及的所有因素，比方说GPU的利用率，以及对机房电力的分配。

存储在AI集群中的双重作用

存储在 AI 的集群中所处的位置或者说使用方式无非就是两种： 直连式存储（DAS）、网络存储（NAS或对象） 。

直连式存储理解起来比较直白，就是直接把这些存储或者SSD放在服务器的内部 。我们一般习惯于通过 CPU 去连 SSD ，但CPU 的PCIe Lane （通道）数是有限的，也就导致了在服务器内部可以连接的 SSD 数量也是有限的，毕竟还要把PCIe Lane的资源分配给网络等等。所以我们看到的比较常规配置一般是2到8块 SSD 放在服务器内。直连式存储*主要的目的还是为了尽可能快，不希望网络引入额外的延时。 SSD落盘的主要负载是以高混合的读写为主，尤其是写的比例可能会比较高。在这一部分比较重要的关注点就是IOPS / Watt，就是功耗的有效性，以及IOPS / Dollar。我们在今天上午的演讲中也听到了类似的说法，就是Token / Watt 或者是Token / RMB。

网络存储是为了追求性能、容量、可扩展性的平衡 。它通过以太网或者是InfiniBand连接。大部分网络存储都会做成弹性存储或者是池化存储的方式。网络存储可以有多台服务器，每台服务器可能有数十个存储接口，配置的 CPU 性能不用很强， CPU 主要承担管理 SSD 的功能。网络存储的优势是易于共享，因为它可以有多个机头去对应一个存储池。网络存储的写性能会有一定程度的限制，毕竟还要通过网络，所以对于网络存储，看的比较多的性能指标是读。网络的限制还会带来一些带宽或者延迟上的损耗。网络存储的关注点一般来说是GB/Watt，就是每瓦可以支持的容量，还有就是每平方英寸（或者每平方厘米）可以存储的容量，以及每秒钟可以输送的数据量。

在两种配置中，直连式存储使用 TLC会是一个更加合适的场景；在网络存储中 QLC 可以扮演一个更有效的角色。

AI业务流中的存储

我们可以看看存储在 AI 的整个流程中所担当的角色。

如果把直连式和网络存储结合起来看，直连式存储一般是放在数据准备和数据训练这一阶段。这个阶段数据的交互动作会比较频繁，希望用*短的延时拿到数据，或者用*短的时间把数据写进去，因此以直连式存储为主。图中两侧的阶段（数据摄取、数据存档）都涉及到海量数据的存储，主要采用网络存储，但也需要尽快地把原始数据集载入，因而可以看到有很多的 QLC 使用案例。

如果把QLC、TLC和网络存储、直连式存储放到 AI 的流程里面，我们看到的大致是这样的一个场景：在右侧，通过不同的颜色标识了一些数据的类型，比方说浅紫色是临时数据、深紫色是**数据等等。临时数据对于性能，或者说是对于IOPS 、延时的要求会更高一些。

为什么存储对推理如此重要

在去年这个时候，我们在谈存储在 AI 里面的价值时，更多还是基于训练这一部分，主要是数据摄取、存档和RAG数据库的扩容等等。今年热门的新兴趋势是Token，包括一些 Key-Value （键值）、Parameter （权重）的 Offload （卸载）、Cache （缓存）等等。对于大型模型、长查询、多轮交互的应用， Key-Value 、Token等对于存储的影响特别大。截止今年2月，光是由推理这一块额外产生的Offload所触发的存储需求，已经超过了100 EB，相当于Solidigm在大连厂一年的产能。

KV Cache对存储的挑战

我们来看一下 Key-Value 对于存储提出的一些挑战。

大语言模型应用在*开始的时候，单次提示推理的上下文压力还好，产生的KV Cache还是 GB 级别的。随着新一代推理架构、算法大模型以及Ver a Robin 等新平台的诞生，新一代72 GPU的机架中的 HBM4的容量已经达到了20.7TB，DRAM的容量也达到了54TB。为适配大规模推理上下文，如果以10万用户、64K Token乘以15 轮对话来做计算，KV Cache的存储就要达到45PB。45PB 容量使用直连式存储是很难实现的。如果以TLC SSD 单盘32T B 来算，相当于大概1400多片盘。因此， KV Cache卸载其实是为大容量 QLC SSD 又创造了一个**好的机会 。

Solidigm的存储产品组合

我们再把 AI 的业务流程拿回来，看一下Solidigm在其中的产品分配。原先在数据摄取和存档这两块的**数据，**方案是 QLC，在功耗、空间还是性能的角度上来看都是远远优于HDD。 QLC 其实也适合推理的场景，它对于性能每瓦特的提升是**明确的。

我们可以看到目前给出的**配置是 PCIe Gen 4的QLC SSD ，但是我们在一年之内会推出基于 Gen 5的QLC。这样的话在 G 3.5 层下能够提供 Gen 5的带宽，同时又有 QLC 的容量密度以及成本。

Solidigm D7-PS1010/D7-PS1030是基于PCIe 5.0的 TLC SSD 。这款产品设计于两年以前，当时主流的接口还是 U.2 ，紧接着我们推出了 E 3. S ，后面又推出了 E1.S 。我觉得这就是一个很好的例子，Solidigm跟整个生态结合的一个范式。 Solidigm 这个基础上推出了业内首个基于冷板设计的 SSD 。

我们也**期待，随着机柜功率的提升，随着 800 V 的推广，随着互联技术从112G升级到224G，这些看起来跟 SSD 并不直接相关的一些参数会对 SSD 带来一些什么样的影响。比方说散热系数需要怎么去做设计？厚度是不是会增加？比方说现在的 E1.S、E 3. S SSD 都是采用1T设计，散热其实是不如2T的。那是不是真的需要用到 2T？在将来的服务器中，功耗分配给存储大概多少？PCIe Lane 数的分配如何？我在*近两个月之内已经听到了很多，比方说一个PCIe x 4的 SSD ，希望能够支持PCIe x 2等等。存储看起来有很多东西都是已经标准化的，但是放到一直在日新月异变化的 AI 工作负载或者机柜之中，存储厂商怎么样去适应？或者说怎么参与到这个规范的设定里面来，这个其实是对我们一个很好的课题。

Solidigm D5-P5336是一款QLC SSD ，已经上市的容量点达到 122T B。 它目前还在采用 U.2 接口，下一代产品会采用 E 3和 E1. L的Form Factor。 E1. L的单盘容量可以支持到 244T B ，甚至接近500T的容量也都在考虑范畴之内。

这个时候再回到刚才的话题，存储的设计怎么样去适配 AI 里面的规范？我的Power Budget （功耗预算）是多少？E3 .S 理论上是支持到40瓦的，但是我是不是用到这么多？还是说我可以把功耗省出来一点？其实性能可能只要两根 PCIe Lane就可以了。在这一部分，**期待能够跟各位专家多做一些探讨。

QLC存储产品***

Solidigm 在 QLC 方面，其实是业界的一个***。我们大概在六七年之前，就已经推出了基于 QLC 介质技术的 SSD ，当时是跟傲腾技术在做搭配。截止到 2025 年，业界所销售的 QLC SSD的总EB数的五分之四是来自于Solidigm。30 ~ 60TB的大容量企业级SSD 的一半出货容量来自于Solidigm。 2025 年，所有出货的122T B 企业级 SSD 都来自于 Solidigm。我们也有信心在 PCIe Gen5 项目中，我们的244T B产品也会有比较好的表现。

Solidigm 基于Floating Gate（浮栅）技术的 QLC NAND 在底层技术上，相比较其他NAND 技术在做 QLC 或者将来的PLC是有一定优势的。所以我们很有信心我们是超大容量SSD 的***。现在的问题在于我们的产品如何适配到日新月异发展的 AI 的大生态环境中。

从 AI 的发展来看，我们坚信海量的数据一定是会产生的。无论有什么样的新模型，无论做什么样的优化，数据量只会产生的越来越多。 AI 的发展和海量的数据是一个长期的趋势。海量的数据一定需要有设施去存储的，这涉及到基础设施。基础设施一定会涉及到效率的提升。今天上午会议的很多话题都是围绕效率的提升来展开的。在效率提升方面，我们相信存储部件厂商可以贡献很大的力量。所以**期待在后面的讨论里面能够跟各位专家讨论。

关于 Solidigm

Solidi gm 是企业数据存储领域的***。凭借数十年的产品领导力和技术创新力， Solidigm 正与客户携手推动业务转型，共同迈向以数据为中心的未来。 Solidigm 在打造创新产品和助力客户成功等领域处于长期**地位，借助从核心数据中心到边缘的强大端到端产品，为 AI 等前沿领域的发展提供有力支持。 Solidigm 是 SK 海力士的独立子公司，总部位于美国加州兰乔科尔多瓦，业务遍及全球。如欲了解有关 Solidigm 的更多信息，请访问 [ https://solidigm.com ] ，或关注微信公众号 [SolidigmChina] 。

欢迎扫码关注我们

上一篇：群晖四川总代理成......

下一篇： 2026 CRN存储......