(本文作者为 TechPulse,钛媒体经授权发布)
AI基础设施的投资重心,正在悄悄移位。
过去两年,市场的目光几乎全部压在算力上,GPU供不应求、智算中心遍地开花、大模型参数量一轮轮刷新。但当AI真正跑进生产环境,一个此前被忽视的问题开始浮出水面,数据存储的供需失衡。
IDC预测,到2029年全球AI基础设施支出将突破1万亿美元,五年复合增长率约31%;中国市场的这一数字是32.5%,略高于全球均值。更关键的一个预测是:到2029年,近80%的云端数据仍将存储在HDD上。
西部数据 首席产品官Ahmed Shihab表示,“计算资源可以在训练和推理之间循环复用,但数据的规模却在无休止地膨胀。“
训练模型要消耗 海量数据 ,单个模型训练就能用掉数个EB;模型跑起来之后,每一次推理还在持续生成数据,这些数据又会流回训练环节。GPU可以反复用,但每跑一次AI,数据就不断累积叠加。
这种结构性变化,在企业侧已经有了很具体的体感。
阿里云对象存储高级总监罗庆超直言,“存储已经从幕后走向前台,已经不再是配角,它成为AI系统运行的关键环节。“GPU集群规模越来越大,数据吞吐需求飙升,存储系统一旦跟不上,整个万卡集群就只能闲置,产生非常大的成本开销。
比亚迪 电子产品总经理崔勇也提到,智能驾驶领域每天产生的新数据接近PB级,甚至若干个PB级,增长曲线是指数级的。
但更棘手的问题不是数据量,而是数据的流转效率,从车端采集、清洗、训练,到模型下放、车端推理,每个环节的存储是割裂的,全靠人工衔接,“全生命周期数据流转效率低,会直接影响AI闭环迭代效率。
冷热数据分层是另一个普遍痛点。热数据对IO性能要求极高,但大量实际上并不需要高性能的数据仍然堆在昂贵的闪存上,成本居高不下。用崔勇的话说:“最大的挑战是做到又快又便宜,这是最难的。”
这些痛点的集中出现,解释了为什么在西部数据对全球200家头部客户的调研中,90%的中国受访者将TCO(总体拥有成本)列为HDD的首要优势,72.7%的人表示这是他们将HDD纳入长期战略的核心原因。
需求侧的变化,正在倒逼供给侧加速。
西部数据公开了一份节奏相当密集的产品路线图:2026年实现40TB单盘,2029年达到100TB以上,这个数字在一年前被认为不现实,本次西部数据给出了明确的技术路径,HAMR(热辅助磁记录)技术将单张磁碟容量从约4TB提升至10TB,配合单盘封装14碟,最终实现100TB以上。
容量之外,还有两项面向AI工作负载的针对性技术。一是高带宽硬盘技术,通过让两个磁头同时读写,将单盘带宽翻倍,解决容量增加后每TB带宽被稀释的问题,让客户不需要随硬盘升级而修改软件;二是双枢轴技术,在硬盘内置双磁臂,顺序IO性能翻倍。两项技术可以叠加,且均已进入客户验证阶段。
能耗方向也有动作,功耗优化型HDD可将功耗降低20%,性能代偿控制在5%至10%,并附带约10%的额外容量提升,计划2027年进入客户认证阶段。对于动辄部署数千块硬盘的超大规模数据中心,乘数效应相当可观。
西部数据援引自身产品数据显示,旧款4TB传统硬盘功耗约为2.85W/TB,现代32TB氦气硬盘降至约0.3W/TB,降幅超过9倍。
AI产业的上半场,大家在抢算力;下半场,数据基础设施的长期补课,才刚刚开始。 (本文作者 | 张帅 ,编辑 | 杨林)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
