过去两年,市场对人工智能的关注焦点几乎完全集中在计算能力上,导致图形处理器(GPU)供不应求,智能计算中心如雨后春笋般涌现,大模型参数屡创新高。但随着人工智能技术逐步应用于实际生产环境,一个曾被忽视的问题日渐凸显:数据存储遭遇供需失衡。
国际数据公司(IDC)预测,到2029年,全球人工智能基础设施支出将突破万亿美元大关,五年复合增长率约31%;中国市场增速为32.5%,略高于全球平均水平。更值得关注的是,IDC还预计到2029年,近八成云端数据仍将存储在传统机械硬盘(HDD)中。
西部数据首席产品官艾哈迈德·希哈布(Ahmed Shihab)指出:“计算资源在模型训练和推理之间可以重复利用,但数据规模却在持续膨胀。”他解释说,训练模型需要消耗海量数据,单个模型训练可能耗费数个EB的数据;模型运行后,每次推理都会不断生成新数据,这些数据又会回流到训练环节。与可循环利用的GPU不同,每一次AI运算都会导致数据不断累积。
这种结构性变化,已经在企业层面产生了具体感受。阿里云对象存储高级总监罗庆超明确表示:“存储已不再是幕后配角,它正走向前台,成为AI系统运行中的关键环节。”他强调,随着GPU集群规模持续扩大,数据吞吐需求急剧飙升,一旦存储系统无法跟上,整个万卡集群将面临闲置风险,导致巨大的成本开销。
比亚迪电子产品总经理崔勇也提及,智能驾驶领域每天产生的新数据量接近甚至超过数个PB级别,呈现指数级增长。然而,比数据量更棘手的是数据流转效率。从车端数据采集、清洗、训练,到模型下放到车端推理,每个环节的存储系统通常是割裂的,高度依赖人工衔接。他认为这种“全生命周期数据流转效率低下,会直接影响AI闭环迭代的效率”。
冷热数据分层是另一个普遍存在的痛点。尽管热数据对输入输出(IO)性能要求极高,但大量实际上并不需要高性能的数据却依然堆积在昂贵的闪存上,导致成本居高不下。用崔勇的话来说,最大的挑战在于如何做到“又快又便宜”。
这些痛点的集中出现,解释了为何在西部数据对全球200家头部客户的调研中,90%的中国受访者将总拥有成本(TCO)列为HDD的首要优势,72.7%的受访者认为这是他们将HDD纳入长期战略的核心原因。
需求侧的转变,正在加速驱动供给侧的技术创新。西部数据公布了一份密集的未来产品路线图:预计到2026年实现40TB单盘容量,到2029年突破100TB。一年前被认为不切实际的这一目标,如今西部数据给出了明确的技术路径:通过热辅助磁记录(HAMR)技术,将单张磁碟容量从约4TB提升至10TB,并结合单盘封装14碟的设计,最终达到100TB以上的容量。
除了容量,西部数据还在开发两项针对人工智能工作负载的专项技术。一是高带宽硬盘技术,通过让两个磁头同时读写,使单盘带宽翻倍,旨在解决容量增加后每TB带宽被稀释的问题,让客户无需随着硬盘升级而修改软件。二是双枢轴技术,通过在硬盘内部集成双磁臂,实现顺序IO性能翻倍。这两项技术可以叠加使用,且均已进入客户验证阶段。
在能耗优化方面,西部数据也有所行动。功耗优化型HDD有望将功耗降低20%,同时将性能牺牲控制在5%至10%以内,并附带约10%的额外容量提升。该产品计划于2027年进入客户认证阶段。对于部署数千块硬盘的超大规模数据中心而言,这种乘数效应将带来可观的能耗节约。
西部数据援引自身产品数据显示,早期4TB传统硬盘的功耗约为2.85W/TB,而现代32TB氦气硬盘的功耗已降至约0.3W/TB,降幅超过9倍。这表明在AI产业的上半场,各方重心在于争夺算力;而在下半场,数据基础设施的长期补课,才刚刚拉开序幕。
