AI规模化瓶颈浮现：西部数据强调存储而非GPU，成关键突破口

过去两年，市场对人工智能的关注焦点几乎完全集中在计算能力上，导致图形处理器（GPU）供不应求，智能计算中心如雨后春笋般涌现，大模型参数屡创新高。但随着人工智能技术逐步应用于实际生产环境，一个曾被忽视的问题日渐凸显：数据存储遭遇供需失衡。

国际数据公司（IDC）预测，到2029年，全球人工智能基础设施支出将突破万亿美元大关，五年复合增长率约31%；中国市场增速为32.5%，略高于全球平均水平。更值得关注的是，IDC还预计到2029年，近八成云端数据仍将存储在传统机械硬盘（HDD）中。

西部数据首席产品官艾哈迈德·希哈布（Ahmed Shihab）指出：“计算资源在模型训练和推理之间可以重复利用，但数据规模却在持续膨胀。”他解释说，训练模型需要消耗海量数据，单个模型训练可能耗费数个EB的数据；模型运行后，每次推理都会不断生成新数据，这些数据又会回流到训练环节。与可循环利用的GPU不同，每一次AI运算都会导致数据不断累积。

这种结构性变化，已经在企业层面产生了具体感受。阿里云对象存储高级总监罗庆超明确表示：“存储已不再是幕后配角，它正走向前台，成为AI系统运行中的关键环节。”他强调，随着GPU集群规模持续扩大，数据吞吐需求急剧飙升，一旦存储系统无法跟上，整个万卡集群将面临闲置风险，导致巨大的成本开销。

比亚迪电子产品总经理崔勇也提及，智能驾驶领域每天产生的新数据量接近甚至超过数个PB级别，呈现指数级增长。然而，比数据量更棘手的是数据流转效率。从车端数据采集、清洗、训练，到模型下放到车端推理，每个环节的存储系统通常是割裂的，高度依赖人工衔接。他认为这种“全生命周期数据流转效率低下，会直接影响AI闭环迭代的效率”。

冷热数据分层是另一个普遍存在的痛点。尽管热数据对输入输出（IO）性能要求极高，但大量实际上并不需要高性能的数据却依然堆积在昂贵的闪存上，导致成本居高不下。用崔勇的话来说，最大的挑战在于如何做到“又快又便宜”。

这些痛点的集中出现，解释了为何在西部数据对全球200家头部客户的调研中，90%的中国受访者将总拥有成本（TCO）列为HDD的首要优势，72.7%的受访者认为这是他们将HDD纳入长期战略的核心原因。

需求侧的转变，正在加速驱动供给侧的技术创新。西部数据公布了一份密集的未来产品路线图：预计到2026年实现40TB单盘容量，到2029年突破100TB。一年前被认为不切实际的这一目标，如今西部数据给出了明确的技术路径：通过热辅助磁记录（HAMR）技术，将单张磁碟容量从约4TB提升至10TB，并结合单盘封装14碟的设计，最终达到100TB以上的容量。

除了容量，西部数据还在开发两项针对人工智能工作负载的专项技术。一是高带宽硬盘技术，通过让两个磁头同时读写，使单盘带宽翻倍，旨在解决容量增加后每TB带宽被稀释的问题，让客户无需随着硬盘升级而修改软件。二是双枢轴技术，通过在硬盘内部集成双磁臂，实现顺序IO性能翻倍。这两项技术可以叠加使用，且均已进入客户验证阶段。

在能耗优化方面，西部数据也有所行动。功耗优化型HDD有望将功耗降低20%，同时将性能牺牲控制在5%至10%以内，并附带约10%的额外容量提升。该产品计划于2027年进入客户认证阶段。对于部署数千块硬盘的超大规模数据中心而言，这种乘数效应将带来可观的能耗节约。

西部数据援引自身产品数据显示，早期4TB传统硬盘的功耗约为2.85W/TB，而现代32TB氦气硬盘的功耗已降至约0.3W/TB，降幅超过9倍。这表明在AI产业的上半场，各方重心在于争夺算力；而在下半场，数据基础设施的长期补课，才刚刚拉开序幕。