阿里云全面重构，迎接Agent时代商业新逻辑

在过去一年中，关于阿里云乃至更广范围的阿里巴巴的讨论，焦点主要集中在其史无前例的资本注入，全面押注AI基础设施建设。外界对此不乏疑惑，认为投入如此巨额资金来构建面向AI时代的云底座是否过于激进，甚至质疑阿里巴巴是否意图通过AI的资本故事来推动股价上涨。

这些疑问本身有其合理性，但其隐含了一个关键前提：即依然沿用过时的框架来审视阿里云，比如关注市场份额、增长速度以及与AWS、Azure的差距。然而，在5月20日的阿里云峰会上，阿里云给出的答案超越了这一传统视角。

阿里云资深副总裁刘伟光指出，当Agent突破临界点后，它们将能够24小时不间断地工作，对AI和云的需求将变得无穷无尽。为此，阿里云正进行一场全栈技术革新，从底层芯片、Agentic Cloud、模型到推理平台，实现全面升级，旨在建设中国领先的AI工厂。

巧合的是，同步举行的谷歌I/O大会也以Agent为核心主题，谷歌正将智能体深度融入其所有核心入口，涵盖搜索框、Chrome浏览器、安卓手机乃至智能眼镜。Gemini已不再仅是一个对话助手，而是演变为一个可以持久运行、跨应用执行任务的AI代理。包括AWS、微软Azure在内的顶尖云服务提供商，也正基于Agent的逻辑来重塑其业务和基础设施。

全球领先的云厂商，同时也是大模型领域的佼佼者，已经形成共识：旧的云架构难以支撑未来的Agent，基础设施必须为Agent进行重建。以往，大多数厂商的做法是在现有架构上叠加一个Agent层，对底层基础设施的改动有限。但现在，阿里云正将云、芯片、模型融合成一个真正一体化的组合。

理解阿里云此次重构的关键在于，Agent的负载特征与传统云计算的负载特征是两种截然不同的逻辑。传统云计算的典型负载是稳定的，企业购买ECS用于网站或数据库，流量相对可预测，资源长期占用；云厂商的商业模式也因此围绕资源出租展开，计算、存储和网络是其三大核心业务。

然而，Agent的工作模式迥异。一个Agent在执行任务时，可能在毫秒级内连续发起数十次模型调用，完成任务后立即销毁环境，下次唤醒可能在几分钟甚至几秒后，其负载特性无规律且突发，表现为短生命周期内的瞬时爆发和用完即走。表面上Agent调用的是模型，实际上它涉及一整套AI全栈体系，需要沙箱环境来运行代码、数据库存储中间状态、网络访问外部工具。一个Agent的一次任务执行，牵动着计算、存储、网络、模型推理等多种资源的协同调度。

新旧时代的云计算，在复杂度上完全是两个量级的问题。刘伟光提及，今年春节后，龙虾类智能体产品上线，让阿里云发现了一个有趣的现象：过去企业开通云资源需要人工登录控制台手动操作，如今Agent可以直接在后台自动激活云计算资源。“Agent能够在分钟级完成云计算资源服务开通，这可能是我们过去人工需要以天为单位完成的工作。”刘伟光表示。这使得云厂商不得不重视，Agent已经成为云计算的新界面。阿里云由此判断，未来云计算产品的主要使用者将逐渐从人类工程师转变为Agent。

这一判断也贯穿了阿里云的整个重构逻辑。为了让Agent真正地使用云服务，阿里云对云产品进行了三个维度改造：Skill化、MCP化和CLI化。简单来说，就是将每一个云产品转换为Agent可以像调用函数一样调用的标准化能力模块。传统云产品的控制台对人来说是友好的，但对Agent而言毫无意义。Agent需要的是结构化的能力描述和明确的调用协议。

阿里云将这套体系命名为“Agentic Cloud”，这与以往数年间侧重于大模型训练和推理服务的“AI Native Cloud”有所区别。AI Native Cloud更多专注于模型的生产迭代和提供高效弹性算力调度，而Agentic Cloud则面向智能体的运行时，提供沙箱、AI网关、记忆管理、安全防护与编排治理等全套能力。数年前，云厂商做AI主要是将算力资源出售给模型公司进行训练和推理；如今，阿里云的目标是让云本身成为Agent运行的操作系统。

如果说Agentic Cloud是阿里云在架构层面的回应，那么芯片则是这一回应的物理基础。在本次峰会上，阿里云公布了自研芯片的路线图，平头哥发布了新一代训推一体AI芯片真武M890，具备144GB显存和800GB/s的片间互联带宽，性能是上一代真武810E的三倍。同期发布的ICN Switch 1.0互联芯片能将128张AI芯片组成一台超节点服务器，P2P时延低于150纳秒。

据介绍，平头哥计划在未来两年内陆续推出算力更强的真武V900、真武J900两代芯片，这很可能意味着阿里云的芯片迭代速度将与模型迭代速度保持一致，每一代芯片性能的提升将直接促成大模型训练和推理能力的飞跃。目前，真武系列AI芯片累计出货56万片，已服务超过20个行业的400多家客户，涵盖电信、汽车、金融等领域。加上阿里自研的倚天系列CPU、磐脉智能网卡、镇岳存储主控芯片，阿里芯片版图已从单点突破走向全面覆盖，构建了在国内云厂商中独有且覆盖算力、网力、存力三个维度的数据中心芯片矩阵。

刘伟光反复强调了芯片—云—模型—推理一体化的逻辑，他表示：“今天呈现给客户的最终结果，是齿轮咬合的组合效应，是模型能力、芯片能力和云能力三者完整有机的结合。”在芯片和模型之间，百炼推理平台扮演着“生产车间”的角色。阿里云在百炼上构建了大规模GPU资源集群，并通过一套针对Agent场景的技术栈应对推理侧的特殊挑战：通过并池调度统一管理GPU资源以提升整体利用率；利用上下文缓存消除Agent在多轮对话和长链路任务中的重复计算开销；通过吞吐弹性调度应对Agent并发请求的波峰波谷，确保流量激增时不崩溃，低谷期不浪费。

更值得关注的是Agentic RL机制，它基于Agent实际执行反馈的强化学习，使得模型在真实场景中不断优化，形成持续迭代的闭环。此外，百炼内置的安全治理能力在Agent自主运行的语境下至关重要。一个24小时不间断执行任务的Agent，若无边界约束，后果将不可控。百炼的安全机制确保Agent始终在预设的权限范围内行动。类比谷歌，其TPU与Gemini模型的深度绑定在其深度学习框架中实现了最高性价比，无论在技术还是资本市场，这一路线已获得高度认可。阿里通过自研芯片运行自研模型，利用软硬件深度协同，也能将每一张芯片的每一个算力单元发挥到极致。

再看模型部分，最新发布的Qwen3.7-Max在第三方机构Arena全球大模型盲测总榜中位列国产模型第一，其能力已接近GPT、Claude、Gemini等最强模型。一个更具说服力的实战案例是，Qwen3.7-Max在从未接触过的真武M890芯片上，仅凭一份任务说明，从零开始自主工作35小时，独立完成了一个生产级AI计算内核的编写与调优，最终性能较官方版本提升了10倍。在没有人为干预、没有中间指导的情况下，从零到生产级，35小时，这充分展示了模型“自主完成复杂工程任务”的能力。其运行的硬件底座正是阿里自研的芯片，芯片和模型的协同进化在该案例中得到了具体体现。

值得一提的是，在近三个月内，千问旗舰模型已经连续迭代了3.5、3.6、3.7三个版本。这种发布节奏本身就说明，阿里巴巴正在刻意加速模型进化，以匹配Agent时代对模型能力指数级增长的需求。反之，模型迭代的速度最终受制于算力的供给，这又回到了芯片—云—模型—推理的体系，一个齿轮咬合、螺旋上升的关系。

技术架构的重构，最终必须回归到商业逻辑上来理解。阿里巴巴上周发布的财报披露了一个关键数据：AI模型及应用服务的年化收入（ARR）已超过80亿元人民币，预计到年底将突破300亿元。消息发布当天，阿里巴巴股价飙升8%。

阿里云内部的判断更为激进，认为Agent驱动的MaaS（模型即服务）收入将取代ECS，成为阿里云最大的产品线。这意味着阿里云的商业模式将彻底改变，其增长引擎正从以虚拟机为计量单位的资源收入，全面转向以Token为计量单位的AI收入。百炼平台也遵循开放生态策略，不仅支持阿里自研的千问模型系列，还同步接入了智谱GLM-5.1、MiniMax M2.7、月之暗面Kimi K2.6、Vidu等第三方模型。

企业客户在实际业务中会使用多种模型组合，百炼平台的目标是让客户在一个平台上找到每个领域最佳的模型组合和最具性价比的推理服务。只要模型部署在阿里云上，无论是自研还是第三方，都将产生Token收入。刘伟光估计，对于AI原生创业企业而言，MaaS开销几乎构成其100%的IT支出；在中国互联网企业中，与Token相关的支出已占到IT总支出的15%至20%；传统企业目前虽然仍在5%以下，但增长曲线陡峭。阿里云内部设定的指标是，每个企业客户在阿里云上的Token支出，应不低于该客户总预算的20%。

商业模式更具体的变化体现在行业侧，售卖Token实际上拓宽了阿里云的业务边界。以汽车行业为例，阿里云以往主要协助车企将ERP等系统上云，后来延伸至智能驾驶的算力和云底座，再到座舱大模型对话。如今，客户营销、广告生成等以往完全不在云厂商业务范围内的事务，由于AI能力的溢出而成为新的收入来源。阿里云内部甚至没有预料到，能获取客户在这些领域的预算。

还有一个过去云厂商完全无法触及的市场，即企业内部的软件开发和人力外包。这部分预算长期由系统集成商和外包公司占据，云厂商难以介入。然而，AI Coding的出现，使得这部分预算转变成了Token支出。诸如此类的变化汇集起来，意味着云计算行业的天花板被大幅抬高。以往云厂商的收入上限，取决于企业IT预算中能够迁移上云的部分，如数据库、中间件、大数据平台，主要以存量市场迁移为主，但也创造了一些新的云原生需求。

AI将企业内部的运营管理、市场营销、软件开发等原本不属于“IT基础设施”的支出，都拉入了云厂商的收入池。此外，值得一提的是，阿里云成立17年来，首次发布了另一个官网——千问云官网，这本质上是对新商业逻辑的反馈。打开如`skills add QianWen-AI/qianwen-ai`这样的指令，这是一条Agent可读的prompt指令。阿里云将所有模型服务的核心能力封装为标准化的Skills和CLI工具，Agent可以直接解析并调用。

当云的主要消费者不再是人类，而是Agent时，所有围绕人类设计的界面、流程和交互逻辑都需要被重写。上一次中国头部科技公司以如此决绝的方式重构产品入口，或许可以追溯到移动互联网早期，所有人将PC官网流量让位于App的阶段。然而，这一次更为彻底，App至少还需要人去打开，而Agent只需读取一条指令。回到最初的问题，阿里巴巴做云的决心，究竟应该如何评估？从资本投入来看，万亿级的AI基础设施投资确实史无前例。但如果只看投资额，就会错过更本质的变化：阿里云从芯片、云架构、模型、推理平台到产品入口，完成了一次彻底的全栈重构。

这背后押注的是，当Agent成为云的主要消费来源时，谁能率先完成基础设施的重建，谁能实现更好的效果和更高的性价比，谁就将获得下一个十年的入场券。全球顶尖的云厂商，无论是谷歌、AWS、微软还是阿里云，都做出了相同的选择。这不是一家公司的冒险，而是一个行业的共识，现在阿里云的目标就是冲在最前。