← 返回新闻列表

全球AI "呼吸权"告急:Token短缺引发数字世界新危机

近期,全球人工智能领域正经历一场“Token短缺”危机,AI处理信息的最小单元急剧消耗,各大AI工具使用受限,算力不足现象日益凸显。这不仅影响用户体验,更预示着一场深远的资源挤兑和财富转移,将重塑数字世界的格局。

文 / 编辑部 · 2026/05/25 · 阅读约 7 分钟

分享:
全球AI "呼吸权"告急:Token短缺引发数字世界新危机

您或许已经注意到,最近的人工智能服务似乎变得不再慷慨。无论是使用Claude Code编写代码时出现的“Token使用量已达限额”提示,还是Kimi在高峰期显示“算力不足”,抑或是Seedance视频生成排队时间的延长,种种迹象都指向一个共同的问题:全球AI正在面临一场Token短缺危机。

Token,作为AI处理信息的最小单位,是其运行的基础。一次简单的问答仅消耗少量Token,但让AI执行复杂任务,如撰写分析报告或整理日志,则需要成千上万次的“呼吸”。当前,全球AI的“肺活量”已濒临极限。

Token,这一数字世界的新“货币”,正遭遇严重的挤兑。数据表明,OpenAI面向企业客户的API平台,Token调用量从2025年10月的每分钟60亿次,至2026年3月底飙升至每分钟150亿次,在不到半年内激增150%。摩根士丹利的统计更为惊人:全球每周Token使用量从2026年1月初的6.4万亿次,到3月已突破22.7万亿次,三个月内翻了两倍多。

中国市场同样呈现疯狂增长。截至2026年3月,国内日均Token调用量已突破140万亿,相较2024年初增长逾一千倍。主流平台日均Token消耗量较年初增长超过300%,部分头部平台的API调用配额在两周内便消耗殆尽。

需求侧烈火烹油,而供给侧却面临严峻挑战。算力供给的调整周期受到硬件生产(GPU交付周期约6-9个月)和数据中心建设(18-24个月)的双重刚性制约。这导致2026年3月算力市场出现“硬缺口”,部分地区算力溢价率甚至突破200%。这已不再是简单的发展趋势,而是AI“呼吸权”的资源挤兑。

Token消耗量为何会突然呈现指数级飙升?答案在于以智能体AI的爆发。2026年初,以OpenClaw为代表的智能体工具的出现,标志着AI从过去的“问答机器人”升级为能“执行任务”的智能体。它能自主打开文件、阅读文档、调用软件、填写表格乃至发送邮件。

这意味着,单次任务所需算力相较于简单问答,提升了10至100倍。华源证券首席分析师明确指出:“OpenClaw的核心颠覆点在于它将AI的价值衡量标准从‘回答像不像人’推进到‘事情办没办成’。” 智能体任务占整体AI算力消耗的比例,从2025年的12%飙升至2026年第一季度的47%。尤其值得关注的是,5%的高复杂度任务消耗了超过60%的总算力资源。简单来说,AI从“动嘴”进化到“动手”,其“伙食费”也随之水涨船高。

这场短缺危机绝非仅仅是芯片不足那么简单,它至少涉及芯片、电力和人力三个根本性瓶颈。

首先是芯片制造。英伟达GPU需在台积电晶圆厂利用ASML的EUV光刻机进行多层刻蚀,而EUV光刻机年产量仅数十台,交付等待期超过18个月。GPU离不开的HBM高带宽内存,产能同样有限。摩根士丹利预测,当前AI算力需求增长速度是英伟达供给速度的三倍,供需矛盾日益加剧。

其次是电力供应。一台满载GPU的服务器机柜运行功耗可比拟十几台家用空调,一个大型数据中心每天的耗电量足以满足一座小型城市。摩根士丹利预计2025至2028年间,美国数据中心将面临约55吉瓦的电力缺口。服务器供应链的ODM厂商坦言,当前最紧缺的不是订单,而是电力、人力、财力,其中电力和人力尤为棘手。美国规划中的数据中心,约三分之一到一半面临延期或取消,主要障碍并非芯片价格昂贵,而是电力基础设施严重不足,大型变压器、开关设备的交货期长达数年。

最后是人力资源。目前连数据中心的建设也面临技术工人短缺的困境,导致项目延期超过三个月。德州仪器技术专家指出,现代高端GPU功耗已达“千瓦”级别,整个数据中心大楼的规划必须以“吉瓦”规模来看待,这几乎等同于一座传统核电站的发电量。这场AI竞争已从“追逐GPU”转变为“追逐千兆瓦电力”,可以说,目前最大的瓶颈在于处处都是瓶颈。

英伟达CEO黄仁勋在2026年GTC大会上提出了“AI Token工厂”的新概念,他认为未来的数据中心将成为持续运转的“工厂”,生产数字世界最重要的商品:Token。黄仁勋将AI产业拆解为能源、芯片、基础设施、模型、应用五层架构,而Token是贯穿其中的语言和货币。如同千瓦时赋予电力价格,桶使石油有了期货市场,Token为AI经济提供了可计量、可定价的单位。

然而,理想丰满,现实骨感。截至2026年全年及2027年部分可用电力配额已被全部预订,新数据中心短期内无法上线。H100算力的全球实际利用率仅维持在15%-18%之间,大量算力处于空转状态。国际能源署预测,到2030年全球数据中心总耗电量将突破1000太瓦时,超过日本全国的年发电总量。“工厂”尚未建成,订单却已排到三年之后。

您或许还记得,2024年的Token曾是“白菜价”,厂商以补贴换取用户增长。然而到2026年,云厂商纷纷开始上调AI算力、存储及模型调用服务价格。阿里云四天内三次调价,腾讯混元最高涨价463%,百度智能云上调5%至30%。海外市场同样涨声一片,亚马逊AWSEC2实例价格上调15%,谷歌云AI计算实例价格上调20%至50%。

算力租赁市场也异常火爆:英伟达Blackwell芯片每小时租用价格从2.75美元涨至4.08美元,两个月内涨价48%;H100的一年期租赁合约价格从1.70美元涨到2.35美元/小时,涨幅近40%。云服务商CoreWeave上调服务价格逾20%,并要求小客户签订至少三年的长期合约。OpenAI推出“保障产能”服务,企业签订1至3年长期合同可锁定价格并确保算力供应,这相当于OpenAI开始销售“算力期货”。尽管Token单价较2023年下跌逾一个数量级,但由于消耗量的快速增长,实际支出却越来越多。涨价潮的背后,是算力正从“水电气”般的公共资源转变为稀缺的硬通货。过去20年“算力只会越来越便宜”的逻辑,在2026年——暂时失效了。

华尔街的逻辑正在发生巨变。当前头部AI巨头,例如Anthropic,其创收速度并非按年计算,而是每周新增25亿美元的年化收入。Anthropic的年化营收从2025年底的90亿美元,在短短两个月内跃升至140亿美元,随后再度翻倍至300亿美元。这背后是一个残酷的财富方程式:谁是“短缺的卖家”,谁就拥有绝对的定价权;谁是“短缺的买家”,谁就只能被动承受。微软首席财务官坦言,GPU等硬件组件价格上涨将推高全年资本支出约250亿美元,云算力供给紧张的局面“至少将贯穿整个2026年”。微软、谷歌、亚马逊这些市值万亿美元的云厂商,为避免掉队,必须投入数百亿美元购买这些昂贵资源。存储价格翻倍,他们就得支付双倍费用,但收益并不能立刻翻倍,导致现金流严重消耗,利润直接转移至卖方口袋。

谁在其中获利?英伟达的毛利率约为75%,较2019年的60%大幅提升;台积电毛利率也超过60%,约为其他多数代工厂的两倍。最大利润正集中在产业链的瓶颈环节。这并非泡沫,而是一场结构性的财富大转移。

您可能会想,这与我有什么关系?看看我们身边便可知晓。一位高校博士生抱怨:“难道我是尊贵的会员吗?本周Token使用量已达到限额的90%。”她为了撰写毕业论文,不得不在三个AI工具间切换使用,省着用。AI编程工具的用户更是体验不佳:“我已经好几周没触达Claude Code的限额了,但这周大概45分钟就到上限了。”

这种场景不禁令人联想到二十年前的拨号上网时代。那时带宽稀缺且昂贵,开发者需极力压缩图片、精简代码,以防流量超额。如今,Token正在重演“流量”的历史。黄仁勋甚至预言,未来工程师将普遍采用“年薪+Token预算”模式,Token将成为硅谷招聘的核心筹码。而“下沉市场”的定义,或许也将发生改变——不再是买不起房、买不起包,而是用不起最好的AI工具。

常有人说:“所有人都在谈论石油,但世界真正短缺的或许是Token。” 过去,我们通过GDP、市值、财报衡量国家和公司的实力。未来,衡量实力的标准可能将变为:它拥有多少Token的生产能力,以及能持续生成多少有价值的Token。

Token正日益成为数字世界的通用货币。但货币已经印出,谁来为之买单?当前,AI应用的商业化回报仍远逊于资本的狂热投入。全球算力基础设施投资持续增长,但算力短缺状况预计至少还将持续两年。摩根士丹利预测,算力需求增速约为NVIDIA算力供给CAGR预测值的三倍,缺口将长期存在且持续扩大。高盛则预计到2030年,全球Token消耗量将较2026年增长24倍。这场Token短缺,本质上是在探讨一个更深层次的问题:当AI从消费品转变为基础设施,当Token从技术参数升级为战略资源,整个人类社会的数字生存方式,将如何被重构?而您我,正身处其中,既是“被挤压的下沉用户”,也是这场变革的亲历者。

广告位 · 文末横幅