大厂AI困局：能力、成本、回报三笔账难算清

在最近的财报披露期间，各科技巨头的电话会议上弥漫着一种微妙的气氛。阿里巴巴选择了披露其AI业务收入，但首席执行官吴泳铭并未深入阐述具体细节。当百度被问及AI领域的投资回报周期时，李彦宏用“全球都还在早期”来回应。而Meta面对数千亿美金资本支出何时能回本的疑问，扎克伯格则表示公司“想确保自己没有投资不足”。

这些不同的表态，其核心都在于承认对AI投入巨大，但对具体回报细账则避而不谈。然而，资本市场的预期正在转变，AI业务正从早期的“打基础”阶段加速过渡到需要“交答卷”的关键时期。每家大型科技公司都在被迫审视其AI相关的三本账：

首先是产品能力账：财报和宣传稿件中屡次出现的AI榜单排名，其真实可靠性究竟如何？

其次是运营成本账：在“Token经济学”模式下，单位推理成本究竟是盈利还是亏损？

最后是投资回报账：各公司争相报告的“AI收入”和年度经常性收入（ARR），是否真正经得起市场的推敲？

无论是国内的阿里巴巴、腾讯、百度，还是国际上的Meta、谷歌，都在进行着这种核算，或者说，正被市场驱动着开始核算。当前，全球范围内似乎只有一家大型科技公司能够免于这种盘算，那就是字节跳动。

一方面，字节跳动在中国AI领域确实表现突出，其旗下豆包应用月活跃用户已突破3.45亿，火山引擎的公有云大模型调用量市场份额达到49.5%，在数据层面展现出明显的领先优势。

另一方面，由于字节跳动并非上市公司，因此没有季度或年度财报的披露义务，也无需面对股东大会和分析师的追问。这意味着其AI能力的真实水平、具体成本构成以及收入的实际情况，字节跳动都无需全面公开，可以选择性披露。

正因如此，字节跳动成为AI浪潮中一个值得深入剖析的样本，它在AI领域的投入最为激进、宣传声量最大、披露信息最少，同时也是押注最重的企业。以字节跳动为切入点，这三笔账才能看得更加清晰。

在过去两年间，中国各大模型似乎都曾自诩“榜单第一”。仿佛不参与各项评测，就会被市场淘汰。从MMLU到SuperCLUE，再到Chatbot Arena等一系列综合性、中文、推理、代码、长文本及多模态榜单，每个细分领域似乎都能找到一个“第一名”。

这些榜单的含金量鲜有人深究。然而，如此众多的“第一”同时存在，是否真的能证明所有模型都实力超群呢？事实上，业内人士对打榜策略心知肚明：包括测试数据泄露、只挑选擅长的基准发布、避开弱势项，以及通过不同提示词反复测试以获取最高分等，一系列操作下来，“全球第一”便应运而生。

斯坦福基础模型研究中心（CRFM）和加州大学伯克利分校近几年发布的论文，专门探讨了“基准测试污染”现象，指出主流大模型的公开基准分数普遍存在水分，只是程度不同而已。不仅是中国大模型，OpenAI、谷歌、Meta等公司都曾被指出存在类似问题，整个行业似乎都在进行“高考突击”。

字节跳动也不例外，在打榜竞争中表现积极。过去一年，豆包在Chatbot Arena的排名从中间跃升至前列，每次模型迭代发布会都会刷新一组成绩“第一”。火山引擎的营销宣传中，“日均调用量第一”、“中文综合能力第一”、“多模态第一”等口号轮番出现，足以令同行侧目。

快速发展固然是好事，但这些“第一”究竟是来源于模型实力的真正增强，还是工程团队更准确地摸透了“用户偏好”？例如，Chatbot Arena之类的盲测榜单最近也受到质疑——更长、更礼貌、结构化的回答更容易获胜，但这并不等同于模型真正变得更智能。

对于这个问题，字节跳动自然不会回应，OpenAI和谷歌也从未给出答案。榜单和分数是真实的，但这些能否等同于真实的能力，没有人敢打包票。然而，当用户口碑逐渐积累，当真正的差异化应用场景显现时，纸面上的“第一”终将与实际口碑产生背离。届时，那些跑得最快、声量最大、刷“第一”频率最高的公司，其预期的回调也将最为剧烈，Meta的案例便是前车之鉴。

如果说打榜是过去两年AI行业的第一次集体行动，那么第二次便是降价。在这场降价竞赛中，字节跳动堪称“全国劳模”。

2024年5月，字节跳动在火山引擎发布会上宣布，豆包通用模型pro-32k的输入价格仅为0.8元/百万Token，比当时市场价格便宜99.3%，无疑扮演了“价格屠夫”的角色。这一举动迅速引发国内所有大模型价格的集体跳水。阿里云紧随其后，通义千问主力模型价格直降97%，1元可兑换200万Token，相当于5本《新华字典》的文字量。腾讯和百度也只能被迫跟进降价。

短短半年内，这场价格战使国内大模型API的价格从0.1-0.12元/千Token跌至0.001元级别。然而，在今年的五四青年节，情况却突然反转，豆包App开始向C端用户收取订阅费。

从B端API的“地板价”到C端订阅的“开始收费”，这是一个非常明确的信号：免费模式难以持续。这实际上反映了AI时代商业模式的根本性转变：在互联网时代，日活跃用户（DAU）意味着收入；而在AI时代，DAU则意味着成本。

对于豆包这类聊天机器人，每增加一个活跃用户，并非意味着多一个广告位，而是新增一笔实实在在的算力账单。试问，1元/百万Token的定价，是来源于技术进步，还是通过“流血”补贴实现的？

这个问题在AI圈内有一个专有名词——Token经济学。对于大型科技公司而言，Token经济学最核心的考量是：每个Token的售价为多少，而其背后的算力、电费、芯片折旧、人力分摊等综合成本又是多少，两者的差额是正还是负。差额为负只能是阶段性补贴，而要实现可持续发展，差额必须为正。外卖大战已经充分说明了这一点。在AI领域，去年之前很少有人能清晰计算这笔账，但今年开始，计算的人明显增多。

硅谷知名芯片分析机构SemiAnalysis曾发布一项测算：以GPT-4级别模型推理为例，单位Token的全成本（包括芯片折旧、电费、机房、运维等），以当前H100算力成本计算，大致在2-4元/百万Token区间。尽管各家模型大小、推理优化、批处理效率各有不同，但数量级大致相当。

1元/百万Token的定价，位于这个区间的下限甚至更低。换言之，根据行业普遍认可的成本估算，国内主流大模型的API业务，其单位经济效益目前是负数。

这并非字节跳动一家特例。阿里通义千问、百度文心一言、腾讯混元等主力API产品，价格也都在1-3元/百万Token区间内，普遍贴近甚至低于成本线。整个国内大模型API市场，目前正面临集体亏损的局面。

OpenAI在这一点上相对诚实。山姆·奥特曼曾公开承认，“ChatGPT Pro 200美元/月的订阅是亏钱的”——即使是每月200美元、用户重度使用的情况下，OpenAI仍在倒贴。国内同行虽然没有明确公开账目，但传递的信息是相同的：当前Token定价普遍无法覆盖成本。

所有公司仍在继续降价，因为这是一场赌未来的牌局——赌算力成本会随着芯片迭代和推理优化持续下降，赌用户规模增长后单位成本能被摊薄，赌竞争对手首先撑不住而自己能活到转折点。然而，每一个赌注都充满了不确定性，否则豆包也不会贸然开始收费。

从目前来看，纯免费的C端AI产品在算力成本面前缺乏可持续的商业模式。豆包App拥有3.45亿月活跃用户，如果按行业平均推理成本计算，仅算力一项的年账单就高达数十亿元，这还不包括训练分摊、硬件折旧，更未计入人力和营销成本——尽管字节跳动拥有强大的广告变现能力，可以弥补这一缺口，但这种补贴模式不可能无限持续。

字节跳动作为非上市公司，无需公开账目。然而，作为行业的领头羊，资本市场难免对其进行一番估算：彭博社、英国《金融时报》和《南华早报》先后分析指出，字节跳动2025年的资本开支预计为1500亿元人民币，其中约一半将投入AI算力。2026年，其规划资本开支将增至1600-2000亿元。

900亿元的AI算力投入，对应的是一个单位经济效益为负的API市场，以及一个刚刚开始转向付费的C端产品——如果这笔账能够算得过来，字节跳动将赢得这场世纪豪赌。反之，这可能成为中国AI领域最大的资金黑洞。

字节跳动没有公布答案，阿里、腾讯、百度也无法给出明确答案。没有一家大型科技公司愿意在财报中披露Token的单位毛利率，因为其数据可能并不理想。OpenAI的亏损有微软作为财务支持，可以通过观察Azure毛利率的变化间接感知。Anthropic则有亚马逊和谷歌的支持，其亏损在两家的云资本开支中可循。然而，字节跳动背后没有上市公司承接，其Token账单、推理亏损以及AI的单位经济效益，都融入了集团整体的“大焖锅”中，外界无从知晓。这是否构成了它的第二笔“糊涂账”？

打榜和降价通常是发布会或官方通告的内容。然而，到了财报季，话题转向了“AI到底赚了多少钱”。过去一年，各大科技公司财报会都增加了一个固定环节：管理层主动公布一个与AI相关的数字，以期获得分析师的认可并提振股价。

微软发布了Azure在2025财年预计达到750亿美元的收入；阿里巴巴公布AI相关业务的年化经常性收入（ARR）达到358亿元；谷歌则宣布其云服务积压订单在一季度新增490亿美元，总额达到1550亿美元。腾讯和Meta虽然没有单独列出AI收入，但通过其他数字进行了说明：腾讯表示“广告增量一半来自AI驱动”，Meta则将其2026年资本支出指引提升至1000亿美元。

然而，一个明显的疑问却未被深入追问：这些“AI收入”究竟是AI业务带来的真实增长，还是仅仅通过会计口径的重新分类来实现的？要回答这个问题，需要从两个角度进行分析。

首先是“AI收入”的定义。阿里巴巴披露的“AI相关产品收入”，包含了通义千问API、模型训练算力、向量数据库、AI推理服务，也涵盖了所有“使用了AI技术的传统云服务”。例如，一台云服务器如果客户用于运行AI训练，其收入便计入AI收入；一个对象存储服务如果存储的是训练数据集，也算作AI收入；甚至一个配备了向量插件的数据库服务，同样被计入AI收入。

这种做法并非个例，所有公司都热衷于谈论AI收入，但没有一家公司披露其AI收入的“纯度”。

其次，ARR中的“R”是否真的具有“经常性”？ARR全称为年度经常性收入，其估值溢价来源于一个假设：这笔收入明年、后年仍将持续，因此可以乘以一个高倍数进行估值。然而，AI业务的ARR目前至少有三个方面不太“经常性”：

一是概念验证（PoC）项目。许多企业购买AI服务是为了进行试用和效果验证。一份为期三至六个月、数十万元的PoC合同，在技术验证结束后，很可能不会续约。但这类收入很多都被计入ARR，而实际上明年就可能消失。

二是关联交易。例如，微软提供给OpenAI的Azure积分、火山引擎提供给豆包的算力支持，以及通义千问为阿里巴巴内部电商和钉钉团队提供的API调用——这些集团内部的资金流转，在会计上可以确认为收入，但在业务层面并非完全是“市场需求”。

三是未来价格可能下降。AI业务目前较高的单价，部分原因是市场竞争尚未充分。一旦几款开源模型的性能接近Claude和ChatGPT水平、推理芯片实现国产替代、价格战进一步升级，那么同样的调用量，明年的收入可能只有今年的一半。

微软今年一季度公布的AI ARR为370亿美元，多家媒体已开始拆解这一ARR的“纯度”：其中有多少来自Copilot订阅，有多少是Azure OpenAI算力转售，以及有多少是原有IT预算被“AI标签化”——微软至今未公开详细拆分数据。

这并非指大厂在造假——所有披露都是合规的，并且经过审计认可。只是口径是固定的，叙事是灵活的。在当前的市场情绪下，叙事决定估值，估值又决定预期。互联网时代的DAU、电商的GMV、云计算的云收入，每一次新指标的出现都伴随着一波估值狂潮。在AI时代，这个被重新定义的指标就是“AI收入”和“AI ARR”。

无论这个口径的“纯度”多高，现在都必须努力向上喊，才能支撑起新的叙事。那些谨慎、不愿高调宣传的公司，则可能被市场视为叙事失败者，并在估值上受到严厉惩罚。字节跳动为什么在这笔账上是最值得分析的“课代表”？因为字节跳动根本没有像微软、阿里那样需要披露的“AI收入”口径。它并非上市公司，其ARR中“经常性”收入的比例究竟有多少，外界完全无从拆解。

这既是字节跳动的优势，也构成了潜在的隐患：目前无需在财报中单独列出AI收入接受市场拷问，估值故事可以持续围绕“国内AI老大”的定位讲述。然而，一旦市场情绪降温，或者IPO预期重新提上日程，所有积压的“不披露”信息，将在那一刻一次性兑现。届时，市场将以对待阿里、腾讯、微软和谷歌的同一标准，来拆解字节跳动的“AI收入”——纯度几何、关联交易占比多少、PoC项目份额如何、ARR中多少收入具有真正的经常性。

在中国AI这场马拉松的前800米，字节跳动无疑是跑得最快的AI大公司。但最被看好，与最被看清，是截然不同的两件事。模型榜单的水分、算力成本的巨大开支、以及ARR的纯度——这些无需披露的特性，可以被视为非上市公司的一种红利，甚至可能是字节AI的核心竞争力，使其能够无视市场噪音，专注自身发展。

然而，红利的另一面是，无需披露不等于可以忽视账单，这三笔账在其内部也必须被清晰计算。不止字节跳动，所有被AI浪潮推着向前奔跑的大型科技公司，都必须算清这三笔账，并且，还要努力让资本市场愿意为之买单。