在最近的财报披露期间,各科技巨头的电话会议上弥漫着一种微妙的气氛。阿里巴巴选择了披露其AI业务收入,但首席执行官吴泳铭并未深入阐述具体细节。当百度被问及AI领域的投资回报周期时,李彦宏用“全球都还在早期”来回应。而Meta面对数千亿美金资本支出何时能回本的疑问,扎克伯格则表示公司“想确保自己没有投资不足”。
这些不同的表态,其核心都在于承认对AI投入巨大,但对具体回报细账则避而不谈。然而,资本市场的预期正在转变,AI业务正从早期的“打基础”阶段加速过渡到需要“交答卷”的关键时期。每家大型科技公司都在被迫审视其AI相关的三本账:
首先是产品能力账:财报和宣传稿件中屡次出现的AI榜单排名,其真实可靠性究竟如何?
其次是运营成本账:在“Token经济学”模式下,单位推理成本究竟是盈利还是亏损?
最后是投资回报账:各公司争相报告的“AI收入”和年度经常性收入(ARR),是否真正经得起市场的推敲?
无论是国内的阿里巴巴、腾讯、百度,还是国际上的Meta、谷歌,都在进行着这种核算,或者说,正被市场驱动着开始核算。当前,全球范围内似乎只有一家大型科技公司能够免于这种盘算,那就是字节跳动。
一方面,字节跳动在中国AI领域确实表现突出,其旗下豆包应用月活跃用户已突破3.45亿,火山引擎的公有云大模型调用量市场份额达到49.5%,在数据层面展现出明显的领先优势。
另一方面,由于字节跳动并非上市公司,因此没有季度或年度财报的披露义务,也无需面对股东大会和分析师的追问。这意味着其AI能力的真实水平、具体成本构成以及收入的实际情况,字节跳动都无需全面公开,可以选择性披露。
正因如此,字节跳动成为AI浪潮中一个值得深入剖析的样本,它在AI领域的投入最为激进、宣传声量最大、披露信息最少,同时也是押注最重的企业。以字节跳动为切入点,这三笔账才能看得更加清晰。
在过去两年间,中国各大模型似乎都曾自诩“榜单第一”。仿佛不参与各项评测,就会被市场淘汰。从MMLU到SuperCLUE,再到Chatbot Arena等一系列综合性、中文、推理、代码、长文本及多模态榜单,每个细分领域似乎都能找到一个“第一名”。
这些榜单的含金量鲜有人深究。然而,如此众多的“第一”同时存在,是否真的能证明所有模型都实力超群呢?事实上,业内人士对打榜策略心知肚明:包括测试数据泄露、只挑选擅长的基准发布、避开弱势项,以及通过不同提示词反复测试以获取最高分等,一系列操作下来,“全球第一”便应运而生。
斯坦福基础模型研究中心(CRFM)和加州大学伯克利分校近几年发布的论文,专门探讨了“基准测试污染”现象,指出主流大模型的公开基准分数普遍存在水分,只是程度不同而已。不仅是中国大模型,OpenAI、谷歌、Meta等公司都曾被指出存在类似问题,整个行业似乎都在进行“高考突击”。
字节跳动也不例外,在打榜竞争中表现积极。过去一年,豆包在Chatbot Arena的排名从中间跃升至前列,每次模型迭代发布会都会刷新一组成绩“第一”。火山引擎的营销宣传中,“日均调用量第一”、“中文综合能力第一”、“多模态第一”等口号轮番出现,足以令同行侧目。
快速发展固然是好事,但这些“第一”究竟是来源于模型实力的真正增强,还是工程团队更准确地摸透了“用户偏好”?例如,Chatbot Arena之类的盲测榜单最近也受到质疑——更长、更礼貌、结构化的回答更容易获胜,但这并不等同于模型真正变得更智能。
对于这个问题,字节跳动自然不会回应,OpenAI和谷歌也从未给出答案。榜单和分数是真实的,但这些能否等同于真实的能力,没有人敢打包票。然而,当用户口碑逐渐积累,当真正的差异化应用场景显现时,纸面上的“第一”终将与实际口碑产生背离。届时,那些跑得最快、声量最大、刷“第一”频率最高的公司,其预期的回调也将最为剧烈,Meta的案例便是前车之鉴。
如果说打榜是过去两年AI行业的第一次集体行动,那么第二次便是降价。在这场降价竞赛中,字节跳动堪称“全国劳模”。
2024年5月,字节跳动在火山引擎发布会上宣布,豆包通用模型pro-32k的输入价格仅为0.8元/百万Token,比当时市场价格便宜99.3%,无疑扮演了“价格屠夫”的角色。这一举动迅速引发国内所有大模型价格的集体跳水。阿里云紧随其后,通义千问主力模型价格直降97%,1元可兑换200万Token,相当于5本《新华字典》的文字量。腾讯和百度也只能被迫跟进降价。
短短半年内,这场价格战使国内大模型API的价格从0.1-0.12元/千Token跌至0.001元级别。然而,在今年的五四青年节,情况却突然反转,豆包App开始向C端用户收取订阅费。
从B端API的“地板价”到C端订阅的“开始收费”,这是一个非常明确的信号:免费模式难以持续。这实际上反映了AI时代商业模式的根本性转变:在互联网时代,日活跃用户(DAU)意味着收入;而在AI时代,DAU则意味着成本。
对于豆包这类聊天机器人,每增加一个活跃用户,并非意味着多一个广告位,而是新增一笔实实在在的算力账单。试问,1元/百万Token的定价,是来源于技术进步,还是通过“流血”补贴实现的?
这个问题在AI圈内有一个专有名词——Token经济学。对于大型科技公司而言,Token经济学最核心的考量是:每个Token的售价为多少,而其背后的算力、电费、芯片折旧、人力分摊等综合成本又是多少,两者的差额是正还是负。差额为负只能是阶段性补贴,而要实现可持续发展,差额必须为正。外卖大战已经充分说明了这一点。在AI领域,去年之前很少有人能清晰计算这笔账,但今年开始,计算的人明显增多。
硅谷知名芯片分析机构SemiAnalysis曾发布一项测算:以GPT-4级别模型推理为例,单位Token的全成本(包括芯片折旧、电费、机房、运维等),以当前H100算力成本计算,大致在2-4元/百万Token区间。尽管各家模型大小、推理优化、批处理效率各有不同,但数量级大致相当。
1元/百万Token的定价,位于这个区间的下限甚至更低。换言之,根据行业普遍认可的成本估算,国内主流大模型的API业务,其单位经济效益目前是负数。
这并非字节跳动一家特例。阿里通义千问、百度文心一言、腾讯混元等主力API产品,价格也都在1-3元/百万Token区间内,普遍贴近甚至低于成本线。整个国内大模型API市场,目前正面临集体亏损的局面。
OpenAI在这一点上相对诚实。山姆·奥特曼曾公开承认,“ChatGPT Pro 200美元/月的订阅是亏钱的”——即使是每月200美元、用户重度使用的情况下,OpenAI仍在倒贴。国内同行虽然没有明确公开账目,但传递的信息是相同的:当前Token定价普遍无法覆盖成本。
所有公司仍在继续降价,因为这是一场赌未来的牌局——赌算力成本会随着芯片迭代和推理优化持续下降,赌用户规模增长后单位成本能被摊薄,赌竞争对手首先撑不住而自己能活到转折点。然而,每一个赌注都充满了不确定性,否则豆包也不会贸然开始收费。
从目前来看,纯免费的C端AI产品在算力成本面前缺乏可持续的商业模式。豆包App拥有3.45亿月活跃用户,如果按行业平均推理成本计算,仅算力一项的年账单就高达数十亿元,这还不包括训练分摊、硬件折旧,更未计入人力和营销成本——尽管字节跳动拥有强大的广告变现能力,可以弥补这一缺口,但这种补贴模式不可能无限持续。
字节跳动作为非上市公司,无需公开账目。然而,作为行业的领头羊,资本市场难免对其进行一番估算:彭博社、英国《金融时报》和《南华早报》先后分析指出,字节跳动2025年的资本开支预计为1500亿元人民币,其中约一半将投入AI算力。2026年,其规划资本开支将增至1600-2000亿元。
900亿元的AI算力投入,对应的是一个单位经济效益为负的API市场,以及一个刚刚开始转向付费的C端产品——如果这笔账能够算得过来,字节跳动将赢得这场世纪豪赌。反之,这可能成为中国AI领域最大的资金黑洞。
字节跳动没有公布答案,阿里、腾讯、百度也无法给出明确答案。没有一家大型科技公司愿意在财报中披露Token的单位毛利率,因为其数据可能并不理想。OpenAI的亏损有微软作为财务支持,可以通过观察Azure毛利率的变化间接感知。Anthropic则有亚马逊和谷歌的支持,其亏损在两家的云资本开支中可循。然而,字节跳动背后没有上市公司承接,其Token账单、推理亏损以及AI的单位经济效益,都融入了集团整体的“大焖锅”中,外界无从知晓。这是否构成了它的第二笔“糊涂账”?
打榜和降价通常是发布会或官方通告的内容。然而,到了财报季,话题转向了“AI到底赚了多少钱”。过去一年,各大科技公司财报会都增加了一个固定环节:管理层主动公布一个与AI相关的数字,以期获得分析师的认可并提振股价。
微软发布了Azure在2025财年预计达到750亿美元的收入;阿里巴巴公布AI相关业务的年化经常性收入(ARR)达到358亿元;谷歌则宣布其云服务积压订单在一季度新增490亿美元,总额达到1550亿美元。腾讯和Meta虽然没有单独列出AI收入,但通过其他数字进行了说明:腾讯表示“广告增量一半来自AI驱动”,Meta则将其2026年资本支出指引提升至1000亿美元。
然而,一个明显的疑问却未被深入追问:这些“AI收入”究竟是AI业务带来的真实增长,还是仅仅通过会计口径的重新分类来实现的?要回答这个问题,需要从两个角度进行分析。
首先是“AI收入”的定义。阿里巴巴披露的“AI相关产品收入”,包含了通义千问API、模型训练算力、向量数据库、AI推理服务,也涵盖了所有“使用了AI技术的传统云服务”。例如,一台云服务器如果客户用于运行AI训练,其收入便计入AI收入;一个对象存储服务如果存储的是训练数据集,也算作AI收入;甚至一个配备了向量插件的数据库服务,同样被计入AI收入。
这种做法并非个例,所有公司都热衷于谈论AI收入,但没有一家公司披露其AI收入的“纯度”。
其次,ARR中的“R”是否真的具有“经常性”?ARR全称为年度经常性收入,其估值溢价来源于一个假设:这笔收入明年、后年仍将持续,因此可以乘以一个高倍数进行估值。然而,AI业务的ARR目前至少有三个方面不太“经常性”:
一是概念验证(PoC)项目。许多企业购买AI服务是为了进行试用和效果验证。一份为期三至六个月、数十万元的PoC合同,在技术验证结束后,很可能不会续约。但这类收入很多都被计入ARR,而实际上明年就可能消失。
二是关联交易。例如,微软提供给OpenAI的Azure积分、火山引擎提供给豆包的算力支持,以及通义千问为阿里巴巴内部电商和钉钉团队提供的API调用——这些集团内部的资金流转,在会计上可以确认为收入,但在业务层面并非完全是“市场需求”。
三是未来价格可能下降。AI业务目前较高的单价,部分原因是市场竞争尚未充分。一旦几款开源模型的性能接近Claude和ChatGPT水平、推理芯片实现国产替代、价格战进一步升级,那么同样的调用量,明年的收入可能只有今年的一半。
微软今年一季度公布的AI ARR为370亿美元,多家媒体已开始拆解这一ARR的“纯度”:其中有多少来自Copilot订阅,有多少是Azure OpenAI算力转售,以及有多少是原有IT预算被“AI标签化”——微软至今未公开详细拆分数据。
这并非指大厂在造假——所有披露都是合规的,并且经过审计认可。只是口径是固定的,叙事是灵活的。在当前的市场情绪下,叙事决定估值,估值又决定预期。互联网时代的DAU、电商的GMV、云计算的云收入,每一次新指标的出现都伴随着一波估值狂潮。在AI时代,这个被重新定义的指标就是“AI收入”和“AI ARR”。
无论这个口径的“纯度”多高,现在都必须努力向上喊,才能支撑起新的叙事。那些谨慎、不愿高调宣传的公司,则可能被市场视为叙事失败者,并在估值上受到严厉惩罚。字节跳动为什么在这笔账上是最值得分析的“课代表”?因为字节跳动根本没有像微软、阿里那样需要披露的“AI收入”口径。它并非上市公司,其ARR中“经常性”收入的比例究竟有多少,外界完全无从拆解。
这既是字节跳动的优势,也构成了潜在的隐患:目前无需在财报中单独列出AI收入接受市场拷问,估值故事可以持续围绕“国内AI老大”的定位讲述。然而,一旦市场情绪降温,或者IPO预期重新提上日程,所有积压的“不披露”信息,将在那一刻一次性兑现。届时,市场将以对待阿里、腾讯、微软和谷歌的同一标准,来拆解字节跳动的“AI收入”——纯度几何、关联交易占比多少、PoC项目份额如何、ARR中多少收入具有真正的经常性。
在中国AI这场马拉松的前800米,字节跳动无疑是跑得最快的AI大公司。但最被看好,与最被看清,是截然不同的两件事。模型榜单的水分、算力成本的巨大开支、以及ARR的纯度——这些无需披露的特性,可以被视为非上市公司的一种红利,甚至可能是字节AI的核心竞争力,使其能够无视市场噪音,专注自身发展。
然而,红利的另一面是,无需披露不等于可以忽视账单,这三笔账在其内部也必须被清晰计算。不止字节跳动,所有被AI浪潮推着向前奔跑的大型科技公司,都必须算清这三笔账,并且,还要努力让资本市场愿意为之买单。
