← 返回新闻列表

小米MiMo API最高降价99%罗福莉解读:核心成本优势使维持收支平衡

小米 MiMo 系列 API 近日宣布永久性大幅降价,最高降幅达到 99%。小米 MiMo 负责人罗福莉解释称,这得益于其独特的推理框架优化和模型架构带来的低推理成本,即使在新的低价位下,仍能基本保持收支平衡,并有望推动人工智能基础设施的整体发展。

文 / 编辑部 · 2026/05/28 · 阅读约 2 分钟

分享:
小米MiMo API最高降价99%罗福莉解读:核心成本优势使维持收支平衡

小米MiMo官方宣布其V2.5系列API现已实行永久性降价,部分定价相比初期最高可降低99%,并且取消了上下文窗口长度的差异化定价。此举引起了广泛关注。

小米MiMo负责人罗福莉随后通过社交平台阐释了此次API降价背后的技术考量。她指出,高达99%的降幅主要针对那些能够命中缓存的输入请求。其核心技术突破在于推理框架对SWA分层KV缓存的优化支持,这项改进使得缓存的Token容量提升了五倍,效果等同于缓存成本降低了八成。此外,Hybrid模型中多个Full Attention模块间的缓存读取重叠进一步压缩了实际运行成本。

即使是未命中缓存的输入和输出部分,价格也实现了约60%到80%的显著下调。罗福莉透露,这主要归功于模型架构本身,其实现了极致的1:7 Full:SWA稀疏比。以MiMo-V2.5-Pro模型为例,尽管它具备70层深度,但预填充的计算量大致等同于一个10层GQA模型。这意味着小米的原始推理成本远低于行业平均水平,为定价方案预留了两到三倍的利润空间。此次价格调整,本质上是将这些结构性的成本优势直接让渡给广大开发者。

罗福莉强调,即便在新的、更低的API价格体系下,当前生产推理引擎已接近全速运行,但团队依然能够维持收支平衡。她回顾此前曾建议大型语言模型公司谨慎降价,原因在于很少有模型架构和推理优化能力能够在API大幅降价后仍避免亏损。她期待未来能有更多架构出现,在节省计算量和KV缓存方面取得进展,并配合更优越的推理基础设施,共同推动API成本的下降,从而在行业内形成一个积极的良性循环。

更为深远的意义在于,价格合理且性能出色的模型API能够激发真实、持续且大规模的推理需求。这种需求将向上游拉动整个人工智能基础设施产业链的进步,涵盖芯片、服务器、光模块、PCB、液冷技术、电力供应、储能设备以及数据中心等多个环节。这不仅是人工智能硬件系统性价值重估的关键支点,从长远来看,还能为训练和推理管线注入更经济、更便捷的算力资源,从而加速全球通用人工智能在不同区域和技术路径上的并行发展。团队表示,更多技术细节将在未来的博客文章中详细公布。

广告位 · 文末横幅