小米MiMo API最高降价99%真相大公开：罗福莉揭秘六大底层技术突破

5月26日，小米MiMo官方在社交平台X上宣布，MiMo-V2.5系列API实行永久性降价，最高降幅达99%，同时所有上下文长度统一计费，Token套餐容量升级5至8倍。此消息一经发布，迅速在国内AI圈掀起热议。

针对市场普遍存在的“价格战”、“亏本抢市场”等猜测，MiMo负责人罗福莉决定通过一篇长达5000字的技术博客，向公众首次揭露此次降价背后的详细工程账目，强调这是真实技术能力的体现，而非营销噱头。

罗福莉解释道，99%的降价并非针对全模型，而是特指“Input (Cache Hit)”部分的定价，即用户在长对话中重复读取历史上下文的部分。这部分成本因其“现取”而非“现算”的特性，得以大幅削减。而普通新输入和模型输出的降幅则相对较小。

要实现这一目标，MiMo团队在六个关键工程领域取得了突破。首先是**压缩模型“记忆”**。通过调整MiMo-V2.5-Pro的架构，在70层模型中，有60层采用滑动窗口注意力（SWA），仅关注最近128个Token，而只有10层“档案管理员”负责处理全部上下文。这使得关键值缓存（KVCache）的体积及计算量均降至原有全注意力模型的1/7，显著降低了记忆成本。

紧接着是**确保SWA节约的空间得以实际利用**。传统的KVCache系统会按照“最大可能用量”为所有层统一分配显存，即使SWA层所需空间很小，也会被分配过多。MiMo团队创新性地将KVCache拆分为两个独立存储池，SWA层使用“小池子”，全注意力层使用“大池子”，从而让GPU能承载多5倍以上的并发用户，极大提升了硬件利用率。

第三项工程是**提升“老用户重复读”的缓存命中率**。面对SWA模式下前缀缓存可能出现的失效问题，MiMo团队升级了缓存规则至“窗口安全长度”，只承诺可完整借用的部分。尽管听起来更为严格，但由于KVCache体积大幅缩小，相同存储空间能容纳更多内容，实际命中率反而显著提高。线上数据显示，主流基准测试中，服务端缓存命中率平均达93%，高频长周期用户甚至超过95%。这意味着95%的重复读请求无需GPU计算，直接从缓存获取，构成了99%折扣的物理基础。

为了妥善存放这些高命中率的缓存，MiMo团队实施了第四项工程：**利用GPU机器自带的SSD构建分布式缓存**。传统行业常为L3级缓存搭建独立的存储集群。而小米存储团队自研了GCache系统，将其直接部署在GPU机器的SSD上，与训练和推理任务共存，几乎将存储成本降为零。这套方案结合SWA的小体积和高命中率，使KVCache的存活时间从几分钟延长至数小时乃至数天，进一步巩固了99%折扣的根基。

第五项创新在于**优化请求路由，确保命中缓存的请求走最短路径**。小米开发了一套名为LLM-Router的调度系统，实现了三大功能：一是亲和调度，将相同前缀的请求路由到同一台机器，最大化缓存复用；二是长度分桶，根据请求长度将其分发到不同通道，避免短请求被长请求拖累；三是TTFT（Time-To-First-Token）优化，优先处理计算量小的缓存命中请求，提升响应速度。这套调度策略将L2缓存命中率提高了25%，单机输入吞吐量提升30%，长请求的P90延迟降低30%，使得单位算力有效产出更高，单位用户成本更低。

最后，MiMo团队还优化了模型“写入”速度。第六项工程是**提升模型生成下一个Token的效率**。MiMo原生支持三层多Token预测（MTP），一次性预测接下来三个Token，若预测准确则跳过中间计算。在代理场景下，MTP在生成前128个Token时加速2.3倍，128-256个Token时加速1.5倍。这不仅提升了用户体验，也使得模型的整体成本效率得以进一步优化，为99%降价后的盈利模式提供了闭环支持。

罗福莉强调，99%的降价并非一个简单的营销数字，而是六大工程支柱叠加后，经由线上真实场景验证所累积的效应。这套集中的AI工程化系统打法，不仅为MiMo带来了显著的成本优势，也为全行业提供了值得借鉴的降本增效范本。她指出，MiMo-V2.5系列模型的推理效率是多维度协同优化的结果，Hybrid SWA架构结合KVCache管理重构、分级缓存、前缀缓存树、调度优化及Prefill/Decode链路等一系列技术攻坚，才最终在生产环境中兑现了其理论效率优势。

这表明，真正支持大幅降价的是扎实的技术创新和系统性工程优化，而非单纯的市场竞争策略。