5月26日,小米MiMo官方在社交平台X上宣布,MiMo-V2.5系列API实行永久性降价,最高降幅达99%,同时所有上下文长度统一计费,Token套餐容量升级5至8倍。此消息一经发布,迅速在国内AI圈掀起热议。
针对市场普遍存在的“价格战”、“亏本抢市场”等猜测,MiMo负责人罗福莉决定通过一篇长达5000字的技术博客,向公众首次揭露此次降价背后的详细工程账目,强调这是真实技术能力的体现,而非营销噱头。
罗福莉解释道,99%的降价并非针对全模型,而是特指“Input (Cache Hit)”部分的定价,即用户在长对话中重复读取历史上下文的部分。这部分成本因其“现取”而非“现算”的特性,得以大幅削减。而普通新输入和模型输出的降幅则相对较小。
要实现这一目标,MiMo团队在六个关键工程领域取得了突破。首先是**压缩模型“记忆”**。通过调整MiMo-V2.5-Pro的架构,在70层模型中,有60层采用滑动窗口注意力(SWA),仅关注最近128个Token,而只有10层“档案管理员”负责处理全部上下文。这使得关键值缓存(KVCache)的体积及计算量均降至原有全注意力模型的1/7,显著降低了记忆成本。
紧接着是**确保SWA节约的空间得以实际利用**。传统的KVCache系统会按照“最大可能用量”为所有层统一分配显存,即使SWA层所需空间很小,也会被分配过多。MiMo团队创新性地将KVCache拆分为两个独立存储池,SWA层使用“小池子”,全注意力层使用“大池子”,从而让GPU能承载多5倍以上的并发用户,极大提升了硬件利用率。
第三项工程是**提升“老用户重复读”的缓存命中率**。面对SWA模式下前缀缓存可能出现的失效问题,MiMo团队升级了缓存规则至“窗口安全长度”,只承诺可完整借用的部分。尽管听起来更为严格,但由于KVCache体积大幅缩小,相同存储空间能容纳更多内容,实际命中率反而显著提高。线上数据显示,主流基准测试中,服务端缓存命中率平均达93%,高频长周期用户甚至超过95%。这意味着95%的重复读请求无需GPU计算,直接从缓存获取,构成了99%折扣的物理基础。
为了妥善存放这些高命中率的缓存,MiMo团队实施了第四项工程:**利用GPU机器自带的SSD构建分布式缓存**。传统行业常为L3级缓存搭建独立的存储集群。而小米存储团队自研了GCache系统,将其直接部署在GPU机器的SSD上,与训练和推理任务共存,几乎将存储成本降为零。这套方案结合SWA的小体积和高命中率,使KVCache的存活时间从几分钟延长至数小时乃至数天,进一步巩固了99%折扣的根基。
第五项创新在于**优化请求路由,确保命中缓存的请求走最短路径**。小米开发了一套名为LLM-Router的调度系统,实现了三大功能:一是亲和调度,将相同前缀的请求路由到同一台机器,最大化缓存复用;二是长度分桶,根据请求长度将其分发到不同通道,避免短请求被长请求拖累;三是TTFT(Time-To-First-Token)优化,优先处理计算量小的缓存命中请求,提升响应速度。这套调度策略将L2缓存命中率提高了25%,单机输入吞吐量提升30%,长请求的P90延迟降低30%,使得单位算力有效产出更高,单位用户成本更低。
最后,MiMo团队还优化了模型“写入”速度。第六项工程是**提升模型生成下一个Token的效率**。MiMo原生支持三层多Token预测(MTP),一次性预测接下来三个Token,若预测准确则跳过中间计算。在代理场景下,MTP在生成前128个Token时加速2.3倍,128-256个Token时加速1.5倍。这不仅提升了用户体验,也使得模型的整体成本效率得以进一步优化,为99%降价后的盈利模式提供了闭环支持。
罗福莉强调,99%的降价并非一个简单的营销数字,而是六大工程支柱叠加后,经由线上真实场景验证所累积的效应。这套集中的AI工程化系统打法,不仅为MiMo带来了显著的成本优势,也为全行业提供了值得借鉴的降本增效范本。她指出,MiMo-V2.5系列模型的推理效率是多维度协同优化的结果,Hybrid SWA架构结合KVCache管理重构、分级缓存、前缀缓存树、调度优化及Prefill/Decode链路等一系列技术攻坚,才最终在生产环境中兑现了其理论效率优势。
这表明,真正支持大幅降价的是扎实的技术创新和系统性工程优化,而非单纯的市场竞争策略。
