← 返回新闻列表

小米MiMo-V2.5模型推理系统实现重大突破,最高降价99%背后的技术细节曝光

小米MiMo-V2.5系列API近日宣布永久降价,最高降幅达99%,引发业界广泛关注。公司今日首次详细披露了其推理系统全链路优化方案,揭示了成本大幅下降背后的技术创新,特别是围绕Hybrid SWA、MoE及多模态复合架构的系统性重构,大幅提升了推理效率并降低了KVCache存储成本。

文 / 编辑部 · 2026/05/30 · 阅读约 8 分钟

分享:
小米MiMo-V2.5模型推理系统实现重大突破,最高降价99%背后的技术细节曝光

小米于5月27日对MiMo-V2.5系列API进行了永久性降价,最大降幅达到99%,且不限制输入长度。今日,小米正式公开了其MiMo-V2.5系列模型推理系统的全链路优化详情,揭示了此次降价背后的技术核心。

据悉,小米团队针对Hybrid SWA、MoE及多模态的复杂架构,全面重构了推理栈。这包括从KVCache管理到分级缓存、前缀缓存,再到调度策略以及Prefill/Decode整个链路的优化。通过这些改进,KVCache的存储效率提升了约7倍,大幅降低了长序列场景下的推理成本,为此次API降价奠定了技术基础。

这是业界首次公布涵盖Hybrid SWA、MoE和多模态组合架构的大规模工程实践方案。此次优化并未牺牲模型性能,而是专注于提升推理系统的工程能力,旨在以相同的硬件配置,实现更高的吞吐量和更低的延迟,从而服务更多用户。

**Hybrid SWA架构选择的考量**

大型模型推理的主要成本来源于KVCache。模型在生成每个token时,需将完整的历史上下文以键值对形式存储于GPU显存。上下文越长,KVCache越大,可并发请求数越少,单次推理成本越高,这是所有大模型服务面临的共同经济挑战。

MiMo-V2.5-Pro模型通过架构设计,旨在突破这一限制。在70层Transformer结构中,仅有10层采用Full Attention机制,其余60层则应用窗口大小为128 token的滑动窗口注意力(Sliding Window Attention, SWA)。这意味着绝大部分网络层仅需存储最近的128个token信息,使得整体KVCache存储需求降至全Full Attention方案的七分之一左右。

同时,由于SWA层注意力计算量从整个序列缩减至窗口大小,Prefill阶段的计算成本也相应降低了七倍。Decode阶段的延迟与KVCache读取量呈正相关,长序列场景下存储压缩的效果几乎等同于推理成本的等比例下降。结合Prefill和Decode阶段的优势,Hybrid SWA在长序列场景下展现出显著的推理成本优势,而短文本场景下的性价比也相近。

然而,从架构理论上的“节省”到实际线上的“真正节省”,需要一整套推理系统的适配工程支持。

MiMo-V2系列推出之初,主流开源推理框架对SWA的支持并不完善,早期实现通常是以牺牲存储效率来兼容SWA。Hybrid SWA显著增加了缓存命中判断、前缀匹配以及双语义一致性维护的复杂性。在实际系统中,多级存储的数据传输、异步预取以及分布式缓存状态一致性问题,使得理论收益难以直接转化为工程效益。因此,有必要让推理系统“理解”Hybrid SWA的存储特性,将理论优势逐一实现。

**工程化实践:从理论节省到实际效益**

明确了Hybrid SWA在架构层面的潜力后,接下来的挑战是:如何让推理系统真正适应其特性,将架构优势转化为实际的效率提升?

这项工作围绕三个核心问题展开:缓存能否真正节省?节省出的空间能否有效利用?最终的生成速度能否显著加快?

**KVCache系统重构:实现缓存的实际节省**

要充分发挥Hybrid SWA的效率优势,首要任务是让KVCache管理系统能够区分两种截然不同的缓存需求。

**双池分治。** 传统推理系统为所有层统一分配KVCache空间,并根据最大需求进行配置。我们创新地将KVCache拆分为Full KV Pool和SWA KV Pool两个独立的缓存池。Full KV Pool根据需要增长并长期存储;而SWA KV Pool则只按窗口大小配置容量,采用环形缓冲区设计,支持基于窗口的独立淘汰机制,存储严格限制在O(W)级别。对于上层调度器和前缀树,系统仍提供统一的序列视图,由Full Attention索引作为权威索引并维护到SWA的映射关系。通过这种设计,KVCache的容量效率提升了大约7倍。SWA层的KVCache预取可在层级粒度实现完美的重叠,使Cache读取成本几乎为零。

存储节省后,下一个问题是:已计算的结果能否复用?这取决于前缀缓存能否在SWA模式下正常工作。

**前缀缓存树重构。** 传统前缀缓存的匹配规则基于“token序列相等则KV也相等”的假设,但在SWA模式下这一假设被打破。前缀树节点的逻辑生命周期与SWA KV的物理生命周期不一致,导致一个节点对应的SWA KV可能仅剩尾部一小段甚至已被完全释放,传统规则会产生“伪命中”。我们对前缀树语义进行了三方面改造:将匹配规则升级为“窗口安全长度”(确保尾部至少W个token仍有有效slot);将淘汰路径与请求生命周期绑定,确保SWA池占用恒定在窗口量级;每个节点同时承载Full Attention段索引和SWA段映射,支持独立淘汰策略。线上前缀缓存命中率平均达到93%,高频用户甚至超过95%。

解决了“算过的能复用”的问题后,还有一个现实挑战:用户对话存在时间间隔,将缓存长时间保留在显存中成本高昂,而丢弃则需重新计算。

**GCache三级缓存。** 小米存储团队自主研发了GCache,这是一个支持GPU显存、CPU内存和NVMe SSD的高性能分布式缓存系统。KVCache根据访问热度在三级存储之间自动流转:活跃数据驻留显存,冷数据降级到内存或SSD,并在用户返回时快速恢复。GCache优先在GPU机器上进行混部,利用节点的内存和自带SSD,实现零额外存储成本。通过RDMA通信实现单进程170 GB/s的读取吞吐量和280μs的延迟。结合SWA的极致存储占用,相同成本下可承载的缓存量成倍增加,KVCache被迫淘汰的压力大幅降低,留存窗口显著延长,从而显著提高了缓存命中率。

综合来看,SWA将缓存体积压缩至七分之一是容量层面的收益,而前缀缓存重构和GCache带来的高命中率则是复用层面的收益。两者叠加,共同构成了Prefill阶段实际计算成本的真实曲线。

**调度与Prefill优化:充分利用节省的空间**

即使缓存得到了节省且复用率提升,如果调度和计算链路未进行相应适配,节省出的显存空间和算力仍可能仅停留在理论层面。

**KVCache亲和与优先调度。** 在Agentic场景中,请求长度差异巨大。传统的FCFS调度不区分命中率和计算量,导致高命中率但计算量小的请求被长请求阻塞。我们在Router端实现了KVCache亲和调度——优先选择已缓存当前请求前缀的节点,同时兼顾负载均衡,使L2缓存命中率提升约25%。此外,引入计算量感知的优先调度,优先处理真实计算token数更少的请求,并辅以等待时间惩罚机制,避免请求饿死。这使得TTFT P90降低了30%。

调度将请求送达正确节点后,接下来是Prefill链路自身的计算效率。

**EP缩减与分桶策略。** SWA KVCache优化显著增加了GPU显存余量,我们将Expert Parallelism缩减至原来的一半。这减少了跨机通信,降低了负载差异,并允许每台机器承载更多专家,将端到端Prefill性能提升约40%。同时,采用三级长度分桶策略(0–64K / 64K–256K / 256K–1M),将负载特性相近的请求聚合调度,避免短请求被长请求拖慢,显著提升了线上Prefill的平均吞吐量。

**Decode加速与多模态优化:提升生成速度**

Prefill完成后进入Decode阶段,即逐token输出。此阶段的核心瓶颈与Prefill不同:并非计算量大,而是KVCache占用显存导致batch size无法扩展,未能充分利用GPU算力。

**显存扩容与MTP投机解码。** Decode端KVCache完整支持SWA后,有效容量提升近5倍。结合CUDA Graph显存调优和PD分离中的预分配优化,单节点并发能力显著增强。MiMo-V2.5原生支持3层MTP(Multi-Token Prediction)加速输出,模型在每一步并行预测多个候选token,验证通过后一次性输出。通过在Prefill阶段引入MTP并完成HiCache多级适配,前128 token的加速比达到2.3倍,128–256 token达到1.5倍。由于Agentic场景下多数输出序列较短,此优化直接降低了实际Decode成本。

除了文本推理,多模态推理链路同样关乎用户体验。

**多模态链路并行化。** MiMo-V2.5系列支持视觉、音频、视频的跨模态理解。Encoder支持跨请求组Batch处理,将多个请求的图像/音频融合为一次Forward,再根据请求进行切分返回;图像预处理迁移至GPU,消除了大图场景下CPU的性能瓶颈;视频解码切分为多chunk多线程并行处理,使得1小时视频的端到端延迟从156秒降至23秒。通过一致性哈希和机内共享内存实现Embedding缓存共享,整体Encoder吞吐量提升至2倍。

**推广Hybrid SWA的应用**

MiMo-V2.5系列的推理效率并非单一环节突破的结果,而是多维度协同优化的成果。Hybrid SWA虽然能使Prefill和Decode同时受益,但若KVCache实现不充分,反而会在各环节增加成本。

围绕这一核心问题,我们系统性地重构了KVCache管理、分级缓存、前缀缓存树、调度策略以及Prefill/Decode链路,解决了SWA KVCache的核心工程难题,并经过线上真实场景验证,最终将理论效率优势成功转化为生产环境的实际效益。结合MoE配置和多模态推理的系统级优化,整体线上推理服务性能得到了显著提升。

至此,Hybrid SWA才真正展现出其应有的面貌:一种在长文本推理上兼具强度与效率的模型架构。

作为首个全面覆盖Hybrid SWA、MoE和多模态组合架构的大规模工程实践方案,我们将由此节省的成本通过API降价回馈用户。同时,我们已将部分优化以Pull Request的形式贡献给SGLang开源社区,并会持续推动更多开源计划,希望工程优化不再成为壁垒,从而促进此类兼具强度与效率的复合架构得到更广泛的探索与应用。

广告位 · 文末横幅