小米MiMo-V2.5模型推理系统实现重大突破，最高降价99%背后的技术细节曝光

小米于5月27日对MiMo-V2.5系列API进行了永久性降价，最大降幅达到99%，且不限制输入长度。今日，小米正式公开了其MiMo-V2.5系列模型推理系统的全链路优化详情，揭示了此次降价背后的技术核心。

据悉，小米团队针对Hybrid SWA、MoE及多模态的复杂架构，全面重构了推理栈。这包括从KVCache管理到分级缓存、前缀缓存，再到调度策略以及Prefill/Decode整个链路的优化。通过这些改进，KVCache的存储效率提升了约7倍，大幅降低了长序列场景下的推理成本，为此次API降价奠定了技术基础。

这是业界首次公布涵盖Hybrid SWA、MoE和多模态组合架构的大规模工程实践方案。此次优化并未牺牲模型性能，而是专注于提升推理系统的工程能力，旨在以相同的硬件配置，实现更高的吞吐量和更低的延迟，从而服务更多用户。

**Hybrid SWA架构选择的考量**

大型模型推理的主要成本来源于KVCache。模型在生成每个token时，需将完整的历史上下文以键值对形式存储于GPU显存。上下文越长，KVCache越大，可并发请求数越少，单次推理成本越高，这是所有大模型服务面临的共同经济挑战。

MiMo-V2.5-Pro模型通过架构设计，旨在突破这一限制。在70层Transformer结构中，仅有10层采用Full Attention机制，其余60层则应用窗口大小为128 token的滑动窗口注意力（Sliding Window Attention, SWA）。这意味着绝大部分网络层仅需存储最近的128个token信息，使得整体KVCache存储需求降至全Full Attention方案的七分之一左右。

同时，由于SWA层注意力计算量从整个序列缩减至窗口大小，Prefill阶段的计算成本也相应降低了七倍。Decode阶段的延迟与KVCache读取量呈正相关，长序列场景下存储压缩的效果几乎等同于推理成本的等比例下降。结合Prefill和Decode阶段的优势，Hybrid SWA在长序列场景下展现出显著的推理成本优势，而短文本场景下的性价比也相近。

然而，从架构理论上的“节省”到实际线上的“真正节省”，需要一整套推理系统的适配工程支持。

MiMo-V2系列推出之初，主流开源推理框架对SWA的支持并不完善，早期实现通常是以牺牲存储效率来兼容SWA。Hybrid SWA显著增加了缓存命中判断、前缀匹配以及双语义一致性维护的复杂性。在实际系统中，多级存储的数据传输、异步预取以及分布式缓存状态一致性问题，使得理论收益难以直接转化为工程效益。因此，有必要让推理系统“理解”Hybrid SWA的存储特性，将理论优势逐一实现。

**工程化实践：从理论节省到实际效益**

明确了Hybrid SWA在架构层面的潜力后，接下来的挑战是：如何让推理系统真正适应其特性，将架构优势转化为实际的效率提升？

这项工作围绕三个核心问题展开：缓存能否真正节省？节省出的空间能否有效利用？最终的生成速度能否显著加快？

**KVCache系统重构：实现缓存的实际节省**

要充分发挥Hybrid SWA的效率优势，首要任务是让KVCache管理系统能够区分两种截然不同的缓存需求。

**双池分治。** 传统推理系统为所有层统一分配KVCache空间，并根据最大需求进行配置。我们创新地将KVCache拆分为Full KV Pool和SWA KV Pool两个独立的缓存池。Full KV Pool根据需要增长并长期存储；而SWA KV Pool则只按窗口大小配置容量，采用环形缓冲区设计，支持基于窗口的独立淘汰机制，存储严格限制在O(W)级别。对于上层调度器和前缀树，系统仍提供统一的序列视图，由Full Attention索引作为权威索引并维护到SWA的映射关系。通过这种设计，KVCache的容量效率提升了大约7倍。SWA层的KVCache预取可在层级粒度实现完美的重叠，使Cache读取成本几乎为零。

存储节省后，下一个问题是：已计算的结果能否复用？这取决于前缀缓存能否在SWA模式下正常工作。

**前缀缓存树重构。** 传统前缀缓存的匹配规则基于“token序列相等则KV也相等”的假设，但在SWA模式下这一假设被打破。前缀树节点的逻辑生命周期与SWA KV的物理生命周期不一致，导致一个节点对应的SWA KV可能仅剩尾部一小段甚至已被完全释放，传统规则会产生“伪命中”。我们对前缀树语义进行了三方面改造：将匹配规则升级为“窗口安全长度”（确保尾部至少W个token仍有有效slot）；将淘汰路径与请求生命周期绑定，确保SWA池占用恒定在窗口量级；每个节点同时承载Full Attention段索引和SWA段映射，支持独立淘汰策略。线上前缀缓存命中率平均达到93%，高频用户甚至超过95%。

解决了“算过的能复用”的问题后，还有一个现实挑战：用户对话存在时间间隔，将缓存长时间保留在显存中成本高昂，而丢弃则需重新计算。

**GCache三级缓存。** 小米存储团队自主研发了GCache，这是一个支持GPU显存、CPU内存和NVMe SSD的高性能分布式缓存系统。KVCache根据访问热度在三级存储之间自动流转：活跃数据驻留显存，冷数据降级到内存或SSD，并在用户返回时快速恢复。GCache优先在GPU机器上进行混部，利用节点的内存和自带SSD，实现零额外存储成本。通过RDMA通信实现单进程170 GB/s的读取吞吐量和280μs的延迟。结合SWA的极致存储占用，相同成本下可承载的缓存量成倍增加，KVCache被迫淘汰的压力大幅降低，留存窗口显著延长，从而显著提高了缓存命中率。

综合来看，SWA将缓存体积压缩至七分之一是容量层面的收益，而前缀缓存重构和GCache带来的高命中率则是复用层面的收益。两者叠加，共同构成了Prefill阶段实际计算成本的真实曲线。

**调度与Prefill优化：充分利用节省的空间**

即使缓存得到了节省且复用率提升，如果调度和计算链路未进行相应适配，节省出的显存空间和算力仍可能仅停留在理论层面。

**KVCache亲和与优先调度。** 在Agentic场景中，请求长度差异巨大。传统的FCFS调度不区分命中率和计算量，导致高命中率但计算量小的请求被长请求阻塞。我们在Router端实现了KVCache亲和调度——优先选择已缓存当前请求前缀的节点，同时兼顾负载均衡，使L2缓存命中率提升约25%。此外，引入计算量感知的优先调度，优先处理真实计算token数更少的请求，并辅以等待时间惩罚机制，避免请求饿死。这使得TTFT P90降低了30%。

调度将请求送达正确节点后，接下来是Prefill链路自身的计算效率。

**EP缩减与分桶策略。** SWA KVCache优化显著增加了GPU显存余量，我们将Expert Parallelism缩减至原来的一半。这减少了跨机通信，降低了负载差异，并允许每台机器承载更多专家，将端到端Prefill性能提升约40%。同时，采用三级长度分桶策略（0–64K / 64K–256K / 256K–1M），将负载特性相近的请求聚合调度，避免短请求被长请求拖慢，显著提升了线上Prefill的平均吞吐量。

**Decode加速与多模态优化：提升生成速度**

Prefill完成后进入Decode阶段，即逐token输出。此阶段的核心瓶颈与Prefill不同：并非计算量大，而是KVCache占用显存导致batch size无法扩展，未能充分利用GPU算力。

**显存扩容与MTP投机解码。** Decode端KVCache完整支持SWA后，有效容量提升近5倍。结合CUDA Graph显存调优和PD分离中的预分配优化，单节点并发能力显著增强。MiMo-V2.5原生支持3层MTP（Multi-Token Prediction）加速输出，模型在每一步并行预测多个候选token，验证通过后一次性输出。通过在Prefill阶段引入MTP并完成HiCache多级适配，前128 token的加速比达到2.3倍，128–256 token达到1.5倍。由于Agentic场景下多数输出序列较短，此优化直接降低了实际Decode成本。

除了文本推理，多模态推理链路同样关乎用户体验。

**多模态链路并行化。** MiMo-V2.5系列支持视觉、音频、视频的跨模态理解。Encoder支持跨请求组Batch处理，将多个请求的图像/音频融合为一次Forward，再根据请求进行切分返回；图像预处理迁移至GPU，消除了大图场景下CPU的性能瓶颈；视频解码切分为多chunk多线程并行处理，使得1小时视频的端到端延迟从156秒降至23秒。通过一致性哈希和机内共享内存实现Embedding缓存共享，整体Encoder吞吐量提升至2倍。

**推广Hybrid SWA的应用**

MiMo-V2.5系列的推理效率并非单一环节突破的结果，而是多维度协同优化的成果。Hybrid SWA虽然能使Prefill和Decode同时受益，但若KVCache实现不充分，反而会在各环节增加成本。

围绕这一核心问题，我们系统性地重构了KVCache管理、分级缓存、前缀缓存树、调度策略以及Prefill/Decode链路，解决了SWA KVCache的核心工程难题，并经过线上真实场景验证，最终将理论效率优势成功转化为生产环境的实际效益。结合MoE配置和多模态推理的系统级优化，整体线上推理服务性能得到了显著提升。

至此，Hybrid SWA才真正展现出其应有的面貌：一种在长文本推理上兼具强度与效率的模型架构。

作为首个全面覆盖Hybrid SWA、MoE和多模态组合架构的大规模工程实践方案，我们将由此节省的成本通过API降价回馈用户。同时，我们已将部分优化以Pull Request的形式贡献给SGLang开源社区，并会持续推动更多开源计划，希望工程优化不再成为壁垒，从而促进此类兼具强度与效率的复合架构得到更广泛的探索与应用。