6月1日,国产大模型公司MiniMax正式发布其新一代通用模型MiniMax M3。M3的核心创新在于采用了其自主研发的稀疏注意力架构MiniMax Sparse Attention(MSA),这使得模型在编程、智能体能力、超长上下文处理以及原生多模态理解等多个关键方向上取得了代际性的技术飞跃。
MiniMax指出,M3是国内首个集“前沿编码能力、1M超长上下文、原生多模态”三大核心功能于一身的大模型,同时也是全球范围内唯一具备这三项完整能力组合的开源选项。
与传统的全注意力机制相比,MSA架构能够大幅度降低在长上下文场景下的计算开销,并将上下文窗口扩展至惊人的100万个token。这意味着M3在处理超长文档、复杂的代码库以及多轮任务协作时,能够在一个推理周期内维持更全面的信息链条,显著提升处理效率和准确性。
MiniMax公开数据显示,在100万上下文规模下,M3的单token计算量相比其上一代模型降低了约95%,极大地提升了推理效率。
除了模型架构的升级,MiniMax还在底层推理算子上进行了深度优化。通过重新设计数据读取与计算路径,其相关性能较主流开源方案实现了超过四倍的提升。
随着智能体(Agent)任务复杂性的不断增加,全球大模型领域的竞争焦点正转向“更长的上下文、更稳定的记忆力以及更低的推理成本”,这些已成为决定产品实际可用性的关键因素。
M3在编码和智能体(Agentic)能力方面也展现出显著的增强。在衡量编码能力的SWE-Bench Pro基准测试中,MiniMax M3的表现超越了GPT-3.5和Gemini 1.5 Pro,接近了Claude 3 Opus。而在评估SVG生成性能的SVG-Bench基准测试中,MiniMax M3更是超越了Claude 3 Opus。在多模态测试集OmniDocBench上,MiniMax M3的得分超过了Gemini 1.5 Pro,并在面向自主Agent的端到端评估框架Claw-Eval中获得了最高分。
M3的这些优异表现主要得益于MiniMax在编程和Agent训练中引入的创新交互式用户模拟器框架。该框架通过模拟真实开发者在协作过程中的行为模式,使模型在训练和评估阶段就能接触到更贴近生产环境的交互场景。
MiniMax表示,M3在训练之初便采用了文本、图片、视频等多模态混合训练方法,并在数据规模和训练管线上进行了进一步的扩展。该模型不仅能够理解图像和视频内容,还具备桌面操作能力,使其能够在复杂的跨应用环境中执行计算机使用任务。
无论是办公室自动化、企业软件操作,还是更复杂的生产力场景,人工智能正以更快的速度渗透到实际执行层面。
与此同时,MiniMax还同步更新了MiniMax Code,这是一款专为M3设计并与其一同训练的Agent产品。在处理长程复杂任务时,MiniMax Code的Agent Team能够将大型任务智能拆解为多阶段、可并发、可动态调整的工作流,并通过Agent集群协作高效推进。
M3的问世无疑对现有闭源大模型格局构成了一大挑战。长期以来,以OpenAI、Google、Anthropic为代表的闭源模型几乎垄断了全球顶尖的逻辑推理、复杂编程和多模态代理能力。MiniMax M3则以“开源+全能”的差异化定位,旨在抢占那些对数据隐私高度敏感,同时对智能体性能要求苛刻的企业级核心客户群体。
在商业方面,MiniMax还同步推出了极具竞争力的Token Plan订阅方案,将大模型的使用成本拉入“百元时代”,试图通过极致的性价比吸引全球开发者生态。具体而言,Plus版每月49元,提供6亿token;Max版每月119元,提供18亿token;Ultra版每月469元,提供55亿token。
