上海稀宇科技有限公司(MiniMax)近期在社交平台 X 上发布了一则消息,预告了其即将推出的 MiniMax M3 系列模型。此番预告也回顾了该公司于 5 月 26 日在学术平台 arXiv 上发布的一篇题为《The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence》的论文,该论文详细介绍了 MiniMax M2.x 系列模型的工作原理和核心技术。
该论文披露,MiniMax M2.x 系列模型虽然总参数量达到 229.9 亿,但其独特之处在于每个词元仅激活 9.8 亿参数,充分体现了“低激活、高智能”的设计理念。该系列模型配备了 192K 的上下文窗口,并使用了高达 29.2 万亿词元的预训练数据。
在模型架构方面,M2 系列采用了 62 层的解码器式 Transformer 结构,并集成了 256 个细粒度专家,实现了每个词元激活 8 个专家的并行处理模式。
针对训练系统,MiniMax 自主研发了名为 Forge 的强化学习系统。这一系统支持白盒和黑盒智能体统一接入,通过将训练、推理与智能体功能解耦,并结合窗口化 FIFO 调度、前缀树合并以及推理加速等技术,显著降低了长轨迹训练的成本。
M2.7 版本最引人瞩目的进步在于其初步展现的“自我进化”能力。该模型已经能够自主识别训练失败、解析日志、修改脚手架代码,并在内部任务中完成了多达 100 轮的自主迭代。
论文指出,这套系统目前已承担了团队日常迭代工作量的 30% 到 50%,并在内部编程脚手架优化中将性能提升了 30%,这标志着模型已开始参与到自身开发的闭环流程中。
