JetBrains 于 6 月 1 日通过官方博客正式对外发布了名为 Mellum2 的全新机器学习模型,该模型专为软件工程系统设计,并已完全开源。
与前一代 Mellum 模型相比,Mellum2 实现了显著的功能飞跃,不再仅仅局限于代码补全,而是演进成为一个功能更为完善的代码编程助手。其上下文窗口容量也从原有的 8192 个 Token 大幅扩充至 131072 个 Token。开发者可以根据自身需求,在 Apache 2.0 许可框架下自由部署其基础版、指令版和思考版。
在模型参数方面,Mellum2 的总规模达到了 120 亿,远超 Mellum 的 40 亿参数。该模型采用了稀疏型专家混合(Mixture-of-Experts)架构,在实际激活时,仅需动用 25 亿参数,确保了在常规硬件环境下仍能保持高效的计算性能。
Mellum2 具备多项强大能力,包括代码生成与编辑、外部工具调用、执行分步骤的智能体式工作流程,以及维持长时间的对话交互。
JetBrains 将 Mellum2 定位为 AI 工作负载的路由与编排核心、低延迟检索增强生成(RAG)管道的优化工具、复杂工作流中作为快速的子智能体,以及私有化本地 AI 部署的理想选择。
在模型训练环节,开发团队透露采用了三阶段渐进式数据课程。预训练数据混合首先从多样化的网页内容开始,随后逐步过渡到精心挑选的代码和数学内容,旨在使模型更精准地契合软件工程领域的特定任务需求。
