6月2日,JetBrains宣布开源Mellum2模型,这是针对软件工程系统的新机器学习模型。Mellum2从代码补全模型升级为完整的编码助手,上下文窗口从8192Token扩展到131072Token,开发者可在Apache2.0许可证下部署基础版、指令版和思考版。Mellum2总规模为12B,高于Mellum的4B,采用稀疏Mixture-of-Experts框架,激活时参数量为2.5B,在标准硬件上保持较快计算。
Mellum2具备生成和编辑代码、调用外部工具、执行多步骤Agentic工作流、维持长对话的能力。JetBrains将Mellum2定位于AI工作负载路由与编排、低延迟RAG管线、复杂工作流中的快速Sub-agent,以及私有本地AI部署。在训练方面,团队采用三阶段数据课程,数据混合从多样化网页内容逐步转向精选代码和数学内容,使模型更贴近软件工程任务。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。