news 2026/4/15 15:02:38

【小米拥抱开源】小米MiMo团队开源309B专家混合模型——MiMo-V2-Flash

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【小米拥抱开源】小米MiMo团队开源309B专家混合模型——MiMo-V2-Flash

MiMo-V2-Flash是一款采用专家混合架构(MoE)的语言模型,总参数量达3090亿激活参数量为150亿。该模型专为高速推理和智能体工作流设计,通过创新的混合注意力架构与多令牌预测技术(MTP),在实现顶尖性能的同时显著降低推理成本。

1. 简介

MiMo-V2-Flash在长上下文建模能力和推理效率之间实现了新的平衡。主要特性包括:

  • 混合注意力架构:以5:1的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),并采用激进的128词元窗口。通过可学习的注意力汇聚偏置,在保持长上下文性能的同时,将KV缓存存储降低近6倍。
  • 多词元预测(MTP):配备轻量级MTP模块(0.33B参数/块),使用密集前馈网络。推理时输出速度提升3倍,并有助于加速强化学习训练中的推演过程。
  • 高效预训练:使用FP8混合精度和原生32k序列长度,在27T词元上完成训练。上下文窗口支持高达256k的长度。
  • 智能体能力:训练后采用多教师策略蒸馏(MOPD)和大规模智能体强化学习,在SWE-Bench和复杂推理任务中表现卓越。

2. 模型下载

模型总参数量激活参数量上下文长度下载
MiMo-V2-Flash-Base309B15B256k🤗 HuggingFace
MiMo-V2-Flash309B15B256k🤗 HuggingFace

[!重要]
我们还开源了3层MTP权重,以促进社区研究。


3. 评估结果

基础模型评估

MiMo-V2-Flash-Base 在标准基准测试中展现出强劲性能,超越了参数量显著更大的模型。

CategoryBenchmarkSetting/LengthMiMo-V2-Flash BaseKimi-K2 BaseDeepSeek-V3.1 BaseDeepSeek-V3.2 Exp Base
Params#Activated / #Total-15B / 309B32B / 1043B37B / 671B37B / 671B
GeneralBBH3-shot88.588.788.288.7
MMLU5-shot86.787.887.487.8
MMLU-Redux5-shot90.690.290.090.4
MMLU-Pro5-shot73.269.258.862.1
DROP3-shot84.783.686.386.6
ARC-Challenge25-shot95.996.295.695.5
HellaSwag10-shot88.594.689.289.4
WinoGrande5-shot83.885.385.985.6
TriviaQA5-shot80.385.183.583.9
GPQA-Diamond5-shot55.148.151.052.0
SuperGPQA5-shot41.144.742.343.6
SimpleQA5-shot20.635.326.327.0
MathGSM8K8-shot92.392.191.491.1
MATH4-shot71.070.262.662.5
AIME 24&252-shot35.331.621.624.8
CodeHumanEval+1-shot70.784.864.667.7
MBPP+3-shot71.473.872.269.8
CRUXEval-I1-shot67.574.062.163.9
CRUXEval-O1-shot79.183.576.474.9
MultiPL-E HumanEval0-shot59.560.545.945.7
MultiPL-E MBPP0-shot56.758.852.550.6
BigCodeBench0-shot70.161.763.062.9
LiveCodeBench v61-shot30.826.324.824.9
SWE-Bench (AgentLess)3-shot30.828.224.89.4*
ChineseC-Eval5-shot87.992.590.091.0
CMMLU5-shot87.490.988.888.9
C-SimpleQA5-shot61.577.670.968.0
MultilingualGlobalMMLU5-shot76.680.781.982.0
INCLUDE5-shot71.475.377.277.2
Long ContextNIAH-Multi32K99.399.899.785.6*
64K99.9100.098.685.9*
128K98.699.597.294.3*
256K96.7---
GSM-Infinite Hard16K37.734.641.550.4
32K33.726.138.845.2
64K31.516.034.732.6
128K29.08.828.725.7

* 表示模型可能无法遵循提示或格式。

训练后模型评估

采用MOPD与智能体强化学习的训练后范式,该模型实现了最先进的推理与智能体性能。

BenchmarkMiMo-V2 FlashKimi-K2 ThinkingDeepSeek-V3.2 ThinkingGemini-3.0 ProClaude Sonnet 4.5GPT-5 High
Reasoning
MMLU-Pro84.984.685.090.188.287.5
GPQA-Diamond83.784.582.491.983.485.7
HLE (no tools)22.123.925.137.513.726.3
AIME 202594.194.593.195.087.094.6
HMMT Feb. 202584.489.492.597.579.288.3
LiveCodeBench-v680.683.183.390.764.084.5
General Writing
Arena-Hard (Hard Prompt)54.171.953.472.663.371.9
Arena-Hard (Creative Writing)86.280.188.893.676.792.2
Long Context
LongBench V260.645.158.465.661.8-
MRCR45.744.255.589.755.4-
Code Agent
SWE-Bench Verified73.471.373.176.277.274.9
SWE-Bench Multilingual71.761.170.2-68.055.3
Terminal-Bench Hard30.530.635.439.033.330.5
Terminal-Bench 2.038.535.746.454.242.835.2
General Agent
BrowseComp45.4-51.4-24.154.9
BrowseComp (w/ Context Manage)58.360.267.659.2--
\(\tau^2\)-Bench80.374.380.385.484.780.2

4. 模型架构

混合滑动窗口注意力

MiMo-V2-Flash通过交替使用局部滑动窗口注意力(SWA)和全局注意力(GA)来解决长上下文的二次方复杂度问题。

  • 配置:采用 \(M=8\) 个混合块堆叠结构。每个块包含 \(N=5\) 个SWA层和1个GA层。
  • 效率:SWA层采用128个词元的窗口大小,显著减少KV缓存占用。
  • 沉没偏置:应用可学习的注意力沉没偏置,确保在激进窗口尺寸下仍保持性能。

轻量级多词元预测(MTP)

不同于传统推测解码技术,我们的MTP模块原生集成于训练和推理流程。

  • 结构:使用稠密前馈网络(替代MoE)和SWA(替代GA),使每模块参数量控制在0.33B。
  • 性能:支持自推测解码,生成速度提升三倍,缓解小批量强化学习训练时的GPU闲置问题。

5. 训练后技术亮点

MiMo-V2-Flash采用创新的蒸馏和强化学习策略,通过精心设计的训练后流程最大化推理和智能体能力。

5.1 多教师同策略蒸馏(MOPD)

我们提出**多教师同策略蒸馏(MOPD)**这一新范式,将知识蒸馏构建为强化学习过程:

  • 密集令牌级指导:不同于依赖稀疏序列级反馈的方法,MOPD利用领域专家模型(教师)在每个令牌位置提供监督
  • 同策略优化:学生模型从自身生成的响应中学习,而非固定数据集。这消除了曝光偏差,确保更小更稳定的梯度更新
  • 内在奖励鲁棒性:奖励源自学生与教师间的分布差异,使该过程天然抵抗奖励破解

5.2 规模化智能体强化学习

我们大幅扩展了智能体训练环境以提升智能水平和泛化能力:

  • 海量代码智能体环境:利用真实GitHub工单创建超10万个可验证任务。自动化流水线维护的Kubernetes集群可运行超1万个并发Pod,环境搭建成功率达70%。
  • 网页开发多模态验证器:针对网页开发任务,采用基于视觉的验证器通过录制视频(非静态截图)评估代码执行,减少视觉幻觉并确保功能正确性。
  • 跨领域泛化能力:实验表明,代码智能体的大规模强化学习训练能有效迁移至数学和通用智能体领域,显著提升相关任务表现。

5.3 先进强化学习基础设施

为支持大规模混合专家模型的高吞吐强化学习训练,我们在SGLang和Megatron-LM基础上实现多项基础设施优化:

  • 轨迹路由回放(R3):解决推理与训练阶段MoE路由数值精度不一致问题。R3复用轨迹阶段的精确专家路由,确保一致性且开销可忽略。
  • 请求级前缀缓存:在多轮智能体训练中缓存先前对话轮的KV状态和路由专家,避免重复计算并保证跨轮采样一致性。
  • 细粒度数据调度器:扩展轨迹引擎以调度细粒度序列(替代微批次),结合部分轨迹执行,显著减少长尾延迟造成的GPU闲置。
  • 工具箱双层管理器:采用Ray执行器池的两层设计处理资源竞争,消除工具执行的冷启动延迟,实现任务逻辑与系统策略解耦。

6. 推理与部署

MiMo-V2-Flash支持FP8混合精度推理,推荐使用SGLang获得最佳性能。

参数建议:采样参数推荐设为temperature=0.8, top_p=0.95

SGLang快速入门

pipinstallsglang# Launch serverpython3 -m sglang.launch_server\--model-path XiaomiMiMo/MiMo-V2-Flash\--served-model-name mimo-v2-flash\--pp-size1\--dp-size2\--enable-dp-attention\--tp-size8\--moe-a2a-backend deepep\--page-size1\--host0.0.0.0\--port9001\--trust-remote-code\--mem-fraction-static0.75\--max-running-requests128\--chunked-prefill-size16384\--reasoning-parser qwen3\--tool-call-parser mimo\--context-length262144\--attention-backend fa3\--speculative-algorithm EAGLE\--speculative-num-steps3\--speculative-eagle-topk1\--speculative-num-draft-tokens4\--enable-mtp# Send requestcurl-i http://localhost:9001/v1/chat/completions\-H'Content-Type:application/json'\-d'{ "messages" : [{ "role": "user", "content": "Nice to meet you MiMo" }], "model": "mimo-v2-flash", "max_tokens": 4096, "temperature": 0.8, "top_p": 0.95, "stream": true, "chat_template_kwargs": { "enable_thinking": true } }'

重要通知

[!IMPORTANT]
在支持多轮工具调用的思考模式下,模型会同时返回reasoning_content字段和tool_calls字段。要继续对话,用户必须在后续每个请求的messages数组中保留所有历史reasoning_content

[!IMPORTANT]
强烈推荐使用以下系统提示语,请从英文和中文版本中选择。

英语

You are MiMo, an AI assistant developed by Xiaomi. Today's date: {date} {week}. Your knowledge cutoff date is December 2024.

中文

你是MiMo(中文名称也是MiMo),是小米公司研发的AI智能助手。 今天的日期:{date} {week},你的知识截止日期是2024年12月。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 23:10:26

第P2周:CIFAR10彩色图片识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者:K同学啊 目录 一、 前期准备 1. 设置GPU 2. 导入数据 3. 数据可视化 二、构建简单的CNN网络 三、 训练模型 1. 设置超参数 2. 编写训练函数 3. 编写测试函数 …

作者头像 李华
网站建设 2026/4/16 9:21:32

Spring Retry 全维度详解(结合 OpenFeign 实战)

目录 一、核心设计理念 二、快速入门:核心依赖与启用 1. 引入依赖 2. 启用 Spring Retry 三、核心使用方式 方式 1:声明式重试(注解方式,推荐) 1. 基础示例(结合 OpenFeign) 2. 注解参数…

作者头像 李华
网站建设 2026/4/15 22:08:16

无需训练数据!EmotiVoice实现秒级声音克隆的秘密

无需训练数据!EmotiVoice实现秒级声音克隆的秘密 在智能语音助手越来越“懂人心”的今天,我们是否曾期待过——它开口说话时,用的是亲人的嗓音?或是喜欢的主播语气?甚至,在讲笑话时真的能“笑出声”&#x…

作者头像 李华
网站建设 2026/4/16 10:59:19

EmotiVoice语音合成情感渐变功能:从平静到激动平滑过渡

EmotiVoice语音合成情感渐变功能:从平静到激动平滑过渡 在虚拟主播声情并茂地讲述故事、游戏角色因剧情转折突然爆发怒吼的那一刻,你是否曾好奇——这些声音是如何生成的?它们为何听起来如此真实而富有感染力?随着AI语音技术的发展…

作者头像 李华
网站建设 2026/4/16 9:25:22

告别低效!3种工具大幅提升大文件下载测试效率

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个对比测试工具,能同时运行curl、wget和aria2三种下载方式,自动记录各自的下载速度、CPU占用和内存消耗。要求可视化展示对比结果,支持导出…

作者头像 李华