背景 链接到标题
2026 年 4 月,小米 MiMo 团队正式开源了两款新模型:
- MiMo-V2.5-Pro:总参 1.02T,激活 42B,1M 上下文,纯文本
- MiMo-V2.5:总参 310B,激活 15B,1M 上下文,多模态(文本 + 图像 + 视频 + 音频)
两者均采用 MoE(Mixture of Experts)架构 + Hybrid Attention(滑动窗口注意力和全局注意力交替),并内置了 3 层 Multi-Token Prediction(MTP)模块通过投机解码加速推理。这是小米在大模型领域的首次大规模开源——不仅开放权重,还提供了详细的架构说明、训练流程和完整的 Base 模型评测矩阵。
MiMo 官方在 HuggingFace 上公布了与 DeepSeek-V4-Pro、DeepSeek-V4-Flash、Kimi-K2 等模型的同基准对比。本文聚焦 Base 模型评测数据,逐项解读 20 个基准的含义,并从「Pro vs 标准版」、「与 DeepSeek/Kimi 横向对比」两个维度进行深度分析。
阅读提示:本文数据全部来源于小米官方 HuggingFace 页面,所有分析基于官方公布的横评结果。需要注意的是,部分基准 DeepSeek 系列未参与对比(仅 MiMo 两款 + Kimi-K2 三方比较),这影响了整体排名的公平性。本文会明确标注每项基准的参与模型数量。
一、模型架构速览 链接到标题
| 架构参数 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| 总参数 | 1.02T | 310B |
| 激活参数 | 42B | 15B |
| 隐藏维度 | 6144 | 4096 |
| 总层数 | 70(1 dense + 69 MoE) | 48(1 dense + 47 MoE) |
| 全局注意力层 | 10 | 9 |
| 滑动窗口注意力层 | 60 | 39 |
| 注意力头数 | 128 | 64 |
| KV 头数 | 8(GQA) | 8(GA)/ 4(SWA) |
| 路由专家数 | 384 | 256 |
| 每 Token 激活专家 | 8 | 8 |
| MoE 中间层维度 | 2048 | 2048 |
| 滑动窗口大小 | 128 | 128 |
| 上下文窗口 | 1M | 1M |
| MTP 层数 | 3 | 3 |
| 模态支持 | 文本 | 文本 + 图像 + 视频 + 音频 |
关键差异:
- Pro 的总参数是标准版的 3.3 倍(1.02T vs 310B),激活参数 2.8 倍(42B vs 15B)
- Pro 的注意力头数翻倍(128 vs 64),表示容量更强
- Pro 的路由专家数多 50%(384 vs 256),知识覆盖更广
- Pro 的隐藏维度大 50%(6144 vs 4096),每层信息容量更高
- 标准版独有多模态能力:搭载 729M 参数 ViT 和 261M 参数 Audio Transformer
- 两者共享相同的 MoE 中间层维度(2048)、窗口大小(128),每 Token 均激活 8 个专家
二、预训练规模与模态差异 链接到标题
| 模型 | 训练 Token 量 | 训练模态 |
|---|---|---|
| MiMo-V2.5-Pro | 27T | 纯文本 |
| MiMo-V2.5 | ~48T | 文本 + 图像 + 视频 + 音频 |
表面上看 Pro 训练 Token 远少于标准版(27T vs 48T),但需要注意:标准版的训练数据包含大量多模态数据(图像、视频、音频编码器的联合训练),这些 Token 主要是"学会看"和"学会听",对文本推理能力的直接贡献有限。
因此,不宜简单得出"Pro 数据效率更高"的结论——两者的训练任务和模态完全不同,Token 价值不可直接比较。更合理的解读是:Pro 将资源集中在了纯文本的深度推理优化上,而标准版则需要额外 Tokens 来打通多模态能力。
三、通用知识 & 推理能力 链接到标题
3.1 BBH(BIG-Bench Hard) 链接到标题
评测什么:BBH 从 BIG-Bench 中精选了 23 个"模型表现低于人类基线"的高难度任务,涵盖逻辑推理、算术、语言理解等领域。3-shot 设置意味着每个任务仅给出 3 个示例,是对泛化能力的极限测试。5 款模型均参与。
| 模型 | BBH 3-shot |
|---|---|
| Kimi-K2 Base | 88.7 |
| MiMo-V2.5-Pro Base | 88.4 |
| DeepSeek-V4-Pro Base | 87.5 |
| MiMo-V2.5 Base | 87.2 |
| DeepSeek-V4-Flash Base | 86.9 |
Kimi-K2 以 88.7 夺冠,Pro(88.4)仅差 0.3 分。Pro 领先标准版 1.2 分。各模型差距整体不大(最大值 88.7 vs 86.9,差 1.8 分),BBH 在此级别已接近天花板。
3.2 MMLU 系列:知识广度与深度的三重考验 链接到标题
评测什么:MMLU(Massive Multitask Language Understanding)是衡量模型跨学科知识的"高考"。5 款模型均参与全部三个变体。
MMLU(原版,57 学科,4 选项)、MMLU-Redux(修正版,去除标注错误和歧义题)、MMLU-Pro(增强版,10 选项且难度显著提升):
| 模型 | MMLU 5-shot | MMLU-Redux 5-shot | MMLU-Pro 5-shot |
|---|---|---|---|
| DeepSeek-V4-Pro Base | 90.1 | 90.8 | 73.5 |
| MiMo-V2.5-Pro Base | 89.4 | 92.8 | 68.5 |
| DeepSeek-V4-Flash Base | 88.7 | 89.4 | 68.3 |
| Kimi-K2 Base | 87.8 | 90.2 | 69.2 |
| MiMo-V2.5 Base | 86.3 | 89.8 | 65.8 |
有趣的分化:
- MMLU 原版:DeepSeek-V4-Pro 以 90.1 登顶
- MMLU-Redux:Pro 以 92.8 逆袭夺冠,暗示原版中的歧义题可能偏向了其他模型的训练分布
- MMLU-Pro(10 选项):DeepSeek-V4-Pro 以 73.5 独占鳌头,领先 Pro 达 5.0 分。10 选项下随机基线仅 10%,对真实知识储备要求极高,DeepSeek 在此展现出了更强的深层知识推理能力
3.3 ARC-Challenge(AI2 Reasoning Challenge) 链接到标题
评测什么:ARC-Challenge 包含 1172 道小学科学选择题,25-shot 极少样本设置。仅 3 款模型参与对比(DeepSeek 系列未提供数据)。
| 模型 | ARC-Challenge 25-shot |
|---|---|
| MiMo-V2.5-Pro Base | 97.2 |
| MiMo-V2.5 Base | 96.5 |
| Kimi-K2 Base | 96.2 |
Pro 以 97.2 领跑,领先标准版 0.7 分。97.2% 意味着在 1172 题中仅错约 33 题,已接近人类天花板。此基准在此级别已几近饱和。
3.4 HellaSwag 链接到标题
评测什么:HellaSwag 要求模型从四个选项中选出最合理的场景续写,干扰项通过对抗性方法生成。10-shot 设置。5 款模型均参与。
| 模型 | HellaSwag 10-shot |
|---|---|
| Kimi-K2 Base | 94.6 |
| MiMo-V2.5-Pro Base | 89.8 |
| MiMo-V2.5 Base | 88.6 |
| DeepSeek-V4-Pro Base | 88.0 |
| DeepSeek-V4-Flash Base | 85.7 |
Kimi-K2 以 94.6 碾压全场,领先 Pro 4.8 分。Pro 与标准版仅差 1.2 分。HellaSwag 是 MiMo 在常识推理中被拉开最大差距的一项。
3.5 WinoGrande 链接到标题
评测什么:WinoGrande 是代词消歧任务。5-shot 设置。5 款模型均参与。
| 模型 | WinoGrande 5-shot |
|---|---|
| MiMo-V2.5-Pro Base | 85.6 |
| Kimi-K2 Base | 85.3 |
| MiMo-V2.5 Base | 84.7 |
| DeepSeek-V4-Pro Base | 81.5 |
| DeepSeek-V4-Flash Base | 79.5 |
Pro(85.6)和标准版(84.7)仅差 0.9 分,但两款 MiMo 均领先 DeepSeek 系列 4+ 分,是 MiMo 家族在全场对比中少数统治的推理项。
3.6 TriviaQA 链接到标题
评测什么:TriviaQA 考察模型的事实性知识检索能力。5-shot 设置。5 款模型均参与。
| 模型 | TriviaQA 5-shot |
|---|---|
| DeepSeek-V4-Pro Base | 85.6 |
| Kimi-K2 Base | 85.1 |
| DeepSeek-V4-Flash Base | 82.8 |
| MiMo-V2.5-Pro Base | 81.3 |
| MiMo-V2.5 Base | 80.7 |
DeepSeek-V4-Pro 以 85.6 夺冠。MiMo-Pro 排名第四,仅领先标准版 0.6 分。TriviaQA 是 MiMo 相对薄弱项——落后 DeepSeek 4.3 分,说明其训练数据在事实性知识覆盖上可能不如 DeepSeek 全面。
3.7 GPQA-Diamond 链接到标题
评测什么:GPQA-Diamond 是研究生级别的科学选择题,由领域专家(PhD)编写,被誉为"反搜索引擎测试"。5-shot 设置。仅 3 款模型参与对比。
| 模型 | GPQA-Diamond 5-shot |
|---|---|
| MiMo-V2.5-Pro Base | 66.7 |
| MiMo-V2.5 Base | 58.1 |
| Kimi-K2 Base | 48.1 |
Pro 领先标准版 8.6 分,领先 Kimi-K2 18.6 分! 这是整个评测矩阵中最大的跨模型差距。不过需注意 DeepSeek 未参与此项对比——如果 DeepSeek-V4-Pro 参与(其在 MMLU-Pro 上展现了极强的深层推理),结果可能会不同。
3.8 DROP(Discrete Reasoning Over Paragraphs) 链接到标题
评测什么:DROP 考察带段落理解的数值推理能力。3-shot 设置。5 款模型均参与。
| 模型 | DROP 3-shot |
|---|---|
| DeepSeek-V4-Pro Base | 88.7 |
| DeepSeek-V4-Flash Base | 88.6 |
| MiMo-V2.5-Pro Base | 86.3 |
| MiMo-V2.5 Base | 83.7 |
| Kimi-K2 Base | 83.6 |
DeepSeek 家族高度统治 DROP,Pro 和 Flash 分别拿下 88.7 和 88.6。MiMo-Pro 以 86.3 排名第三,领先标准版 2.6 分。
3.9 通用推理小计 链接到标题
| 基准 | Pro vs 标准版差 | Pro 名次 | 参与模型数 |
|---|---|---|---|
| BBH | +1.2 | 第 2 | 5 |
| MMLU | +3.1 | 第 2 | 5 |
| MMLU-Redux | +3.0 | 第 1 | 5 |
| MMLU-Pro | +2.7 | 第 3 | 5 |
| DROP | +2.6 | 第 3 | 5 |
| ARC-Challenge | +0.7 | 第 1 | 3 |
| HellaSwag | +1.2 | 第 2 | 5 |
| WinoGrande | +0.9 | 第 1 | 5 |
| TriviaQA | +0.6 | 第 4 | 5 |
| GPQA-Diamond | +8.6 | 第 1 | 3 |
在 7 项全场(5 模型)对比中,Pro 取得 2 项第一(MMLU-Redux、WinoGrande),另有 3 项第二。DeepSeek-V4-Pro 在 4 项中夺冠。在知识广度和常识推理上,DeepSeek 仍有整体优势;Pro 则在 WinoGrande 和 MMLU-Redux 两个特定维度上胜出。
四、数学能力 链接到标题
4.1 GSM8K 链接到标题
评测什么:小学数学应用题数据集,8-shot 设置。近年因数据污染争议,区分度有所下降。5 款模型均参与。
| 模型 | GSM8K 8-shot |
|---|---|
| MiMo-V2.5-Pro Base | 99.6 |
| DeepSeek-V4-Pro Base | 92.6 |
| Kimi-K2 Base | 92.1 |
| DeepSeek-V4-Flash Base | 90.8 |
| MiMo-V2.5 Base | 83.3 |
Pro 以 99.6 断层登顶,领先标准版 16.3 分——这是 Pro 对标准版的最大单项差距。但 99.6 vs 83.3 的差距也值得思考:数据污染或 8-shot 对大模型更友好可能是部分原因(毕竟这是"小学数学",15B 的模型不应该连 85% 都拿不到)。
4.2 MATH 链接到标题
评测什么:Hendrycks 等人发布的竞赛级数学题集(代数、几何、概率等),难度远超 GSM8K。4-shot 设置。5 款模型均参与。
| 模型 | MATH 4-shot |
|---|---|
| MiMo-V2.5-Pro Base | 86.2 |
| Kimi-K2 Base | 70.2 |
| MiMo-V2.5 Base | 67.7 |
| DeepSeek-V4-Pro Base | 64.5 |
| DeepSeek-V4-Flash Base | 57.4 |
Pro 以 86.2 登顶,领先第二名 Kimi-K2 16.0 分——在 MATH 上是罕见的大差距。Pro 领先标准版 18.5 分,是全场最大差值。数学无疑是 MiMo-Pro 的核心护城河。
4.3 AIME 2024 & 2025 链接到标题
评测什么:AIME 是美国数学奥林匹克中级赛事,难度远高于 MATH。2-shot 极低样本设置。仅 3 款模型参与。
| 模型 | AIME 24&25 2-shot |
|---|---|
| MiMo-V2.5-Pro Base | 37.3 |
| MiMo-V2.5 Base | 36.9 |
| Kimi-K2 Base | 31.6 |
Pro 和标准版仅差 0.4 分——与 MATH 上 18.5 分的差距形成鲜明对比。AIME 的难度使得所有模型的得分区间都被压缩在 30-40% 区间,容量的边际收益很小。
4.4 数学小计 链接到标题
| 基准 | Pro | 标准版 | 差值 | Pro 名次 | 参与模型数 |
|---|---|---|---|---|---|
| GSM8K | 99.6 | 83.3 | +16.3 | 第 1 | 5 |
| MATH | 86.2 | 67.7 | +18.5 | 第 1 | 5 |
| AIME 24&25 | 37.3 | 36.9 | +0.4 | 第 1 | 3 |
数学是 MiMo-Pro 最亮眼的领域——三项数学基准全部第一。在全场对比的 GSM8K 和 MATH 上,Pro 对第二名的优势分别达到 7.0 分和 16.0 分。标准版在全场 MATH 上以 67.7 力压两个 DeepSeek 模型,但在 GSM8K 上垫底——15B 的数学推理边界较窄。
五、代码能力 链接到标题
代码评测直接衡量模型生成和修复代码的实战能力。注意:全部 4 项代码基准仅 3 款模型参与(DeepSeek 系列未提供数据),因此排名仅反映 MiMo vs Kimi-K2 的对比结果。
5.1 HumanEval+ 链接到标题
评测什么:OpenAI HumanEval 的增强版,用自动化测试生成技术扩充了 80 倍测试用例。1-shot 设置。仅 3 款模型参与。
| 模型 | HumanEval+ 1-shot |
|---|---|
| Kimi-K2 Base | 84.8 |
| MiMo-V2.5-Pro Base | 75.6 |
| MiMo-V2.5 Base | 71.3 |
Kimi-K2 以 84.8 大幅领先 Pro 9.2 分。84.8 是非常高的 HumanEval+ 成绩。
5.2 MBPP+ 链接到标题
评测什么:MBPP 增强版,偏重基本编程概念和代码合成。3-shot 设置。仅 3 款模型参与。
| 模型 | MBPP+ 3-shot |
|---|---|
| MiMo-V2.5-Pro Base | 74.1 |
| Kimi-K2 Base | 73.8 |
| MiMo-V2.5 Base | 70.9 |
Pro 以 74.1 微弱夺冠(领先仅 0.3 分),差距极小。
5.3 LiveCodeBench v6 链接到标题
评测什么:来自 Codeforces、LeetCode 等平台的实时新题,定期更新。与静态基准不同,LiveCodeBench 对训练数据污染免疫力最高——采集的是模型训练截止日期之后的新题。1-shot 设置。仅 3 款模型参与。
| 模型 | LiveCodeBench v6 1-shot |
|---|---|
| MiMo-V2.5-Pro Base | 39.6 |
| MiMo-V2.5 Base | 35.5 |
| Kimi-K2 Base | 26.3 |
Pro 以 39.6 领先 Kimi-K2 13.3 分! 这是代码维度最有价值的数据:Kimi-K2 在静态 HumanEval+ 上表现优异,却在实时新题上大幅回落(84.8 → 26.3),暗示其代码能力可能更依赖于训练数据分布。而 Pro 在真实新题上的泛化能力更强。
5.4 SWE-Bench(AgentLess) 链接到标题
评测什么:从真实 GitHub Issue 中抽取 Python 仓库 Bug 修复任务。AgentLess 设定不使用任何 Agent 框架辅助,纯靠模型自身能力。3-shot 设置。仅 3 款模型参与。
| 模型 | SWE-Bench AgentLess 3-shot |
|---|---|
| MiMo-V2.5-Pro Base | 35.7 |
| MiMo-V2.5 Base | 30.8 |
| Kimi-K2 Base | 28.2 |
Pro 以 35.7 夺冠,领先 Kimi-K2 7.5 分。SWE-Bench AgentLess 是极难任务——多数模型在 20-30 分区间,35.7 已是出色的 Base 模型成绩(通常需 SFT 才能突破 40+)。
5.5 代码小计 链接到标题
| 基准 | Pro | 标准版 | 差值 | Pro 名次 | 参与模型数 |
|---|---|---|---|---|---|
| HumanEval+ | 75.6 | 71.3 | +4.3 | 第 2 | 3 |
| MBPP+ | 74.1 | 70.9 | +3.2 | 第 1 | 3 |
| LiveCodeBench v6 | 39.6 | 35.5 | +4.1 | 第 1 | 3 |
| SWE-Bench AgentLess | 35.7 | 30.8 | +4.9 | 第 1 | 3 |
在三方对比的代码场景中,Pro 4 项中 3 项第一。但请注意 DeepSeek 系列未参与——如果加入,排名可能变化。LiveCodeBench 上 Pro 对 Kimi-K2 的 13.3 分领先是最有价值的信号。
六、中文能力 链接到标题
中文差异在 15B+ 的模型中极为微小。5 款模型均参与。
6.1 C-Eval 链接到标题
| 模型 | C-Eval 5-shot |
|---|---|
| DeepSeek-V4-Pro Base | 93.1 |
| Kimi-K2 Base | 92.5 |
| DeepSeek-V4-Flash Base | 92.1 |
| MiMo-V2.5-Pro Base | 91.5 |
| MiMo-V2.5 Base | 88.6 |
Pro(91.5)排名第四,领先标准版 2.9 分。三强(DeepSeek、Kimi、MiMo-Pro)集中在 91-93 区间。
6.2 CMMLU 链接到标题
| 模型 | CMMLU 5-shot |
|---|---|
| Kimi-K2 Base | 90.9 |
| DeepSeek-V4-Pro Base | 90.8 |
| DeepSeek-V4-Flash Base | 90.4 |
| MiMo-V2.5-Pro Base | 90.2 |
| MiMo-V2.5 Base | 88.2 |
前四名差距仅 0.7 分——从 90.2 到 90.9,高度趋同。Pro 领先标准版 2.0 分。
七、多语言能力:GlobalMMLU 链接到标题
评测什么:将 MMLU 核心学科翻译为 14 种语言,考察跨语言知识迁移。5-shot 设置。仅 3 款模型参与。
| 模型 | GlobalMMLU 5-shot |
|---|---|
| MiMo-V2.5-Pro Base | 83.6 |
| Kimi-K2 Base | 80.7 |
| MiMo-V2.5 Base | 77.4 |
Pro 领先标准版 6.2 分——语言维度差距最大的一项。说明 15B 的容量在多语言处理上确实捉襟见肘。但 DeepSeek 系列未参与,此项对比信息有限。
八、综合排名:全场 vs 局部,分而治之 链接到标题
将所有基准放在一起混合排名是不公平的——12 项基准 5 款模型同台竞技,8 项基准仅 3 款模型参与(DeepSeek 系列缺席)。必须分开看。
8.1 全场对决(12 项基准,5 款模型全部参与) 链接到标题
覆盖:BBH、MMLU、MMLU-Redux、MMLU-Pro、DROP、HellaSwag、WinoGrande、TriviaQA、GSM8K、MATH、C-Eval、CMMLU。
| 排名 | 模型 | 第一 | 核心亮点 |
|---|---|---|---|
| 🥇 | DeepSeek-V4-Pro Base | 5 | MMLU、MMLU-Pro、DROP、TriviaQA、C-Eval |
| 🥈 | MiMo-V2.5-Pro Base | 4 | MMLU-Redux、WinoGrande、GSM8K、MATH |
| 🥉 | Kimi-K2 Base | 3 | BBH、HellaSwag、CMMLU |
| 4 | DeepSeek-V4-Flash Base | 0 | — |
| 5 | MiMo-V2.5 Base | 0 | — |
在全场对决中,DeepSeek-V4-Pro 以 5 项第一领跑,在知识广度(MMLU、MMLU-Pro)、段落推理(DROP)、事实检索(TriviaQA)和中文(C-Eval)上展现综合实力。MiMo-Pro 以 4 项第一紧随其后,强项集中在数学(GSM8K、MATH)和特定推理(MMLU-Redux、WinoGrande)。
8.2 三方对比(8 项基准,DeepSeek 系列未参与) 链接到标题
覆盖:ARC-Challenge、GPQA-Diamond、AIME 24&25、HumanEval+、MBPP+、LiveCodeBench v6、SWE-Bench AgentLess、GlobalMMLU。
| 排名 | 模型 | 第一 |
|---|---|---|
| 🥇 | MiMo-V2.5-Pro Base | 7 |
| 🥈 | Kimi-K2 Base | 1 |
| 🥉 | MiMo-V2.5 Base | 0 |
在这 8 项中,Pro 以 7 项第一绝对统治。但需要清醒认识——DeepSeek 系列未参与意味着对比不完整,这些数据主要反映 MiMo vs Kimi-K2 的对比结果。
8.3 关于评测数据来源的说明 链接到标题
本文所有数据来源于小米官方 HuggingFace 页面。作为 MiMo 团队自行发布的横评,以下因素需要读者注意:
- 选择性对标:代码和部分推理基准未纳入 DeepSeek 系列对比,而全场对比中 DeepSeek-V4-Pro 事实上表现最优
- 评估框架差异:各模型可能使用不同的采样参数(temperature、top-p 等),官方未统一说明
- Shot 数差异:shot 数和 prompt 格式对结果有显著影响(如 GSM8K 的 8-shot 对大模型更有利)
- Base 模型局限性:Base 模型未经指令微调,评测结果不能直接等同于实际使用体验
这些数据对于了解 MiMo 的定位极有价值,但不宜作为"绝对排名"的直接依据。
8.4 Pro vs 标准版差距全景 链接到标题
| 差距等级 | 基准 | 差值 |
|---|---|---|
| 🔴 巨幅(>10 分) | MATH | +18.5 |
| GSM8K | +16.3 | |
| 🟠 大幅(5-10 分) | GPQA-Diamond | +8.6 |
| GlobalMMLU | +6.2 | |
| 🟡 显著(3-5 分) | SWE-Bench | +4.9 |
| HumanEval+ | +4.3 | |
| LiveCodeBench | +4.1 | |
| MBPP+ | +3.2 | |
| MMLU | +3.1 | |
| MMLU-Redux | +3.0 | |
| 🟢 小幅(<3 分) | C-Eval | +2.9 |
| MMLU-Pro | +2.7 | |
| DROP | +2.6 | |
| CMMLU | +2.0 | |
| BBH | +1.2 | |
| HellaSwag | +1.2 | |
| WinoGrande | +0.9 | |
| ARC-Challenge | +0.7 | |
| TriviaQA | +0.6 | |
| AIME | +0.4 |
结论清晰:Pro 在数学(MATH/GSM8K)上建立断层优势,在深层推理(GPQA-Diamond)和多语言(GlobalMMLU)上大幅领先;在常识推理(WinoGrande/ARC/HellaSwag)上差距最小。如果需要数学和深度推理,选 Pro 的理由充分。
九、深度分析与洞见 链接到标题
9.1 MiMo 的"长板"和"短板" 链接到标题
绝对强项:
- 数学(MATH 86.2, GSM8K 99.6):在全场对比中断层领先,推测预训练阶段对数学语料有特殊加权
- 代码泛化(LiveCodeBench 39.6):反数据污染能力明显优于 Kimi-K2
- 研究生级科学推理(GPQA-Diamond 66.7):大幅领先 Kimi-K2,但 DeepSeek 未参与此项
相对弱项(全场对比中的落后项):
- 事实性知识(TriviaQA 81.3):落后 DeepSeek-V4-Pro 4.3 分
- 常识叙事推理(HellaSwag 89.8):落后 Kimi-K2 4.8 分
- 段落数值推理(DROP 86.3):落后 DeepSeek-V4-Pro 2.4 分
- 中文(C-Eval 91.5 / CMMLU 90.2):与 DeepSeek 和 Kimi 均有 1-2 分差距
9.2 AIME 的"平等效应" 链接到标题
在 AIME 24&25 上,Pro 仅领先标准版 0.4 分(37.3 vs 36.9)——与 MATH 上 18.5 分的巨大差距形成鲜明对比。合理的解释:
- MATH 题型相对规整(代数、几何、概率等经典类别),大模型可以通过更大容量学到更精准的解题策略
- AIME 题目高度独特(每道题需要非标准化解题路径),推理范式的灵活性比容量更重要
MoE 架构的推理上限并非完全由参数规模决定——在超难场景下,推理策略的多样性可能比容量更关键。
9.3 跨基准的一致性检验 链接到标题
Kimi-K2 提供了一个有趣的"一致性检验"案例:
| 基准类型 | 高分 | 低分 |
|---|---|---|
| 静态代码 | HumanEval+ 84.8 | — |
| 实时代码 | — | LiveCodeBench 26.3 |
在可能被污染的静态基准上 84.8,在实时新题上 26.3——差距达 58.5 分。这说明仅凭传统静态基准已不足以判断模型的真实代码能力,LiveCodeBench 等反污染基准的价值日益凸显。
9.4 MiMo 的 MoE 设计哲学 链接到标题
从架构表总结:
- 宽而浅:MoE 中间层仅 2048(极窄),但路由专家极多(Pro 384 个)——知识被分散到大量小容量专家中
- 激进稀疏化:滑动窗口层占比约 85%(Pro 60/70),KV-Cache 节省近 7×,长上下文成本优势巨大
- MTP 投机解码:3 层 MTP 使推理速度 3× 加速,但与标准投机解码不同——MTP 模块是原生训练集成的
十、最终建议 链接到标题
选 MiMo-V2.5-Pro Base 如果你的场景: 链接到标题
- 核心需求是数学:86.2 的 MATH 和 99.6 的 GSM8K 断层领先
- 需要深层科学推理:GPQA-Diamond 66.7,领先 Kimi-K2 18.6 分
- 注重代码泛化:LiveCodeBench 39.6,反数据污染能力突出
- 多语言场景:GlobalMMLU 83.6 领先
- 预算允许 42B 激活参数:FP8 下约需 200GB+ 显存
⚠️ 但需注意:如果 DeepSeek-V4-Pro 参与代码和高级推理对比,Pro 的部分排名可能下滑。
选 MiMo-V2.5 Base 如果你的场景: 链接到标题
- 需要多模态:原生支持图像、视频、音频理解(Pro 不具此能力)
- 预算有限:15B 激活参数,部署成本约为 Pro 的 1/3
- 数学非核心:在常识推理和中文任务上,标准版与 Pro 差距仅 1-3 分
- 长上下文经济性优先:15B 的 KV-Cache 更小
两者的共同优势: 链接到标题
- 相同的 Hybrid Attention:滑动窗口 + 全局注意力,长上下文成本低
- 相同的 MTP 设计:3 层投机解码,推理速度 3× 加速
- 相同的 1M 上下文窗口
- 相同的开源策略:权重、架构、部署指南完整公开
结语 链接到标题
小米 MiMo 的开源令人惊喜。过去提起中国开源大模型,第一时间想到的是 DeepSeek、Kimi、GLM、Qwen——小米从未出现在这个名单上。
MiMo-V2.5-Pro 的 Base 评测确实表现不俗:在全场对比中,它以 4 项第一紧随 DeepSeek-V4-Pro(5 项第一)之后,尤其在数学领域断层领先。在三方对比的代码和高级推理场景中,Pro 展现了 7 项第一的统治力——虽然 DeepSeek 系列的缺席使得这些排名的"含金量"打了折扣。
但值得承认的是,DeepSeek-V4-Pro 在全场 12 项对比中取得了 5 项第一,是实际上的综合最强——在知识广度(MMLU)、深层推理(MMLU-Pro)、段落理解(DROP)、事实检索(TriviaQA)和中文(C-Eval)上全面领跑。MiMo 的优势领域(数学、某些推理项)则更为集中。
当然,Base 模型评测只能反映知识和推理潜能。真正的 Agent 能力、长周期执行和指令遵循需要看 Instruct 模型。但从 Base 输出来看:
- 如果你需要最强的综合知识能力,DeepSeek-V4-Pro 仍是更好的选择
- 如果你需要最强的数学推理,MiMo-V2.5-Pro 是当前开源 Base 模型的首选
- 如果你需要多模态 + 长上下文的经济平衡,MiMo-V2.5 提供了独特的定位
最大的悬念:1.02T 总参数和 384 个路由专家的 MoE 架构,在实际部署中的推理延迟和显存消耗,能否支撑实用的使用成本? 这个问题的答案,将决定 MiMo 是从实验室走向生产,还是成为又一份漂亮但用不起的 PPT。
本文数据全部来源于 XiaomiMiMo/MiMo-V2.5-Pro 和 XiaomiMiMo/MiMo-V2.5 官方 HuggingFace 页面。评测设置(shot 数、温度等)以官方公布为准。部分基准 DeepSeek-V4 系列未公布数据,以 “-” 标注。所有对比分析基于公开可用数据,评估框架差异和数据来源的单方性质可能影响跨模型分数的直接比较,请读者审慎参考。