背景 链接到标题
2026 年 4 月,阿里 Qwen 团队先后发布了两款 Qwen3.6 系列模型:
- Qwen3.6-Plus:闭源 API 旗舰,主打从编码 Agent 到原生多模态 Agent 的跨越,默认 1M 上下文窗口
- Qwen3.6-35B-A3B:开源 MoE 模型,35B 总参数 / 3B 活跃参数,以极低的推理成本实现了令人惊叹的性能
一个是最强的闭源能力,一个是最聪明的开源效率之王。它们的差距有多大?3B 活跃参数能做到旗舰几分之几的水平?本文用官方评测数据回答这些问题。
一、模型基本信息 链接到标题
| 维度 | Qwen3.6-Plus | Qwen3.6-35B-A3B |
|---|---|---|
| 架构 | 未公开(闭源) | MoE(混合专家) |
| 总参数 | 未公开 | 35B |
| 活跃参数 | 未公开 | 3B |
| 开源 | 否(API 服务) | 是(HuggingFace / ModelScope) |
| API 名称 | qwen3.6-plus | qwen3.6-flash |
| 上下文窗口 | 1M token | 1M token |
| 多模态 | 视觉 + 视频 | 视觉 + 视频 |
| 思维模式 | 支持思考/非思考 | 支持思考/非思考 |
| API 协议 | OpenAI + Anthropic 兼容 | OpenAI + Anthropic 兼容 |
关键点:Qwen3.6-35B-A3B 的核心卖点是"仅 3B 活跃参数"。这意味着每次推理只激活约 1/12 的参数,推理速度和成本远低于同等参数量的稠密模型,同时借助 MoE 架构保持了接近更大模型的能力。
二、编码 Agent:旗舰稳赢,但小钢炮已足够惊艳 链接到标题
编码 Agent 是 Qwen3.6 系列的核心升级方向。以下是两个模型在所有编码基准上的完整对比:
2.1 核心编码基准 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 | 达成率 |
|---|---|---|---|---|---|
| SWE-bench Verified | GitHub Issue 自动修复 | 78.8 | 73.4 | -5.4 | 93.1% |
| SWE-bench Multilingual | 多语言代码修复 | 73.8 | 67.2 | -6.6 | 91.1% |
| SWE-bench Pro | 高难度 Issue 修复 | 56.6 | 49.5 | -7.1 | 87.5% |
| Terminal-Bench 2.0 | 真实终端环境任务 | 61.6 | 51.5 | -10.1 | 83.6% |
| Claw-Eval Avg | 综合编码评测 | 74.8 | 68.7 | -6.1 | 91.8% |
| Claw-Eval Pass³ | 三次通过率 | 58.7 | 50.0 | -8.7 | 85.2% |
| SkillsBench Avg5 | 实用技能评测 | 45.7 | 28.7 | -17.0 | 62.8% |
| QwenClawBench | 内部用户分布编码基准 | 57.2 | 52.6 | -4.6 | 92.0% |
| NL2Repo | 自然语言→完整仓库 | 37.9 | 29.4 | -8.5 | 77.6% |
| QwenWebBench | 前端代码生成(Elo) | 1501.7 | 1397 | -104.7 | 93.0% |
2.2 解读 链接到标题
好消息:在大多数编码基准上,3B 活跃参数的 Qwen3.6-35B-A3B 达到了 Qwen3.6-Plus 85%-93% 的水平。考虑到参数量差异巨大(推测 Plus 的活跃参数至少是 35B-A3B 的 10 倍以上),这个成绩令人印象深刻。
具体分析:
- 基础代码修复(SWE-bench Verified / Multilingual)差距最小,35B-A3B 达成率超过 91%。这说明日常的 bug 修复、代码补全任务,用小模型就能胜任
- 复杂工程任务(Terminal-Bench、NL2Repo)差距拉大,达成率降到 77%-84%。这些任务需要长上下文理解、多步骤规划,是参数量的硬伤
- 实用技能(SkillsBench)差距最大,达成率仅 62.8%。这暗示在需要广泛知识面的实操场景中,模型容量仍然是硬约束
- 前端代码生成(QwenWebBench Elo 1397 vs 1501.7)差距约 105 Elo 点,大致相当于一个级别。35B-A3B 的前端能力已经超过了前代 Qwen3.5-27B(1068)的稠密模型
与竞品对比:Qwen3.6-35B-A3B 的 SWE-bench Verified(73.4)已经超越了 27B 级别的稠密模型 Qwen3.5-27B(75.0 差距很小),远超 Gemma4-31B(52.0)。在编码效率上,它是同级别开源模型中的绝对王者。
三、通用 Agent:旗舰优势明显 链接到标题
Agent 能力是当前大模型竞争的焦点,以下是通用 Agent 和工具调用维度的完整对比:
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 | 达成率 |
|---|---|---|---|---|---|
| τ³-Bench | 长周期规划与对话 | 70.7 | 67.2 | -3.5 | 95.1% |
| VITA-Bench | 多域任务执行 | 44.3 | 35.6 | -8.7 | 80.4% |
| DeepPlanning | 深度规划 | 41.5 | 25.9 | -15.6 | 62.4% |
| Tool Decathlon | 十项全能工具使用 | 39.8 | 26.9 | -12.9 | 67.6% |
| MCPMark | MCP 基准评测 | 48.2 | 37.0 | -11.2 | 76.8% |
| MCP-Atlas | MCP 工具调用 | 74.1 | 62.8 | -11.3 | 84.7% |
| WideSearch | 广域信息检索 | 74.3 | 60.1 | -14.2 | 80.9% |
解读 链接到标题
Agent 维度是两个模型差距最大的领域之一:
- 基础规划能力(τ³-Bench)差距最小(达成率 95.1%),说明 35B-A3B 在日常对话和简单规划上几乎不输旗舰
- 深度规划(DeepPlanning)差距最大(41.5 vs 25.9,达成率仅 62.4%),这类需要长时间、多步骤、高复杂度的规划任务,仍然是大参数量模型的专属领地
- 工具调用(MCPMark、MCP-Atlas、Tool Decathlon)差距在 11-13 分左右,达成率 67%-85%。MoE 架构在工具编排上的能力受损较为明显
- 信息检索(WideSearch)差距 14.2 分,检索场景对推理深度和知识广度都有要求
结论:如果你的场景主要是简单规划和对话,35B-A3B 足够好用;但涉及复杂多步骤工具编排和深度规划,Plus 的优势非常显著。
四、知识与推理:旗舰全面领先,但差距可控 链接到标题
4.1 知识储备 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 | 达成率 |
|---|---|---|---|---|---|
| MMLU-Pro | 专业知识综合 | 88.5 | 85.2 | -3.3 | 96.3% |
| MMLU-Redux | 知识准确性 | 94.5 | 93.3 | -1.2 | 98.7% |
| SuperGPQA | 研究生专家问答 | 71.6 | 64.7 | -6.9 | 90.4% |
| C-Eval | 中文综合评测 | 93.3 | 90.0 | -3.3 | 96.5% |
4.2 STEM 与推理 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 | 达成率 |
|---|---|---|---|---|---|
| GPQA | 研究生级别专家问答 | 90.4 | 86.0 | -4.4 | 95.1% |
| HLE | “人类最后的考试” | 28.8 | 21.4 | -7.4 | 74.3% |
| LiveCodeBench v6 | 实时代码竞赛 | 87.1 | 80.4 | -6.7 | 92.3% |
| HMMT Feb 25 | 哈佛-MIT 数学赛 | 96.7 | 90.7 | -6.0 | 93.8% |
| HMMT Nov 25 | 同上,11 月场 | 94.6 | 89.1 | -5.5 | 94.2% |
| HMMT Feb 26 | 同上,2 月场 | 87.8 | 83.6 | -4.2 | 95.2% |
| IMOAnswerBench | 奥数级别问答 | 83.8 | 78.9 | -4.9 | 94.2% |
| AIME 2026 | 美国数学邀请赛 | 95.3 | 92.7 | -2.6 | 97.3% |
解读 链接到标题
这是两个模型差距最"可控"的维度:
- 通用知识(MMLU-Pro、MMLU-Redux、C-Eval)达成率在 96% 以上,3B 活跃参数存储的知识量令人惊讶
- 数学推理(AIME、HMMT 系列)达成率 93%-97%,35B-A3B 在数学上的表现接近旗舰水平。92.7 的 AIME 分数已经超过了 Gemma4-31B(89.2)等更大的稠密模型
- 极限推理(HLE)差距最大,达成率仅 74.3%。这是"人类最后的考试",考验跨学科综合推理,对模型容量要求极高
亮点:35B-A3B 的 GPQA(86.0)甚至超过了 Qwen3.5-27B(85.5),在专家问答领域表现出色。
五、多模态:旗舰的全面优势 链接到标题
Qwen3.6 系列都原生支持多模态。以下是视觉语言基准的对比:
5.1 STEM 与视觉推理 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 |
|---|---|---|---|---|
| MMMU | 多模态综合推理 | 86.0 | 81.7 | -4.3 |
| MMMU-Pro | 进阶多模态推理 | 78.8 | 75.3 | -3.5 |
| MathVision | 数学视觉 | 88.0 | — | — |
| MathVista(mini) | 数学图表推理 | — | 86.4 | — |
| We-Math | 加权数学推理 | 89.0 | — | — |
| DynaMath | 动态数学推理 | 88.0 | — | — |
5.2 通用视觉问答 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 |
|---|---|---|---|---|
| RealWorldQA | 真实世界问答 | 85.4 | 85.3 | -0.1 |
| MMStar | 多模态星级评测 | 83.3 | — | — |
| MMBench EN | 多模态基准 | — | 92.8 | — |
| SimpleVQA | 简单视觉问答 | 67.3 | 58.9 | -8.4 |
| HallusionBench | 幻觉评测 | — | 69.8 | — |
5.3 文档理解与 OCR 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 |
|---|---|---|---|---|
| OmniDocBench 1.5 | 文档理解 | 91.2 | 89.9 | -1.3 |
| CharXiv(RQ) | 图表理解 | 81.5 | 78.0 | -3.5 |
| CC-OCR | OCR 识别 | 83.4 | 81.9 | -1.5 |
| AI2D_TEST | 科学图表 | 94.4 | 92.7 | -1.7 |
5.4 空间智能 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 |
|---|---|---|---|---|
| RefCOCO(avg) | 目标定位 | 93.5 | 92.0 | -1.5 |
| ODInW13 | 开放世界检测 | 51.8 | 50.8 | -1.0 |
| EmbSpatialBench | 具身空间理解 | — | 84.3 | — |
| V* | 视觉定位 | 96.9 | — | — |
5.5 视频理解 链接到标题
| 基准 | 测什么 | Qwen3.6-Plus | Qwen3.6-35B-A3B | 差距 |
|---|---|---|---|---|
| VideoMME(w sub.) | 视频理解(带字幕) | 87.8 | 86.6 | -1.2 |
| VideoMME(w/o sub.) | 视频理解(无字幕) | 84.2 | 82.5 | -1.7 |
| VideoMMMU | 视频综合推理 | 84.0 | 83.7 | -0.3 |
| MLVU | 长视频理解 | 86.7 | 86.2 | -0.5 |
解读 链接到标题
多模态是差距最小、也最令人意外的维度:
- RealWorldQA 仅差 0.1 分(85.4 vs 85.3),视频理解差距不超过 2 分——3B 活跃参数的视觉感知能力几乎追平旗舰
- 文档理解与 OCR(OmniDocBench、CC-OCR)差距仅 1-2 分,35B-A3B 在这类实用任务上完全可用
- 空间智能(RefCOCO 92.0 vs 93.5)差距 1.5 分,35B-A3B 的空间定位能力甚至超越了 Claude Sonnet 4.5
- 35B-A3B 在多模态上整体持平甚至超越 Claude Sonnet 4.5(如 RealWorldQA 85.3 vs 70.3、OmniDocBench 89.9 vs 85.8),这在一个 3B 活跃参数的开源模型上极为罕见
六、综合达成率总览 链接到标题
为了直观展示 35B-A3B 相对于 Plus 的整体水平,我们汇总了所有可对比维度的平均达成率:
| 维度 | 平均达成率 | 评价 |
|---|---|---|
| 多模态(视觉+视频) | ~97% | 几乎追平旗舰 |
| 知识与推理 | ~94% | 差距可控 |
| 编码 Agent | ~87% | 基础编码够用 |
| 通用 Agent | ~78% | 复杂任务差距较大 |
总结:在感知类任务(视觉、视频、知识检索)上,3B 活跃参数几乎够用;但在需要深度推理和长周期规划的任务(Agent、复杂编码)上,模型容量仍然是硬约束。
七、性价比分析 链接到标题
参数量不是唯一的考量因素,推理成本才是大多数用户真正关心的:
| 维度 | Qwen3.6-Plus | Qwen3.6-35B-A3B |
|---|---|---|
| API 价格 | 旗舰级定价 | Flash 级定价(更低) |
| 本地部署 | 不支持 | 支持(单卡即可) |
| 推理速度 | 标准 | 更快(仅 3B 活跃参) |
| 显存需求 | — | ~20GB(FP16) |
| 量化后 | — | ~10GB(INT4) |
| 开放性 | 闭源 | 完全开源,可商用 |
Qwen3.6-35B-A3B 的 API 名称为 qwen3.6-flash,从命名就能看出它的定位——速度优先、成本敏感。对于需要大量 API 调用、预算有限的团队,Flash 的性价比极高。
更关键的是,35B-A3B 支持本地部署。一张 24GB 显存的消费级显卡(如 RTX 4090)即可运行 FP16 版本,INT4 量化后甚至可以在 16GB 显存的显卡上运行。这让数据隐私敏感的企业有了自建 AI 能力的路径。
八、选择建议 链接到标题
选 Qwen3.6-Plus 如果你: 链接到标题
- 需要最强编码 Agent 能力(SWE-bench Pro、Terminal-Bench 等高难度任务)
- 需要深度规划和复杂工具编排(DeepPlanning、MCPMark)
- 需要处理超长代码仓库或文档时在编码 Agent 任务上有更好的表现
- 不在意成本,追求极致效果
- 需要视觉 Agent 的完整能力(ScreenSpot Pro、OSWorld 等交互式任务)
选 Qwen3.6-35B-A3B 如果你: 链接到标题
- 需要本地部署或数据不出域
- 关注推理成本,需要大量 API 调用
- 核心场景是日常编码(bug 修复、代码补全、前端开发)
- 需要多模态理解(文档解析、OCR、视频分析),且对精度要求不是极限
- 是个人开发者或小团队,想要高性价比的 AI 编程助手
- 需要对模型进行微调或定制
一个实用的混合策略: 链接到标题
对于很多团队,最佳方案可能是两者搭配使用:
- 日常编码(80% 场景)→ 用 35B-A3B(
qwen3.6-flash),成本低、速度快 - 复杂工程任务(20% 场景)→ 升级到 Plus,处理高难度 Issue、深度规划等
两者共享 1M token 上下文窗口和相同的 API 协议,切换几乎零成本。这种"双模型策略"可以在控制成本的同时确保关键时刻有旗舰模型兜底。
九、MoE 架构的启示 链接到标题
Qwen3.6-35B-A3B 的成功不仅仅是"一个还不错的小模型",它验证了一个重要假设:
MoE 架构可以让小活跃参数的模型在感知类任务上逼近旗舰,但在深度推理和长周期规划上仍存在结构性差距。
这意味着:
- 对于大多数"看和说"的任务(视觉理解、文档解析、日常对话),MoE 小模型已经足够好
- 但对于"想和做"的任务(复杂规划、多步骤工具调用、高难度推理),稠密大模型的容量优势仍然不可替代
- 未来的方向可能是动态 MoE——根据任务难度自动调整活跃参数量,简单任务用少量专家,复杂任务激活更多
结语 链接到标题
Qwen3.6-Plus 和 Qwen3.6-35B-A3B 是 Qwen3.6 系列的"双子星":
- Plus 是全能旗舰,在编码 Agent、深度规划、长上下文等维度上代表着 Qwen 的最强能力
- 35B-A3B 是效率之王,用 3B 活跃参数实现了旗舰 85%-97% 的性能,同时提供了开源、本地部署、低成本的三重自由
对于开发者来说,最好的消息是:你不必只选一个。两者共享相同的 API 协议和工具链兼容性(OpenClaw、Claude Code、Qwen Code),可以随时切换或混合使用。
开源 ≠ 低端。Qwen3.6-35B-A3B 证明了这一点。
本文数据来源于 Qwen3.6-Plus 官方博客 和 Qwen3.6-35B-A3B 官方博客,评测条件(基线模型版本、评测设置)一致(同一团队、同一评测框架),跨模型分数对比具有较高的可信度。