背景 链接到标题

2026 年 4 月,阿里 Qwen 团队先后发布了两款 Qwen3.6 系列模型:

  • Qwen3.6-Plus:闭源 API 旗舰,主打从编码 Agent 到原生多模态 Agent 的跨越,默认 1M 上下文窗口
  • Qwen3.6-35B-A3B:开源 MoE 模型,35B 总参数 / 3B 活跃参数,以极低的推理成本实现了令人惊叹的性能

一个是最强的闭源能力,一个是最聪明的开源效率之王。它们的差距有多大?3B 活跃参数能做到旗舰几分之几的水平?本文用官方评测数据回答这些问题。


一、模型基本信息 链接到标题

维度Qwen3.6-PlusQwen3.6-35B-A3B
架构未公开(闭源)MoE(混合专家)
总参数未公开35B
活跃参数未公开3B
开源否(API 服务)(HuggingFace / ModelScope)
API 名称qwen3.6-plusqwen3.6-flash
上下文窗口1M token1M token
多模态视觉 + 视频视觉 + 视频
思维模式支持思考/非思考支持思考/非思考
API 协议OpenAI + Anthropic 兼容OpenAI + Anthropic 兼容

关键点:Qwen3.6-35B-A3B 的核心卖点是"仅 3B 活跃参数"。这意味着每次推理只激活约 1/12 的参数,推理速度和成本远低于同等参数量的稠密模型,同时借助 MoE 架构保持了接近更大模型的能力。


二、编码 Agent:旗舰稳赢,但小钢炮已足够惊艳 链接到标题

编码 Agent 是 Qwen3.6 系列的核心升级方向。以下是两个模型在所有编码基准上的完整对比:

2.1 核心编码基准 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距达成率
SWE-bench VerifiedGitHub Issue 自动修复78.873.4-5.493.1%
SWE-bench Multilingual多语言代码修复73.867.2-6.691.1%
SWE-bench Pro高难度 Issue 修复56.649.5-7.187.5%
Terminal-Bench 2.0真实终端环境任务61.651.5-10.183.6%
Claw-Eval Avg综合编码评测74.868.7-6.191.8%
Claw-Eval Pass³三次通过率58.750.0-8.785.2%
SkillsBench Avg5实用技能评测45.728.7-17.062.8%
QwenClawBench内部用户分布编码基准57.252.6-4.692.0%
NL2Repo自然语言→完整仓库37.929.4-8.577.6%
QwenWebBench前端代码生成(Elo)1501.71397-104.793.0%

2.2 解读 链接到标题

好消息:在大多数编码基准上,3B 活跃参数的 Qwen3.6-35B-A3B 达到了 Qwen3.6-Plus 85%-93% 的水平。考虑到参数量差异巨大(推测 Plus 的活跃参数至少是 35B-A3B 的 10 倍以上),这个成绩令人印象深刻。

具体分析

  1. 基础代码修复(SWE-bench Verified / Multilingual)差距最小,35B-A3B 达成率超过 91%。这说明日常的 bug 修复、代码补全任务,用小模型就能胜任
  2. 复杂工程任务(Terminal-Bench、NL2Repo)差距拉大,达成率降到 77%-84%。这些任务需要长上下文理解、多步骤规划,是参数量的硬伤
  3. 实用技能(SkillsBench)差距最大,达成率仅 62.8%。这暗示在需要广泛知识面的实操场景中,模型容量仍然是硬约束
  4. 前端代码生成(QwenWebBench Elo 1397 vs 1501.7)差距约 105 Elo 点,大致相当于一个级别。35B-A3B 的前端能力已经超过了前代 Qwen3.5-27B(1068)的稠密模型

与竞品对比:Qwen3.6-35B-A3B 的 SWE-bench Verified(73.4)已经超越了 27B 级别的稠密模型 Qwen3.5-27B(75.0 差距很小),远超 Gemma4-31B(52.0)。在编码效率上,它是同级别开源模型中的绝对王者。


三、通用 Agent:旗舰优势明显 链接到标题

Agent 能力是当前大模型竞争的焦点,以下是通用 Agent 和工具调用维度的完整对比:

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距达成率
τ³-Bench长周期规划与对话70.767.2-3.595.1%
VITA-Bench多域任务执行44.335.6-8.780.4%
DeepPlanning深度规划41.525.9-15.662.4%
Tool Decathlon十项全能工具使用39.826.9-12.967.6%
MCPMarkMCP 基准评测48.237.0-11.276.8%
MCP-AtlasMCP 工具调用74.162.8-11.384.7%
WideSearch广域信息检索74.360.1-14.280.9%

解读 链接到标题

Agent 维度是两个模型差距最大的领域之一:

  1. 基础规划能力(τ³-Bench)差距最小(达成率 95.1%),说明 35B-A3B 在日常对话和简单规划上几乎不输旗舰
  2. 深度规划(DeepPlanning)差距最大(41.5 vs 25.9,达成率仅 62.4%),这类需要长时间、多步骤、高复杂度的规划任务,仍然是大参数量模型的专属领地
  3. 工具调用(MCPMark、MCP-Atlas、Tool Decathlon)差距在 11-13 分左右,达成率 67%-85%。MoE 架构在工具编排上的能力受损较为明显
  4. 信息检索(WideSearch)差距 14.2 分,检索场景对推理深度和知识广度都有要求

结论:如果你的场景主要是简单规划和对话,35B-A3B 足够好用;但涉及复杂多步骤工具编排和深度规划,Plus 的优势非常显著。


四、知识与推理:旗舰全面领先,但差距可控 链接到标题

4.1 知识储备 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距达成率
MMLU-Pro专业知识综合88.585.2-3.396.3%
MMLU-Redux知识准确性94.593.3-1.298.7%
SuperGPQA研究生专家问答71.664.7-6.990.4%
C-Eval中文综合评测93.390.0-3.396.5%

4.2 STEM 与推理 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距达成率
GPQA研究生级别专家问答90.486.0-4.495.1%
HLE“人类最后的考试”28.821.4-7.474.3%
LiveCodeBench v6实时代码竞赛87.180.4-6.792.3%
HMMT Feb 25哈佛-MIT 数学赛96.790.7-6.093.8%
HMMT Nov 25同上,11 月场94.689.1-5.594.2%
HMMT Feb 26同上,2 月场87.883.6-4.295.2%
IMOAnswerBench奥数级别问答83.878.9-4.994.2%
AIME 2026美国数学邀请赛95.392.7-2.697.3%

解读 链接到标题

这是两个模型差距最"可控"的维度:

  1. 通用知识(MMLU-Pro、MMLU-Redux、C-Eval)达成率在 96% 以上,3B 活跃参数存储的知识量令人惊讶
  2. 数学推理(AIME、HMMT 系列)达成率 93%-97%,35B-A3B 在数学上的表现接近旗舰水平。92.7 的 AIME 分数已经超过了 Gemma4-31B(89.2)等更大的稠密模型
  3. 极限推理(HLE)差距最大,达成率仅 74.3%。这是"人类最后的考试",考验跨学科综合推理,对模型容量要求极高

亮点:35B-A3B 的 GPQA(86.0)甚至超过了 Qwen3.5-27B(85.5),在专家问答领域表现出色。


五、多模态:旗舰的全面优势 链接到标题

Qwen3.6 系列都原生支持多模态。以下是视觉语言基准的对比:

5.1 STEM 与视觉推理 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距
MMMU多模态综合推理86.081.7-4.3
MMMU-Pro进阶多模态推理78.875.3-3.5
MathVision数学视觉88.0
MathVista(mini)数学图表推理86.4
We-Math加权数学推理89.0
DynaMath动态数学推理88.0

5.2 通用视觉问答 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距
RealWorldQA真实世界问答85.485.3-0.1
MMStar多模态星级评测83.3
MMBench EN多模态基准92.8
SimpleVQA简单视觉问答67.358.9-8.4
HallusionBench幻觉评测69.8

5.3 文档理解与 OCR 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距
OmniDocBench 1.5文档理解91.289.9-1.3
CharXiv(RQ)图表理解81.578.0-3.5
CC-OCROCR 识别83.481.9-1.5
AI2D_TEST科学图表94.492.7-1.7

5.4 空间智能 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距
RefCOCO(avg)目标定位93.592.0-1.5
ODInW13开放世界检测51.850.8-1.0
EmbSpatialBench具身空间理解84.3
V*视觉定位96.9

5.5 视频理解 链接到标题

基准测什么Qwen3.6-PlusQwen3.6-35B-A3B差距
VideoMME(w sub.)视频理解(带字幕)87.886.6-1.2
VideoMME(w/o sub.)视频理解(无字幕)84.282.5-1.7
VideoMMMU视频综合推理84.083.7-0.3
MLVU长视频理解86.786.2-0.5

解读 链接到标题

多模态是差距最小、也最令人意外的维度:

  1. RealWorldQA 仅差 0.1 分(85.4 vs 85.3),视频理解差距不超过 2 分——3B 活跃参数的视觉感知能力几乎追平旗舰
  2. 文档理解与 OCR(OmniDocBench、CC-OCR)差距仅 1-2 分,35B-A3B 在这类实用任务上完全可用
  3. 空间智能(RefCOCO 92.0 vs 93.5)差距 1.5 分,35B-A3B 的空间定位能力甚至超越了 Claude Sonnet 4.5
  4. 35B-A3B 在多模态上整体持平甚至超越 Claude Sonnet 4.5(如 RealWorldQA 85.3 vs 70.3、OmniDocBench 89.9 vs 85.8),这在一个 3B 活跃参数的开源模型上极为罕见

六、综合达成率总览 链接到标题

为了直观展示 35B-A3B 相对于 Plus 的整体水平,我们汇总了所有可对比维度的平均达成率:

维度平均达成率评价
多模态(视觉+视频)~97%几乎追平旗舰
知识与推理~94%差距可控
编码 Agent~87%基础编码够用
通用 Agent~78%复杂任务差距较大

总结:在感知类任务(视觉、视频、知识检索)上,3B 活跃参数几乎够用;但在需要深度推理和长周期规划的任务(Agent、复杂编码)上,模型容量仍然是硬约束。


七、性价比分析 链接到标题

参数量不是唯一的考量因素,推理成本才是大多数用户真正关心的:

维度Qwen3.6-PlusQwen3.6-35B-A3B
API 价格旗舰级定价Flash 级定价(更低)
本地部署不支持支持(单卡即可)
推理速度标准更快(仅 3B 活跃参)
显存需求~20GB(FP16)
量化后~10GB(INT4)
开放性闭源完全开源,可商用

Qwen3.6-35B-A3B 的 API 名称为 qwen3.6-flash,从命名就能看出它的定位——速度优先、成本敏感。对于需要大量 API 调用、预算有限的团队,Flash 的性价比极高。

更关键的是,35B-A3B 支持本地部署。一张 24GB 显存的消费级显卡(如 RTX 4090)即可运行 FP16 版本,INT4 量化后甚至可以在 16GB 显存的显卡上运行。这让数据隐私敏感的企业有了自建 AI 能力的路径。


八、选择建议 链接到标题

选 Qwen3.6-Plus 如果你: 链接到标题

  • 需要最强编码 Agent 能力(SWE-bench Pro、Terminal-Bench 等高难度任务)
  • 需要深度规划和复杂工具编排(DeepPlanning、MCPMark)
  • 需要处理超长代码仓库或文档时在编码 Agent 任务上有更好的表现
  • 不在意成本,追求极致效果
  • 需要视觉 Agent 的完整能力(ScreenSpot Pro、OSWorld 等交互式任务)

选 Qwen3.6-35B-A3B 如果你: 链接到标题

  • 需要本地部署数据不出域
  • 关注推理成本,需要大量 API 调用
  • 核心场景是日常编码(bug 修复、代码补全、前端开发)
  • 需要多模态理解(文档解析、OCR、视频分析),且对精度要求不是极限
  • 个人开发者或小团队,想要高性价比的 AI 编程助手
  • 需要对模型进行微调或定制

一个实用的混合策略: 链接到标题

对于很多团队,最佳方案可能是两者搭配使用

  1. 日常编码(80% 场景)→ 用 35B-A3B(qwen3.6-flash),成本低、速度快
  2. 复杂工程任务(20% 场景)→ 升级到 Plus,处理高难度 Issue、深度规划等

两者共享 1M token 上下文窗口和相同的 API 协议,切换几乎零成本。这种"双模型策略"可以在控制成本的同时确保关键时刻有旗舰模型兜底。


九、MoE 架构的启示 链接到标题

Qwen3.6-35B-A3B 的成功不仅仅是"一个还不错的小模型",它验证了一个重要假设:

MoE 架构可以让小活跃参数的模型在感知类任务上逼近旗舰,但在深度推理和长周期规划上仍存在结构性差距。

这意味着:

  1. 对于大多数"看和说"的任务(视觉理解、文档解析、日常对话),MoE 小模型已经足够好
  2. 但对于"想和做"的任务(复杂规划、多步骤工具调用、高难度推理),稠密大模型的容量优势仍然不可替代
  3. 未来的方向可能是动态 MoE——根据任务难度自动调整活跃参数量,简单任务用少量专家,复杂任务激活更多

结语 链接到标题

Qwen3.6-Plus 和 Qwen3.6-35B-A3B 是 Qwen3.6 系列的"双子星":

  • Plus 是全能旗舰,在编码 Agent、深度规划、长上下文等维度上代表着 Qwen 的最强能力
  • 35B-A3B 是效率之王,用 3B 活跃参数实现了旗舰 85%-97% 的性能,同时提供了开源、本地部署、低成本的三重自由

对于开发者来说,最好的消息是:你不必只选一个。两者共享相同的 API 协议和工具链兼容性(OpenClaw、Claude Code、Qwen Code),可以随时切换或混合使用。

开源 ≠ 低端。Qwen3.6-35B-A3B 证明了这一点。


本文数据来源于 Qwen3.6-Plus 官方博客Qwen3.6-35B-A3B 官方博客,评测条件(基线模型版本、评测设置)一致(同一团队、同一评测框架),跨模型分数对比具有较高的可信度。