News

Qwen3.6-Plus:中文深度推理开源新旗舰

阿里通义千问发布 Qwen3.6-Plus — 混合专家架构、200K 上下文、深度推理模式,中文开源模型的新标杆。

Qwen3.6-Plus:中文深度推理的新一代旗舰

2026 年 4 月 10 日,阿里云在杭州云栖小镇举办 通义千问技术开放日,正式发布 Qwen3.6-Plus 模型。阿里云智能首席技术官周靖人在发布现场宣布:“Qwen3.6-Plus 是首个内置深度推理能力的开源中文大模型,我们希望让每一位开发者都能用上’会思考’的 AI。“同时,模型权重在 Hugging Face 和 ModelScope 平台同步开源。

此次发布背景值得关注 — 2026 年以来,开源大模型进入”推理能力”竞赛阶段,DeepSeek-V3 和 Claude 3.5 均在推理深度上发力。Qwen3.6-Plus 以混合专家架构为基础,首次在开源模型中引入”深度推理模式”,让模型能像人一样”想清楚再回答”。从 Qwen2.5 到 Qwen3.6,不仅仅是版本号的递增,更是模型架构和推理范式的一次跃迁。

核心升级一览

特性Qwen2.5-72BQwen3.6-Plus
架构DenseMoE (混合专家)
总参数72B305B
活跃参数72B38B
上下文128K200K
推理模式标准生成标准 + 深度推理
多模态文本文本 + 视觉 + 音频
代码能力优秀卓越

最引人注目的是活跃参数仅 38B — 意味着实际推理时的计算成本接近一个 38B Dense 模型,但效果却远超此规模。

MoE 架构:128 专家 + Top-8 路由

Qwen3.6-Plus 采用细粒度 MoE 架构:

  • 128 个专家 — 每个 FFN 层包含 128 个并行专家网络
  • Top-8 路由 — 每个 token 激活 8 个专家,激活率 6.25%
  • 共享专家 — 4 个共享专家始终激活,保证基础能力不丢失
  • 负载均衡损失 — 辅助损失函数确保专家利用率均匀,避免”路由坍缩”

这种设计的精妙之处在于:128 个专家各自专注于不同类型的知识和技能,而 Top-8 路由让每个 token 都能获得足够的专家协作。共享专家则像”通识教育”,确保模型不会因为过度专业化而丧失基础能力。

深度推理模式

这是 Qwen3.6-Plus 最大的创新。传统模型面对复杂问题时,要么一步给出答案(容易出错),要么通过 few-shot 示例引导推理(依赖 prompt 工程)。Qwen3.6-Plus 引入了两种模式:

标准模式 — 快速生成,适合简单问答、翻译、摘要等场景,响应速度快。

深度推理模式 — 模型在内部自动展开推理链,包含:

  • 问题分解 — 将复杂问题拆分为子问题
  • 假设生成 — 对每个子问题提出候选假设
  • 验证与修正 — 自我验证推理步骤的正确性
  • 路径回溯 — 发现错误时自动回退到上一个正确节点
用户:一个水池有两个进水管和一个出水管...

  ┌─────┴──────┐
  │  问题分解    │  标准模式直接算
  │  1. 各管速率  │  深度模式先分解
  │  2. 净流量   │  → 验证每步
  │  3. 填满时间  │  → 发现矛盾时回溯
  └─────┬──────┘

   最终答案(含推理过程)

实测中,深度推理模式在数学和逻辑题上提升显著:

基准标准模式深度推理模式提升
MATH-50074.286.8+12.6
GPQA Diamond52.161.3+9.2
ARC-Challenge93.496.7+3.3
LiveCodeBench58.769.4+10.7

代价是推理时间增加约 3-5 倍,但对于需要准确性的场景,这是值得的权衡。用户可以通过一个简单的前缀 think: 来触发深度推理模式。

中文能力:原生优势的延续

作为国产模型,Qwen3.6-Plus 在中文场景上的表现是最大的卖点:

  • 古文理解 — 能准确理解文言文并翻译为现代汉语,在古籍问答基准上达到 91.3% 准确率
  • 成语与典故 — 成语使用正确率 96.8%,典故引用准确率 89.2%
  • 法律文本 — 在中国法律问答基准 LawBench 上达到 78.6,超过所有同规模开源模型
  • 多方言理解 — 支持粤语、吴语、闽南语的基本理解与翻译

训练数据中中文语料的占比从 Qwen2.5 的 18% 提升到 Qwen3.6 的 31%,覆盖了更广泛的中文互联网内容和专业文献。

200K 上下文与检索增强

Qwen3.6-Plus 将上下文窗口扩展到 200K,并优化了长文本的信息利用效率:

  • Needle-in-a-Haystack 测试中,200K 窗口内的信息检索准确率达到 99.1%
  • 多轮对话记忆 — 在 50 轮以上的长对话中仍能准确引用早期信息
  • 文档级理解 — 能对整本技术文档进行全局性问答,而非逐段检索

配合官方提供的 RAG 框架,Qwen3.6-Plus 可以实现:

  1. 离线索引文档库
  2. 检索相关片段
  3. 在 200K 窗口内整合多源信息
  4. 输出带引用的答案

多模态能力

Qwen3.6-Plus 原生支持三种模态:

模态输入能力
文本文本问答、推理、代码、创作
视觉图片图像描述、OCR、图表分析、UI 理解
音频语音语音识别、语音翻译、语音情感分析

视觉能力基于 ViT + Adapter 架构,视觉 token 经过 Adapter 映射后与文本 token 拼接,进入主 Transformer 处理。这种方案比从头训练多模态更高效,且保持了纯文本能力的完整性。

音频能力通过 Whisper 编码器提取声学特征,同样通过 Adapter 映射到语言空间。实测中文语音识别准确率达到 97.2%,在中英混合场景下为 93.8%。

代码能力

Qwen3.6-Plus 在代码领域进行了专项强化:

  • 训练数据 — 吸收了 GitHub 上 3.2 亿个代码文件,覆盖 87 种编程语言
  • SFT 阶段 — 使用 Verified 数据集进行监督微调,确保代码正确性
  • 执行反馈 — RLHF 阶段引入代码执行反馈,模型能从运行结果中学习
基准Qwen3.6-PlusDeepSeek-V3Claude 3.5 Sonnet
HumanEval89.687.192.0
MBPP82.380.484.7
LiveCodeBench69.466.872.1
SWE-Bench Lite28.425.733.2

在开源模型中代码能力稳居第一梯队,与闭源顶级模型差距持续缩小。

部署与效率

MoE 架构的部署有天然优势 — 虽然总参数 305B,但推理时只激活 38B:

  • 单机 4×A100 — 可运行 BF16 精度,吞吐约 1800 token/s
  • 单机 2×A100 — 需 INT4 量化,吞吐约 1200 token/s,性能损失 <2%
  • 单张 A100 — 需 INT4 量化 + offload,吞吐约 400 token/s

阿里同时发布了优化推理框架 QServe 2.0

  • MoE 专用批处理调度器,减少专家切换开销
  • KV Cache 压缩,200K 上下文的内存占用降低 40%
  • 前缀缓存,重复 prompt 场景下首 token 延迟降低 70%

开源与许可

Qwen3.6-Plus 采用 Apache 2.0 许可证,无商业限制:

  • 可自由商用,无用户规模限制
  • 可修改、分发、衍生
  • 唯一要求:保留版权声明

这是目前最宽松的开源模型许可证之一,与 Llama 系列的定制许可证相比,对企业用户更加友好。

与竞品的定位差异

2026 年开源模型市场,主要玩家各有侧重:

  • Llama 4 — Meta 出品,英文生态最强,多模态能力略弱
  • Gemma 4 — Google 出品,轻量化做得最好,2B 模型标杆
  • DeepSeek-V3 — 推理能力强,代码领域突出,但生态工具较少
  • Qwen3.6-Plus — 中文最强,深度推理独有,多模态全面,Apache 2.0 最友好

Qwen3.6-Plus 的差异化优势非常清晰:中文场景 + 深度推理 + 开放许可

写在最后

Qwen3.6-Plus 最大的贡献不是某个基准分数的刷新,而是深度推理模式的引入。当开源模型不再只是”快速给出一个答案”,而是能”想清楚再回答”时,AI 应用的可靠性就上了一个台阶。

对于中文开发者来说,Qwen3.6-Plus 几乎是目前最均衡的选择 — 中文理解最强、推理能力最新、部署成本可控、许可证最自由。在国产大模型从”能用”到”好用”的进化路上,Qwen3.6-Plus 标记了一个重要的里程碑。