Qwen3.6-Plus:中文深度推理的新一代旗舰
2026 年 4 月 10 日,阿里云在杭州云栖小镇举办 通义千问技术开放日,正式发布 Qwen3.6-Plus 模型。阿里云智能首席技术官周靖人在发布现场宣布:“Qwen3.6-Plus 是首个内置深度推理能力的开源中文大模型,我们希望让每一位开发者都能用上’会思考’的 AI。“同时,模型权重在 Hugging Face 和 ModelScope 平台同步开源。
此次发布背景值得关注 — 2026 年以来,开源大模型进入”推理能力”竞赛阶段,DeepSeek-V3 和 Claude 3.5 均在推理深度上发力。Qwen3.6-Plus 以混合专家架构为基础,首次在开源模型中引入”深度推理模式”,让模型能像人一样”想清楚再回答”。从 Qwen2.5 到 Qwen3.6,不仅仅是版本号的递增,更是模型架构和推理范式的一次跃迁。
核心升级一览
| 特性 | Qwen2.5-72B | Qwen3.6-Plus |
|---|---|---|
| 架构 | Dense | MoE (混合专家) |
| 总参数 | 72B | 305B |
| 活跃参数 | 72B | 38B |
| 上下文 | 128K | 200K |
| 推理模式 | 标准生成 | 标准 + 深度推理 |
| 多模态 | 文本 | 文本 + 视觉 + 音频 |
| 代码能力 | 优秀 | 卓越 |
最引人注目的是活跃参数仅 38B — 意味着实际推理时的计算成本接近一个 38B Dense 模型,但效果却远超此规模。
MoE 架构:128 专家 + Top-8 路由
Qwen3.6-Plus 采用细粒度 MoE 架构:
- 128 个专家 — 每个 FFN 层包含 128 个并行专家网络
- Top-8 路由 — 每个 token 激活 8 个专家,激活率 6.25%
- 共享专家 — 4 个共享专家始终激活,保证基础能力不丢失
- 负载均衡损失 — 辅助损失函数确保专家利用率均匀,避免”路由坍缩”
这种设计的精妙之处在于:128 个专家各自专注于不同类型的知识和技能,而 Top-8 路由让每个 token 都能获得足够的专家协作。共享专家则像”通识教育”,确保模型不会因为过度专业化而丧失基础能力。
深度推理模式
这是 Qwen3.6-Plus 最大的创新。传统模型面对复杂问题时,要么一步给出答案(容易出错),要么通过 few-shot 示例引导推理(依赖 prompt 工程)。Qwen3.6-Plus 引入了两种模式:
标准模式 — 快速生成,适合简单问答、翻译、摘要等场景,响应速度快。
深度推理模式 — 模型在内部自动展开推理链,包含:
- 问题分解 — 将复杂问题拆分为子问题
- 假设生成 — 对每个子问题提出候选假设
- 验证与修正 — 自我验证推理步骤的正确性
- 路径回溯 — 发现错误时自动回退到上一个正确节点
用户:一个水池有两个进水管和一个出水管...
│
┌─────┴──────┐
│ 问题分解 │ 标准模式直接算
│ 1. 各管速率 │ 深度模式先分解
│ 2. 净流量 │ → 验证每步
│ 3. 填满时间 │ → 发现矛盾时回溯
└─────┬──────┘
│
最终答案(含推理过程)
实测中,深度推理模式在数学和逻辑题上提升显著:
| 基准 | 标准模式 | 深度推理模式 | 提升 |
|---|---|---|---|
| MATH-500 | 74.2 | 86.8 | +12.6 |
| GPQA Diamond | 52.1 | 61.3 | +9.2 |
| ARC-Challenge | 93.4 | 96.7 | +3.3 |
| LiveCodeBench | 58.7 | 69.4 | +10.7 |
代价是推理时间增加约 3-5 倍,但对于需要准确性的场景,这是值得的权衡。用户可以通过一个简单的前缀 think: 来触发深度推理模式。
中文能力:原生优势的延续
作为国产模型,Qwen3.6-Plus 在中文场景上的表现是最大的卖点:
- 古文理解 — 能准确理解文言文并翻译为现代汉语,在古籍问答基准上达到 91.3% 准确率
- 成语与典故 — 成语使用正确率 96.8%,典故引用准确率 89.2%
- 法律文本 — 在中国法律问答基准 LawBench 上达到 78.6,超过所有同规模开源模型
- 多方言理解 — 支持粤语、吴语、闽南语的基本理解与翻译
训练数据中中文语料的占比从 Qwen2.5 的 18% 提升到 Qwen3.6 的 31%,覆盖了更广泛的中文互联网内容和专业文献。
200K 上下文与检索增强
Qwen3.6-Plus 将上下文窗口扩展到 200K,并优化了长文本的信息利用效率:
- Needle-in-a-Haystack 测试中,200K 窗口内的信息检索准确率达到 99.1%
- 多轮对话记忆 — 在 50 轮以上的长对话中仍能准确引用早期信息
- 文档级理解 — 能对整本技术文档进行全局性问答,而非逐段检索
配合官方提供的 RAG 框架,Qwen3.6-Plus 可以实现:
- 离线索引文档库
- 检索相关片段
- 在 200K 窗口内整合多源信息
- 输出带引用的答案
多模态能力
Qwen3.6-Plus 原生支持三种模态:
| 模态 | 输入 | 能力 |
|---|---|---|
| 文本 | 文本 | 问答、推理、代码、创作 |
| 视觉 | 图片 | 图像描述、OCR、图表分析、UI 理解 |
| 音频 | 语音 | 语音识别、语音翻译、语音情感分析 |
视觉能力基于 ViT + Adapter 架构,视觉 token 经过 Adapter 映射后与文本 token 拼接,进入主 Transformer 处理。这种方案比从头训练多模态更高效,且保持了纯文本能力的完整性。
音频能力通过 Whisper 编码器提取声学特征,同样通过 Adapter 映射到语言空间。实测中文语音识别准确率达到 97.2%,在中英混合场景下为 93.8%。
代码能力
Qwen3.6-Plus 在代码领域进行了专项强化:
- 训练数据 — 吸收了 GitHub 上 3.2 亿个代码文件,覆盖 87 种编程语言
- SFT 阶段 — 使用 Verified 数据集进行监督微调,确保代码正确性
- 执行反馈 — RLHF 阶段引入代码执行反馈,模型能从运行结果中学习
| 基准 | Qwen3.6-Plus | DeepSeek-V3 | Claude 3.5 Sonnet |
|---|---|---|---|
| HumanEval | 89.6 | 87.1 | 92.0 |
| MBPP | 82.3 | 80.4 | 84.7 |
| LiveCodeBench | 69.4 | 66.8 | 72.1 |
| SWE-Bench Lite | 28.4 | 25.7 | 33.2 |
在开源模型中代码能力稳居第一梯队,与闭源顶级模型差距持续缩小。
部署与效率
MoE 架构的部署有天然优势 — 虽然总参数 305B,但推理时只激活 38B:
- 单机 4×A100 — 可运行 BF16 精度,吞吐约 1800 token/s
- 单机 2×A100 — 需 INT4 量化,吞吐约 1200 token/s,性能损失 <2%
- 单张 A100 — 需 INT4 量化 + offload,吞吐约 400 token/s
阿里同时发布了优化推理框架 QServe 2.0:
- MoE 专用批处理调度器,减少专家切换开销
- KV Cache 压缩,200K 上下文的内存占用降低 40%
- 前缀缓存,重复 prompt 场景下首 token 延迟降低 70%
开源与许可
Qwen3.6-Plus 采用 Apache 2.0 许可证,无商业限制:
- 可自由商用,无用户规模限制
- 可修改、分发、衍生
- 唯一要求:保留版权声明
这是目前最宽松的开源模型许可证之一,与 Llama 系列的定制许可证相比,对企业用户更加友好。
与竞品的定位差异
2026 年开源模型市场,主要玩家各有侧重:
- Llama 4 — Meta 出品,英文生态最强,多模态能力略弱
- Gemma 4 — Google 出品,轻量化做得最好,2B 模型标杆
- DeepSeek-V3 — 推理能力强,代码领域突出,但生态工具较少
- Qwen3.6-Plus — 中文最强,深度推理独有,多模态全面,Apache 2.0 最友好
Qwen3.6-Plus 的差异化优势非常清晰:中文场景 + 深度推理 + 开放许可。
写在最后
Qwen3.6-Plus 最大的贡献不是某个基准分数的刷新,而是深度推理模式的引入。当开源模型不再只是”快速给出一个答案”,而是能”想清楚再回答”时,AI 应用的可靠性就上了一个台阶。
对于中文开发者来说,Qwen3.6-Plus 几乎是目前最均衡的选择 — 中文理解最强、推理能力最新、部署成本可控、许可证最自由。在国产大模型从”能用”到”好用”的进化路上,Qwen3.6-Plus 标记了一个重要的里程碑。