Qwen3.6-Plus：中文深度推理开源新旗舰

Qwen3.6-Plus：中文深度推理的新一代旗舰

2026 年 4 月 10 日，阿里云在杭州云栖小镇举办 通义千问技术开放日，正式发布 Qwen3.6-Plus 模型。阿里云智能首席技术官周靖人在发布现场宣布：“Qwen3.6-Plus 是首个内置深度推理能力的开源中文大模型，我们希望让每一位开发者都能用上’会思考’的 AI。“同时，模型权重在 Hugging Face 和 ModelScope 平台同步开源。

此次发布背景值得关注 — 2026 年以来，开源大模型进入”推理能力”竞赛阶段，DeepSeek-V3 和 Claude 3.5 均在推理深度上发力。Qwen3.6-Plus 以混合专家架构为基础，首次在开源模型中引入”深度推理模式”，让模型能像人一样”想清楚再回答”。从 Qwen2.5 到 Qwen3.6，不仅仅是版本号的递增，更是模型架构和推理范式的一次跃迁。

核心升级一览

特性	Qwen2.5-72B	Qwen3.6-Plus
架构	Dense	MoE (混合专家)
总参数	72B	305B
活跃参数	72B	38B
上下文	128K	200K
推理模式	标准生成	标准 + 深度推理
多模态	文本	文本 + 视觉 + 音频
代码能力	优秀	卓越

最引人注目的是活跃参数仅 38B — 意味着实际推理时的计算成本接近一个 38B Dense 模型，但效果却远超此规模。

MoE 架构：128 专家 + Top-8 路由

Qwen3.6-Plus 采用细粒度 MoE 架构：

128 个专家 — 每个 FFN 层包含 128 个并行专家网络
Top-8 路由 — 每个 token 激活 8 个专家，激活率 6.25%
共享专家 — 4 个共享专家始终激活，保证基础能力不丢失
负载均衡损失 — 辅助损失函数确保专家利用率均匀，避免”路由坍缩”

这种设计的精妙之处在于：128 个专家各自专注于不同类型的知识和技能，而 Top-8 路由让每个 token 都能获得足够的专家协作。共享专家则像”通识教育”，确保模型不会因为过度专业化而丧失基础能力。

深度推理模式

这是 Qwen3.6-Plus 最大的创新。传统模型面对复杂问题时，要么一步给出答案（容易出错），要么通过 few-shot 示例引导推理（依赖 prompt 工程）。Qwen3.6-Plus 引入了两种模式：

标准模式 — 快速生成，适合简单问答、翻译、摘要等场景，响应速度快。

深度推理模式 — 模型在内部自动展开推理链，包含：

问题分解 — 将复杂问题拆分为子问题
假设生成 — 对每个子问题提出候选假设
验证与修正 — 自我验证推理步骤的正确性
路径回溯 — 发现错误时自动回退到上一个正确节点

用户：一个水池有两个进水管和一个出水管...
        │
  ┌─────┴──────┐
  │  问题分解    │  标准模式直接算
  │  1. 各管速率  │  深度模式先分解
  │  2. 净流量   │  → 验证每步
  │  3. 填满时间  │  → 发现矛盾时回溯
  └─────┬──────┘
        │
   最终答案（含推理过程）

实测中，深度推理模式在数学和逻辑题上提升显著：

基准	标准模式	深度推理模式	提升
MATH-500	74.2	86.8	+12.6
GPQA Diamond	52.1	61.3	+9.2
ARC-Challenge	93.4	96.7	+3.3
LiveCodeBench	58.7	69.4	+10.7

代价是推理时间增加约 3-5 倍，但对于需要准确性的场景，这是值得的权衡。用户可以通过一个简单的前缀 think: 来触发深度推理模式。

中文能力：原生优势的延续

作为国产模型，Qwen3.6-Plus 在中文场景上的表现是最大的卖点：

古文理解 — 能准确理解文言文并翻译为现代汉语，在古籍问答基准上达到 91.3% 准确率
成语与典故 — 成语使用正确率 96.8%，典故引用准确率 89.2%
法律文本 — 在中国法律问答基准 LawBench 上达到 78.6，超过所有同规模开源模型
多方言理解 — 支持粤语、吴语、闽南语的基本理解与翻译

训练数据中中文语料的占比从 Qwen2.5 的 18% 提升到 Qwen3.6 的 31%，覆盖了更广泛的中文互联网内容和专业文献。

200K 上下文与检索增强

Qwen3.6-Plus 将上下文窗口扩展到 200K，并优化了长文本的信息利用效率：

Needle-in-a-Haystack 测试中，200K 窗口内的信息检索准确率达到 99.1%
多轮对话记忆 — 在 50 轮以上的长对话中仍能准确引用早期信息
文档级理解 — 能对整本技术文档进行全局性问答，而非逐段检索

配合官方提供的 RAG 框架，Qwen3.6-Plus 可以实现：

离线索引文档库
检索相关片段
在 200K 窗口内整合多源信息
输出带引用的答案

多模态能力

Qwen3.6-Plus 原生支持三种模态：

模态	输入	能力
文本	文本	问答、推理、代码、创作
视觉	图片	图像描述、OCR、图表分析、UI 理解
音频	语音	语音识别、语音翻译、语音情感分析

视觉能力基于 ViT + Adapter 架构，视觉 token 经过 Adapter 映射后与文本 token 拼接，进入主 Transformer 处理。这种方案比从头训练多模态更高效，且保持了纯文本能力的完整性。

音频能力通过 Whisper 编码器提取声学特征，同样通过 Adapter 映射到语言空间。实测中文语音识别准确率达到 97.2%，在中英混合场景下为 93.8%。

代码能力

Qwen3.6-Plus 在代码领域进行了专项强化：

训练数据 — 吸收了 GitHub 上 3.2 亿个代码文件，覆盖 87 种编程语言
SFT 阶段 — 使用 Verified 数据集进行监督微调，确保代码正确性
执行反馈 — RLHF 阶段引入代码执行反馈，模型能从运行结果中学习

基准	Qwen3.6-Plus	DeepSeek-V3	Claude 3.5 Sonnet
HumanEval	89.6	87.1	92.0
MBPP	82.3	80.4	84.7
LiveCodeBench	69.4	66.8	72.1
SWE-Bench Lite	28.4	25.7	33.2

在开源模型中代码能力稳居第一梯队，与闭源顶级模型差距持续缩小。

部署与效率

MoE 架构的部署有天然优势 — 虽然总参数 305B，但推理时只激活 38B：

单机 4×A100 — 可运行 BF16 精度，吞吐约 1800 token/s
单机 2×A100 — 需 INT4 量化，吞吐约 1200 token/s，性能损失 <2%
单张 A100 — 需 INT4 量化 + offload，吞吐约 400 token/s

阿里同时发布了优化推理框架 QServe 2.0：

MoE 专用批处理调度器，减少专家切换开销
KV Cache 压缩，200K 上下文的内存占用降低 40%
前缀缓存，重复 prompt 场景下首 token 延迟降低 70%

开源与许可

Qwen3.6-Plus 采用 Apache 2.0 许可证，无商业限制：

可自由商用，无用户规模限制
可修改、分发、衍生
唯一要求：保留版权声明

这是目前最宽松的开源模型许可证之一，与 Llama 系列的定制许可证相比，对企业用户更加友好。

与竞品的定位差异

2026 年开源模型市场，主要玩家各有侧重：

Llama 4 — Meta 出品，英文生态最强，多模态能力略弱
Gemma 4 — Google 出品，轻量化做得最好，2B 模型标杆
DeepSeek-V3 — 推理能力强，代码领域突出，但生态工具较少
Qwen3.6-Plus — 中文最强，深度推理独有，多模态全面，Apache 2.0 最友好

Qwen3.6-Plus 的差异化优势非常清晰：中文场景 + 深度推理 + 开放许可。

写在最后

Qwen3.6-Plus 最大的贡献不是某个基准分数的刷新，而是深度推理模式的引入。当开源模型不再只是”快速给出一个答案”，而是能”想清楚再回答”时，AI 应用的可靠性就上了一个台阶。

对于中文开发者来说，Qwen3.6-Plus 几乎是目前最均衡的选择 — 中文理解最强、推理能力最新、部署成本可控、许可证最自由。在国产大模型从”能用”到”好用”的进化路上，Qwen3.6-Plus 标记了一个重要的里程碑。