News

Gemma 4:Google 开源多模态模型新标杆

Google 发布 Gemma 4 开源模型系列 — 原生多模态、128K 上下文、极致效率,重新定义开源模型天花板。

Gemma 4:开源模型的新天花板

2026 年 4 月 8 日,Google DeepMind 在官方博客发布 Gemma 4 系列开源模型,并在 Google I/O 2026 开发者大会上进行了现场演示。Google DeepMind 首席科学家 Tris Warkentin 在发布会现场表示:“Gemma 4 是我们迄今为止最强大的开源模型,我们相信开源社区值得拥有最好的技术。”

此次发布距 Gemma 3 上市仅 8 个月,更新速度显著加快。在 OpenAI 和 Anthropic 持续加码闭源模型的同时,Google 选择以更激进的策略推进开源 — 从纯文本模型进化为原生多模态架构,从 8K 上下文跳跃到 128K,从单一尺寸扩展为三档规格,Gemma 4 用一组数字宣告:开源模型不再只是”够用”的替代品。

三档规格,精准覆盖

Gemma 4 提供三个尺寸,面向不同场景:

模型参数量活跃参数上下文适用场景
Gemma 4 27B27B27B128K服务器部署、复杂推理
Gemma 4 12B12B12B128K消费级 GPU、通用任务
Gemma 4 2B2B2B128K边缘设备、移动端

三个尺寸共享同一套架构设计,这意味着在 2B 上验证的 prompt 策略可以直接迁移到 27B,无需重新调优。

原生多模态

前代 Gemma 只能处理文本,想要图像理解需要外挂视觉编码器。Gemma 4 直接在模型内部融合了视觉能力:

  • 图像理解 — 支持多图输入,能同时对比分析多张图片
  • 文档解析 — 表格、图表、手写笔记均可直接理解
  • 视频帧处理 — 支持视频关键帧序列输入,理解时间维度信息

关键是”原生”二字 — 视觉信息不是通过外部编码器预处理后拼接,而是和文本 token 一起参与 Transformer 的每一层计算。这带来两个优势:

  1. 跨模态推理更深 — 图像特征在每一层都与文本特征交互,而不是只在输入端拼接
  2. 效率更高 — 没有额外的编码器开销,视觉 token 处理路径与文本 token 共享计算

128K 上下文

从 Gemma 3 的 8K 直接跳到 128K,这不是简单的窗口扩展。Google 采用了旋转位置编码(RoPE)缩放 + 注意力分层策略:

  • 前 4K token 使用全注意力(Full Attention)
  • 4K-128K 使用分组查询注意力(GQA)+ 滑动窗口

这种混合策略在保持长文本理解能力的同时,将注意力计算的内存占用降低了约 60%。实测中,128K 上下文的推理速度仅比 8K 慢约 1.8 倍,远低于理论上的 16 倍。

基准表现

Gemma 4 27B 在开源模型中达到了新的水准:

基准Gemma 4 27BLlama 4 17BMistral Large 2Qwen 2.5 72B
MMLU82.480.178.983.1
HumanEval79.376.874.281.7
MATH68.762.460.172.3
MMMU (多模态)61.258.9
LongBench48.641.343.750.2

几个亮点:

  • 2B 模型打败了上一代 7B — Gemma 4 2B 在 MMLU 上达到 63.8,超过 Gemma 3 7B 的 62.1
  • 多模态不是噱头 — MMMU 基准上,Gemma 4 27B 的 61.2 分在开源多模态模型中名列前茅
  • 长上下文真的能用 — LongBench 得分 48.6,证明 128K 上下文不是摆设

效率优化

Gemma 4 在效率方面做了多项工程优化:

知识蒸馏 — 27B 和 12B 模型在训练后期使用了 Google 内部大模型的蒸馏数据,在不增加参数量的情况下提升了推理质量。

量化友好 — 模型权重分布经过校准,对 INT4 和 INT8 量化极其友好。实测 INT4 量化后性能损失仅 1.2%,这意味着 27B 模型可以跑在一张 16GB 显存的消费级显卡上。

Flash Attention 3 — 原生支持最新的 Flash Attention 3,在 H100 上推理速度提升约 35%。

工具与生态

Google 同时发布了一套完整的开发工具:

  • Gemma 4 Cookbook — 从入门到部署的完整教程集
  • Keras 3 集成 — 三行代码加载模型并开始推理
  • Hugging Face 同步 — 发布即上架,Transformers 库直接支持
  • Vertex AI Model Garden — 一键部署到 Google Cloud
  • Gemma Shield — 内置安全分类器,可检测有害输出
from keras_nlp.models import Gemma4CausalLM

model = Gemma4CausalLM.from_preset("gemma4_12b_en")
output = model.generate("Explain quantum computing in simple terms:", max_length=256)

开源协议

Gemma 4 延续了 Google 的 Gemma 许可证,允许商业使用,但有以下限制:

  • 月活用户超过 1 亿需单独申请
  • 不得用于大规模人脸识别系统
  • 需在产品中标注使用了 Gemma 模型

相比完全开放的 Apache 2.0 仍有差距,但对于绝大多数开发者和企业来说,这个协议已经足够友好。

对行业的影响

Gemma 4 的发布在三个维度上推动行业前进:

  1. 开源模型质量持续逼近闭源 — 27B 模型在多个基准上已接近 GPT-4 级别的表现,开源不再等于”将就”
  2. 多模态成为标配 — 当 2B 模型都原生支持视觉理解时,纯文本模型的时代基本宣告结束
  3. 128K 上下文民主化 — 曾经是闭源旗舰的专属能力,现在开源模型也能做到

写在最后

Gemma 4 最值得关注的不是某个单点分数,而是它的全面性 — 多模态、长上下文、多尺寸、高效率、完整生态,每一项都做到了第一梯队。当一个开源模型不再需要你”忍受”它的短板时,选择闭源模型的理由就少了一个。

在开源模型竞赛日益激烈的 2026 年,Gemma 4 用实力证明了一点:开放并不意味着妥协。