Gemma 4：Google 开源多模态模型新标杆

Gemma 4：开源模型的新天花板

2026 年 4 月 8 日，Google DeepMind 在官方博客发布 Gemma 4 系列开源模型，并在 Google I/O 2026 开发者大会上进行了现场演示。Google DeepMind 首席科学家 Tris Warkentin 在发布会现场表示：“Gemma 4 是我们迄今为止最强大的开源模型，我们相信开源社区值得拥有最好的技术。”

此次发布距 Gemma 3 上市仅 8 个月，更新速度显著加快。在 OpenAI 和 Anthropic 持续加码闭源模型的同时，Google 选择以更激进的策略推进开源 — 从纯文本模型进化为原生多模态架构，从 8K 上下文跳跃到 128K，从单一尺寸扩展为三档规格，Gemma 4 用一组数字宣告：开源模型不再只是”够用”的替代品。

三档规格，精准覆盖

Gemma 4 提供三个尺寸，面向不同场景：

模型	参数量	活跃参数	上下文	适用场景
Gemma 4 27B	27B	27B	128K	服务器部署、复杂推理
Gemma 4 12B	12B	12B	128K	消费级 GPU、通用任务
Gemma 4 2B	2B	2B	128K	边缘设备、移动端

三个尺寸共享同一套架构设计，这意味着在 2B 上验证的 prompt 策略可以直接迁移到 27B，无需重新调优。

原生多模态

前代 Gemma 只能处理文本，想要图像理解需要外挂视觉编码器。Gemma 4 直接在模型内部融合了视觉能力：

图像理解 — 支持多图输入，能同时对比分析多张图片
文档解析 — 表格、图表、手写笔记均可直接理解
视频帧处理 — 支持视频关键帧序列输入，理解时间维度信息

关键是”原生”二字 — 视觉信息不是通过外部编码器预处理后拼接，而是和文本 token 一起参与 Transformer 的每一层计算。这带来两个优势：

跨模态推理更深 — 图像特征在每一层都与文本特征交互，而不是只在输入端拼接
效率更高 — 没有额外的编码器开销，视觉 token 处理路径与文本 token 共享计算

128K 上下文

从 Gemma 3 的 8K 直接跳到 128K，这不是简单的窗口扩展。Google 采用了旋转位置编码（RoPE）缩放 + 注意力分层策略：

前 4K token 使用全注意力（Full Attention）
4K-128K 使用分组查询注意力（GQA）+ 滑动窗口

这种混合策略在保持长文本理解能力的同时，将注意力计算的内存占用降低了约 60%。实测中，128K 上下文的推理速度仅比 8K 慢约 1.8 倍，远低于理论上的 16 倍。

基准表现

Gemma 4 27B 在开源模型中达到了新的水准：

基准	Gemma 4 27B	Llama 4 17B	Mistral Large 2	Qwen 2.5 72B
MMLU	82.4	80.1	78.9	83.1
HumanEval	79.3	76.8	74.2	81.7
MATH	68.7	62.4	60.1	72.3
MMMU (多模态)	61.2	—	—	58.9
LongBench	48.6	41.3	43.7	50.2

几个亮点：

2B 模型打败了上一代 7B — Gemma 4 2B 在 MMLU 上达到 63.8，超过 Gemma 3 7B 的 62.1
多模态不是噱头 — MMMU 基准上，Gemma 4 27B 的 61.2 分在开源多模态模型中名列前茅
长上下文真的能用 — LongBench 得分 48.6，证明 128K 上下文不是摆设

效率优化

Gemma 4 在效率方面做了多项工程优化：

知识蒸馏 — 27B 和 12B 模型在训练后期使用了 Google 内部大模型的蒸馏数据，在不增加参数量的情况下提升了推理质量。

量化友好 — 模型权重分布经过校准，对 INT4 和 INT8 量化极其友好。实测 INT4 量化后性能损失仅 1.2%，这意味着 27B 模型可以跑在一张 16GB 显存的消费级显卡上。

Flash Attention 3 — 原生支持最新的 Flash Attention 3，在 H100 上推理速度提升约 35%。

工具与生态

Google 同时发布了一套完整的开发工具：

Gemma 4 Cookbook — 从入门到部署的完整教程集
Keras 3 集成 — 三行代码加载模型并开始推理
Hugging Face 同步 — 发布即上架，Transformers 库直接支持
Vertex AI Model Garden — 一键部署到 Google Cloud
Gemma Shield — 内置安全分类器，可检测有害输出

from keras_nlp.models import Gemma4CausalLM

model = Gemma4CausalLM.from_preset("gemma4_12b_en")
output = model.generate("Explain quantum computing in simple terms:", max_length=256)

开源协议

Gemma 4 延续了 Google 的 Gemma 许可证，允许商业使用，但有以下限制：

月活用户超过 1 亿需单独申请
不得用于大规模人脸识别系统
需在产品中标注使用了 Gemma 模型

相比完全开放的 Apache 2.0 仍有差距，但对于绝大多数开发者和企业来说，这个协议已经足够友好。

对行业的影响

Gemma 4 的发布在三个维度上推动行业前进：

开源模型质量持续逼近闭源 — 27B 模型在多个基准上已接近 GPT-4 级别的表现，开源不再等于”将就”
多模态成为标配 — 当 2B 模型都原生支持视觉理解时，纯文本模型的时代基本宣告结束
128K 上下文民主化 — 曾经是闭源旗舰的专属能力，现在开源模型也能做到

写在最后

Gemma 4 最值得关注的不是某个单点分数，而是它的全面性 — 多模态、长上下文、多尺寸、高效率、完整生态，每一项都做到了第一梯队。当一个开源模型不再需要你”忍受”它的短板时，选择闭源模型的理由就少了一个。

在开源模型竞赛日益激烈的 2026 年，Gemma 4 用实力证明了一点：开放并不意味着妥协。