Gemma 4：Google DeepMind 的开源王炸，哪些商业模型该担心了？

一家金融科技公司的技术负责人告诉我，他们前两天在看 Gemma 4 的基准测试报告，看到一半就把窗口关上了——不是因为数据不好看，而是因为太好看，看完就要写汇报给 CTO，解释为什么公司一年 60 万元的 Claude API 账单值得重新审视。

这不是玩笑。2026 年 4 月 2 日，Google DeepMind 发布了 Gemma 4 系列。表面上是一次例行更新，但有两件事让这次发布在 AI 社区炸了锅：第一，Gemma 4 31B 在 AIME 2026 数学测试上拿了 89.2%——比 Gemma 3 27B 的 20.8% 高出四倍；第二，也是很多人觉得更重要的，许可证从原来那套限制一堆的 “Gemma Open License” 换成了 Apache 2.0。

这意味着什么？意味着你可以把 Gemma 4 集成进商业产品，不用交授权费，不用担心使用量限制，代码随便改。突然之间，GPT-4o mini 和 Claude Haiku 的定价团队多了一个新的压力来源。

Gemma 4 到底发布了什么

四个模型，覆盖从树莓派到数据中心的完整区间。

Gemma 4 E2B：2.3B 有效参数（嵌入层总计 5.1B），128K 上下文，支持文本、图像、音频。这是 Google 第一次在这个量级的开源模型里内置音频输入，直接跑在安卓旗舰机上，速度 10-20 tok/s。

Gemma 4 E4B：4.5B 有效参数（总计 8B），128K 上下文，同样支持音频。树莓派 5 上量化后约 4 tok/s，NVIDIA Jetson Orin Nano 上跑得更快。

Gemma 4 26B A4B（MoE 版）：这是这次最值得单独讲的模型。总参数 25.2B，但采用专家混合架构（MoE），每次推理只激活 3.8B 参数——128 个小专家，每个 token 激活 8 个 + 1 个共享专家。效果是：推理速度接近 4B 级别的模型，但质量接近 27B 级别。Arena AI 人类偏好评分 1441，比 Qwen 3.5-27B 的 1404 高出一截。

Gemma 4 31B Dense：稠密架构，31B 参数，256K 上下文。Arena AI 评分 1452，开源模型里全球第 3，仅次于两个千亿量级的巨无霸。

所有模型统一支持文本 + 图像 + 视频（最长 60 秒 1fps）输入，E2B 和 E4B 额外支持音频（最长 30 秒）。许可证 Apache 2.0，基础版和指令版都开放。这是 Gemma 系列第一次用 Apache 2.0，此前的许可证禁止竞争性产品使用。

架构上有几个有意思的设计。Per-Layer Embeddings（PLE）：给每个解码器层单独的 token 条件信号，相当于每一层都有自己的”理解视角”，而不是所有层共享同一个嵌入。Shared KV Cache：最后 N 层复用早期层的 KV 缓存，显存和计算省了一块。Dual RoPE：滑动窗口层用标准 RoPE，全局注意力层用比例 RoPE，让长上下文更稳。这些优化在报告里没有大肆宣传，但工程师们看了会心一笑——这是真正在做效率优化的团队才有的设计。

（来源: Hugging Face Blog, 2026-04-02）

性能表现：数字会说话

我整理了几个关键基准，跟它的前辈和竞品对比：

基准测试	Gemma 4 31B	Gemma 3 27B	Qwen 3.5-27B
AIME 2026	89.2%	20.8%	~49%
LiveCodeBench v6	80.0%	29.1%	80.7%
GPQA Diamond	84.3%	42.4%	85.5%
MMLU Pro	85.2%	—	86.1%
MMMU Pro（多模态）	76.9%	49.7%	75.0%
Codeforces ELO	2150	110	—

（来源: Google DeepMind Blog, 2026-04-02；ai.rs 基准报告, 2026-04-03）

有几个数字值得停下来想一想。

AIME 2026 从 20.8% 到 89.2%，这不是线性进步，是量级跃升。AIME 是美国数学邀请赛题目，难度远超 MMLU 那种知识记忆测试，是真正考察推理能力的。Gemma 3 在这里的 20.8% 意味着”勉强能做”，89.2% 意味着”可以指望”。

Codeforces ELO 2150 是什么概念？Codeforces 上的顶级选手在 2100-2400 区间，属于”候补国家队”水平。Gemma 4 31B 已经进入这个区间，而 Gemma 3 27B 只有 110——几乎是随机猜测。

多模态上，MMMU Pro 76.9% 在图像推理上确立了优势。这个测试涵盖需要理解图表、科学图示、专业图像的题目，76.9% 意味着 Gemma 4 已经可以严肃地处理文档理解类任务。

跟 Qwen 3.5-27B 的对比很微妙——纯文本基准上两者几乎持平（GPQA 和 LiveCodeBench 上 Qwen 略高，MMMLU 多语言上 Gemma 略高），但 Arena AI 人类偏好评分（真人盲测）Gemma 4 31B 以 1452 胜出，比 Qwen 3.5-27B 的 1404 高出不少。真人觉得 Gemma 4 的回答质量更高。

平替哪些商业模型

这是很多企业最关心的问题：我现在用的 API，能换成 Gemma 4 吗？

坦白说，这没有简单的是非题答案，但可以给出比较明确的场景判断。

GPT-4o mini（OpenAI）：定价 $0.15/百万输入 token，$0.60/百万输出 token。主要用途是轻量级问答、摘要、分类。Gemma 4 E4B 的有效参数 4.5B，比 GPT-4o mini 的估计体量更小，但在自部署场景下边际推理成本为零。对于日均 token 消耗超过 3000 万的公司，自部署 Gemma 4 E4B 的硬件年摊销成本大概率低于 API 费用。对于日均消耗低于 500 万的，还是 API 更划算。

Claude Haiku 3.5（Anthropic）：定价 $0.80/百万输入，$4/百万输出。Haiku 3.5 是 Anthropic 家族里性价比最高的，指令遵循能力强，企业广泛用于客服和文档处理。Gemma 4 26B A4B（只激活 3.8B 参数，速度与小模型相当）在指令遵循和多模态理解上的基准成绩已经很接近 Claude Haiku 3.5 的水平，而且天然支持本地部署。如果场景涉及隐私数据或数据不出境要求，这个替代路径非常清晰。

Gemini 2.0 Flash（Google）：这是最有意思的对比，因为 Gemma 4 基于跟 Gemini 3 相同的研究成果。Gemini Flash 的优势是端到端 Google 生态集成和在线推理的稳定性，但 Gemma 4 在本地部署场景完全免费，而 Gemini Flash 的 API 按量计费。对于已经自建基础设施的企业，这是很简单的算术题。

需要说明的是：如果你的应用高度依赖工具调用的稳定性，目前社区的早期测试显示 Gemma 4 在复杂多步工具链上偶有不一致（相比 Claude 系列），这是工程上需要评估的风险点。（来源: BSWEN 工具调用对比报告, 2026-04-03）

对比国产开源模型

中国开源模型这两年在全球赶上来得非常快，直接面对面比较是必要的。

Qwen 3.5（阿里巴巴）：整体上跟 Gemma 4 互有胜负。Qwen 3.5 在多语言上是目前开源模型里的王者——250K 词汇表，支持 201 种语言，中文、阿拉伯文、泰文等亚非语言上的表现 Gemma 4 追不上。如果你的产品面向全球多语言用户，Qwen 3.5 仍然是首选。纯文本推理上两者旗鼓相当，Gemma 4 在多模态上领先一个身位。

DeepSeek V3 / R2：DeepSeek 的强项是数学推理的本地化部署。DeepSeek R2 Lite（16B）在 RTX 3090 上 AIME/AMC 测试里拿了 85%，Qwen 3.5 思考模式拿了 75%，Gemma 4 31B 的 89.2% 在更强硬件上更高。DeepSeek 的问题是上下文窗口只有 64K，对需要长文档处理的场景有明显限制。另外 DeepSeek 的许可证对商业场景有更多限制，Apache 2.0 这一点 Gemma 4 有绝对优势。

InternLM（上海 AI 实验室）：InternLM 3 系列在学术和科研场景有一批忠实用户，中文理解和科学推理上做得认真。但在多模态能力和工具调用标准化上，Gemma 4 的生态覆盖更广、社区集成更多。对于需要 Hugging Face 生态全兼容的企业，Gemma 4 更省心。

有一点值得单独说：中国开源模型面向中文场景的优化是真实的，不只是营销。如果核心业务场景是中文处理，Qwen 3.5 在中文理解和生成上的细腻程度确实比 Gemma 4 好一截。这是语料和优化方向的差异，不是谁做得差，而是各有侧重。

（来源: ai.rs 基准对比报告, 2026-04-03；Oflight 本地 LLM 指南, 2026-04-03）

企业应用场景：具体怎么落地

从收集到的案例和社区反馈来看，有几个场景最值得企业关注。

场景一：数据主权合规下的本地推理

金融、医疗、政务这些行业对数据出境有严格要求。用 GPT-4o 或 Claude 处理客户财务数据、患者病历，无论是 GDPR 还是国内的数据安全法，都会踩红线。Gemma 4 Apache 2.0 + 本地部署 = 数据不出机房，合规无忧。26B A4B MoE 版本在单张 A100 上就能流畅运行，31B 版本需要两张 A100 或一张 H100。对于已有 GPU 服务器的企业，边际成本几乎为零。

场景二：边缘设备与工业 IoT

Gemma 4 E2B 量化后只需约 4GB RAM，可以跑在树莓派 5、NVIDIA Jetson Orin Nano、以及中高端安卓手机上。具体案例：制造业现场的技术员带着平板，扫设备铭牌图片，本地 AI 根据维修手册给出诊断建议，全程不联网。这种场景之前要么用笨重的规则引擎，要么依赖不稳定的网络连接。Google 官方表示 E2B/E4B 的优化跟高通和联发科联合完成，为移动硬件专门调优。（来源: Susiloharjo Edge Deployment 报告, 2026-04-03）

场景三：企业知识库与文档理解

Gemma 4 原生支持 256K 上下文，结合 RAG 架构，一次可以处理几百页的技术文档或合同。MMMU Pro 76.9% 的多模态成绩意味着它能理解图表、表格截图、设计图稿，不只是读纯文本。一个典型流程：把公司内部 Wiki、产品文档、合同模板都塞进向量数据库，用 Gemma 4 26B A4B 做检索增强生成，员工用自然语言查询，回答引用具体文档位置。这套架构用 vLLM 或 Red Hat AI Inference Server 可以在企业内网稳定运行。（来源: Red Hat Developer, 2026-04-02）

场景四：24/7 智能体任务

Gemma 4 原生支持函数调用和结构化 JSON 输出，这是跑智能体工作流的基础。它的思维链（Chain-of-Thought）通过 <|think|> token 触发，在复杂任务上会先推理再给答案。对于需要持续运行的后台智能体——比如定时抓数据、处理事件流、调用内部 API——自部署 Gemma 4 的固定基础设施成本 vs 按量计费的 API 费用，在调用频次超过一定阈值后是完全不同的账单。没有 token 价格波动，没有服务限流，预算可控。

场景五：多模态内容审核

Gemma 4 支持图像 + 文本 + 视频帧的联合理解。内容平台、电商商品审核、社交媒体治理，这类场景每天要处理海量内容，按 API 计费的成本是天文数字。Gemma 4 E4B 在单张消费级 GPU 上的处理速度完全够用，而且多模态理解能力让它能同时判断图像内容和配套文字，比传统单模态分类器精准得多。

部署门槛与生态

这里有必要说实话，不是每家公司都应该自部署。

硬件要求（参考推荐配置）：

E2B/E4B：树莓派 5（4GB）、Jetson Orin Nano、或任意 8GB+ 内存的 CPU 机器（量化版）
26B A4B（MoE）：16-24GB 显存 GPU（单张 RTX 4090 或 A10G），Q4 量化后约 16GB
31B Dense：32-40GB 显存（两张 A100/H100，或单张 A100 80GB）

推理框架生态（Day 0 支持）：

Ollama：ollama run gemma4:27b，最简单，家用/开发场景
llama.cpp：GGUF 格式，CPU+GPU 混合推理，部署灵活
vLLM：生产级 GPU 推理，连续批处理，高吞吐
MLX：Apple Silicon 专用，TurboQuant 后显存降至 1/4
transformers.js：浏览器端 WebGPU，无需本地安装
Red Hat AI Inference Server：企业级 Kubernetes 部署方案

微调成本：TRL 支持全参数多模态微调，Vertex AI 提供冻结视觉塔的 SFT 例子（只微调语言部分），Unsloth Studio 有本地 UI 界面。微调 26B A4B 的现实门槛是 4×A100 起步，31B 需要更多；E4B 在单张 A100 上完全可行。如果只做 LoRA 适配，门槛会低很多。

一个对比：Claude Haiku 3.5 的 Fine-tuning API 定价是 $3/百万 token（训练）+ 每次推理多加一层成本。自部署 Gemma 4 微调一次的云 GPU 时间成本约 $50-$200（视数据量），之后推理免费。对于有固定场景的企业，账要自己算。

战略意义：Google 为什么这么做

有几层值得拆解。

第一层：对抗 Meta Llama 4。Meta 的 Llama 4 Scout 有 10M tokens 的超长上下文，在创意写作的人类偏好测试里排名很高。Llama 4 的问题是许可证——700 万月活上限，超过要付授权费。Gemma 4 Apache 2.0，不限月活，这是直接在授权层面掐 Meta 的咽喉。大公司用开源模型时，法律合规是决策的重要权重，Apache 2.0 让 Gemma 4 在企业采购审批里更顺畅。

第二层：反向保护 Gemini 商业版。乍看矛盾——发布免费开源模型，不是在抢自己的 Gemini 付费服务吗？不是的。Google 的逻辑是：Gemma 4 吸引开发者用 Google 的工具链（Vertex AI、Google AI Studio、Keras），跑模型产生的云计算费用仍然流向 Google Cloud。Gemma 是获客工具，Gemini API 是货币化工具。

第三层：重塑对 OpenAI 的竞争格局。OpenAI 的护城河之一是最强的封闭模型。Gemma 4 31B 已经在开源排行榜第三，与顶级闭源模型的差距在快速收窄。对于不需要最顶级能力、但对成本敏感的企业用户，开源路线的性价比窗口越来越宽。这会让 OpenAI 企业端的定价压力越来越大。

第四层：对中国开源模型的回应。Qwen 3.5 和 DeepSeek R2 的出现让全球开源模型的竞争烈度急剧上升。Google 不能只靠 Gemini 商业版，开源端也要有能打的旗手。Gemma 4 的发布时间点——比 Qwen 3.5 晚一个月，比 DeepSeek R2 晚两个月——不难理解为什么这次要拿出真家底。

（来源: VentureBeat, 2026-04-02；Towards AI, 2026-04-03）

结论：给企业决策者的建议

说清楚什么情况用，什么情况不用，比面面俱到的”综合来看”更有价值。

用 Gemma 4 的情况：

数据合规要求本地化处理（金融、医疗、政务）
日均 API 消耗超过 2000 万 token，已有或计划购置 GPU 服务器
需要边缘端或离线场景的多模态理解（E2B/E4B）
需要商业产品集成开源模型，Apache 2.0 比 Llama License 更简洁
主要语言是英文或非中文的欧洲语言

暂时不用 Gemma 4 的情况：

产品核心是中文精细化处理（Qwen 3.5 更优）
需要 10M+ token 的超长上下文（Llama 4 Scout 目前无对手）
团队没有 GPU 运维能力，用量也没到自部署的经济临界点
依赖高度稳定的多步工具链调用（Claude 系列工程成熟度更高）
需要内容安全深度定制（Anthropic 和 OpenAI 在安全层面的工程投入更多）

有一组数据可以帮助判断自部署的经济临界点：一台搭载 2×RTX 4090 的服务器，月租约 2000-3000 元（云端），可以稳定跑 Gemma 4 26B A4B。如果你现在每月 Claude Haiku API 账单超过这个数字，且场景不依赖 Anthropic 特有功能，自部署的 ROI 计算已经在正区间了。

Gemma 4 是 2026 年目前最好的开源多模态推理模型之一，Apache 2.0 这一步让它从”技术上可选”变成了”商业上可选”。但开源不等于免费——硬件、运维、工程人力都是成本。什么时候用，用哪个变体，取决于你的规模和场景，没有通用答案。

不过有一件事是确定的：商业 API 厂商的定价空间，正在被开源模型一点点压缩。

参考资料

Hugging Face Blog - Welcome Gemma 4. 2026-04-02. https://huggingface.co/blog/gemma4
Google DeepMind Blog - Gemma 4: Byte for byte, the most capable open models. 2026-04-02. https://deepmind.google/blog/gemma-4-byte-for-byte-the-most-capable-open-models/
VentureBeat - Google releases Gemma 4 under Apache 2.0, and that license change may matter more than the benchmarks. 2026-04-02. https://venturebeat.com/technology/google-releases-gemma-4-under-apache-2-0-and-that-license-change-may-matter
ai.rs - Gemma 4 vs Qwen 3.5 vs Llama 4: Updated Benchmarks (April 2026). 2026-04-03. https://ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared
Oflight - Gemma 4 vs Llama 4 vs Qwen 3.5 — 2026 Local LLM Guide. 2026-04-03. https://www.oflight.co.jp/en/columns/gemma4-vs-llama4-vs-qwen35-local-llm-comparison-2026
Red Hat Developer - Run Gemma 4 with Red Hat AI: Day 0 Step-by-Step Guide. 2026-04-02. https://developers.redhat.com/articles/2026/04/02/run-gemma-4-red-hat-ai-day-0-step-step-guide
BSWEN - Gemma 4 vs Qwen 35B: Tool Calling Comparison. 2026-04-03. https://docs.bswen.com/blog/2026-04-03-gemma-4-vs-qwen-35b-tool-calling
Towards AI - Google’s Gemma 4 Tied Qwen 3.5 on Benchmarks, Then Won on One Word: Apache. 2026-04-03. https://pub.towardsai.net/googles-gemma-4-tied-qwen-3-5-on-benchmarks-then-won-on-one-word-apache-e
Wavenetic Blog - Gemma 4 Enterprise AI. 2026-04-03. https://wavenetic.com/blog/gemma-4-enterprise-ai
Susiloharjo - Gemma 4 E2B: 2.3B Parameter AI for Edge Device Deployment. 2026-04-03. https://susiloharjo.web.id/gemma-4-e2b-2-3b-parameter-ai-for-edge-device-deployment/