精选· 重要性 5/5

Gemma 4：迄今最强大的开放模型，专为推理与智能体设计

Google DeepMind Blog·4 个月前·约 8 分钟阅读

中文导读

Google DeepMind发布Gemma 4系列开放模型，涵盖2B至31B多种尺寸，在每参数智能、推理和智能体工作流上实现突破，支持多模态和长上下文，采用Apache 2.0许可。

Gemma 4：字节换字节，最强大的开放模型今天，我们推出Gemma 4——迄今为止最智能的开放模型。Gemma 4专为高级推理和智能体工作流而设计，提供了前所未有的每参数智能水平。

这一突破建立在令人难以置信的社区势头之上：自第一代推出以来，开发者已下载Gemma超过4亿次，构建了一个包含超过10万个变体的充满活力的Gemmaverse。

我们密切关注创新者下一步需要什么来突破AI的界限，Gemma 4就是我们的答案：在Apache 2.0许可下广泛提供突破性功能。截至4月1日，Arena.ai的聊天竞技场中开放模型的性能与尺寸对比。

Gemma 4采用与Gemini 3相同的世界一流研究和技术构建，是您可以在硬件上运行的最强大的模型系列。它们补充了我们的Gemini模型，为开发者提供了业界最强大的开放和专有工具组合。

行业领先的能力与移动优先AI我们推出了四种通用尺寸的Gemma 4：Effective 2B（E2B）、Effective 4B（E4B）、26B混合专家（MoE）和31B密集模型。整个系列超越了简单聊天，转而处理复杂逻辑和智能体工作流。

我们的较大模型在其尺寸上提供了最先进的性能，其中31B模型目前在行业标准Arena AI文本排行榜上排名全球第三的开放模型，而26B模型则稳居第六位。在那里，Gemma 4的竞争力超过了20倍大小的模型。

对于开发者来说，这种新的每参数智能级别意味着以显著更少的硬件开销实现前沿级别的功能。在边缘，我们的E2B和E4B模型重新定义了设备上的实用性，优先考虑多模态能力、低延迟处理和无缝生态系统集成，而非原始参数数量。

强大、易用、开放为了支持下一代开创性研究和产品，我们专门调整了Gemma 4模型的尺寸，以便在硬件上高效运行和微调——从全球数十亿台Android设备到笔记本电脑GPU，一直到开发者工作站和加速器。

通过使用这些高度优化的模型，您可以微调Gemma 4，以在特定任务中实现最先进的性能。我们已经看到这种方法取得了令人难以置信的成功；

例如，INSAIT创建了一个开创性的保加利亚第一语言模型（BgGPT），并且我们与耶鲁大学在Cell2Sentence-Scale上合作，寻找癌症治疗的新途径等。

以下是Gemma 4成为迄今为止最强大的开放模型家族的原因：- 高级推理：Gemma 4能够进行多步规划和深度逻辑，在所需的数学和指令遵循基准方面取得了显著改进。

- 智能体工作流：原生支持函数调用、结构化JSON输出和系统指令，使您能够构建能够与不同工具和API交互并可靠执行工作流的自主智能体。- 代码生成：Gemma 4支持高质量离线代码，将您的工作站变成本地优先的AI代码助手。

- 视觉和音频：所有模型原生处理视频和图像，支持可变分辨率，并擅长OCR和图表理解等视觉任务。此外，E2B和E4B模型具有原生音频输入，用于语音识别和理解。- 更长上下文：无缝处理长篇幅内容。

边缘模型具有128K上下文窗口，而较大模型提供高达256K，允许您在单个提示中传递代码库或长文档。- 140多种语言：Gemma 4原生训练了140多种语言，帮助开发者构建面向全球受众的包容性高性能应用。

适用于多样化硬件的多功能模型我们发布了针对特定硬件和用例量身定制的Gemma 4模型权重，确保您随时随地获得前沿级推理：26B和31B模型：前沿智能，离线运行于个人电脑我们的未量化bfloat16权重经过优化，可为研究人员和开发者在可访问硬件上提供最先进的推理能力，

可高效适配单个80GB NVIDIA H100 GPU。对于本地设置，量化版本在消费级GPU上原生运行，以支持您的IDE、编码助手和智能体工作流。我们的26B混合专家（MoE）模型专注于延迟，推理时仅激活38亿总参数，从而提供极快的每秒令牌数；

而31B密集模型则最大化原始质量，并为微调提供了强大基础。这些模型根据大量不同的数据集和指标进行了评估，以涵盖文本生成的不同方面。请参阅我们的模型卡中的其他基准。

E2B和E4B模型：移动和物联网设备智能化的新水平这些模型从头设计，以实现最大的计算和内存效率，推理时激活20亿和40亿的有效参数足迹，以节省RAM和电池寿命。

通过与我们的Google Pixel团队以及高通科技和联发科等移动硬件领导者的密切合作，这些多模态模型在手机、Raspberry Pi和NVIDIA Jetson Orin Nano等边缘设备上完全离线运行，延迟接近零。

Android开发者现在可以在今天的AICore开发者预览版中对智能体流程进行原型设计，以便与Gemini Nano 4向前兼容。开源许可您给了我们反馈，我们听取了。构建AI的未来需要协作方法，我们相信在没有限制性障碍的情况下为开发者生态系统赋能。

这就是为什么Gemma 4在商业许可的Apache 2.0下发布。该开源许可为开发者完全的灵活性和数字主权提供了基础；授予您对数据、基础设施和模型的完全控制权。它允许您在任何环境中自由构建和安全部署，无论是本地还是云端。

建立在信任和安全的基础上这些模型遵循与我们的专有模型相同严格的基础设施安全协议。通过选择Gemma 4，企业和主权组织获得了一个值得信赖、透明的基础，可以提供最先进的能力，同时满足安全性和可靠性的最高标准。

选择的生态系统- 几秒钟内开始实验：立即访问Gemma 4并开始构建。

在Google AI Studio（31B和26B MoE）或Google AI Edge Gallery（E4B和E2B）中探索Gemma 4。

对于Android开发，请使用它来支持Android Studio中的智能体模式，并开始使用ML Kit GenAI Prompt API在Android上构建生产应用。

- 使用您最喜欢的工具：第一天支持Hugging Face（Transformers、TRL、Transformers.js、Candle）、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、

Unsloth、SGLang、Cactus、Baseten、Docker、MaxText、Tunix、Keras，您可以灵活选择最适合项目的工具。- 下载模型：从Hugging Face、Kaggle或Ollama获取模型权重。

- 根据您的特定需求定制Gemma 4：使用您喜欢的平台（如Google Colab、Vertex AI甚至您的游戏GPU）训练和调整模型。- 在Google Cloud上扩展至生产：虽然本地设备推理非常适合离线使用，但Google Cloud消除了所有计算上限。

通过Vertex AI、Cloud Run、GKE、Sovereign Cloud、TPU加速服务以及对受监管工作负载的最高合规性保证进行部署。在此处了解有关开始使用Google Cloud的更多信息。

- 在多个硬件平台上加速AI开发：Gemma 4针对行业领先的开箱即用硬件进行了优化。从NVIDIA Jetson Orin Nano到Blackwell GPU，在NVIDIA AI基础设施上体验最高性能。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读