精选· 重要性 4/5

谷歌发布Gemma 4 12B：无编码器多模态模型，可在笔记本本地运行

Google DeepMind Blog·大约 2 个月前·约 4 分钟阅读

中文导读

谷歌推出Gemma 4 12B，一款无编码器架构的多模态模型，性能接近26B MoE模型，但内存占用减半，可在16GB内存笔记本上本地运行，支持原生音频输入，推动端侧智能体应用。

介绍Gemma 4 12B：统一、无编码器的多模态模型今天，我们推出Gemma 4 12B，这是我们的最新模型，旨在将智能体多模态智能直接带到笔记本电脑中。

Gemma 4 12B 缩小了我们的边缘友好型 E4B 和更先进的 26B 专家混合（MoE）之间的差距，在更小的内存占用空间内封装了强大的功能。它也是我们第一款具有原生音频输入的中型模型。得益于开发者社区，Gemma 4 模型的下载量现已突破 1.5 亿次。

您已经构建了从用于物理辅助的可穿戴机械臂到企业级 AI 安全等各类应用。我们很高兴看到您用这个最新版本构建什么。以下是 Gemma 4 12B 独特之处的概述：- 新颖的统一架构：没有多模态编码器。

视觉和音频输入直接流入 LLM 主干网络。- 高级推理：基准性能接近我们的 26B 模型，释放强大的多步骤推理和智能体工作流程。- 笔记本电脑就绪：小到可以在本地运行，只需 16GB VRAM 或统一内存。

- 开放且易于访问：在 Apache 2.0 许可下发布，支持整个开发者生态系统。- 准备起草：Gemma 4 12B 配备了多令牌预测（MTP）起草器，以减少延迟。这些功能共同为日常硬件带来了先进的多模态能力，而不会牺牲速度或推理。

现在让我们仔细看看 Gemma 4 12B 如何实现这一目标。

在本地运行最先进的智能体Gemma 4 12B 在标准基准测试中的性能接近我们更大的 26B MoE 模型，但总内存占用不到一半。它足够小，可以在具有 16GB RAM 的消费级笔记本电脑上本地运行，从而在您的机器上解锁强大的多模态和智能体体验。

体验独特高效、统一的架构Gemma 4 12B 的突出之处在于其处理视觉和音频输入的简化方法。传统的多模态模型通常依赖于单独的编码器来翻译图像和音频，然后将这些表示传递给语言模型。

由于这些分离的编码器增加了延迟并增加了内存使用，我们使用无编码器架构训练了 Gemma 4 12B，以直接集成音频和视觉输入。

以下是 Gemma 4 12B 如何原生处理多模态输入：- 视觉：我们用轻量级嵌入模块取代了 Gemma 4 的视觉编码器，该模块由单个矩阵乘法、位置嵌入和归一化组成。这使得 LLM 主干网络能够接管视觉处理。

- 音频：我们进一步简化了音频处理。我们完全移除了音频编码器，并将原始音频信号投影到与文本令牌相同的维度空间。对于想要详细了解的开发人员，请参阅我们的配套 Gemma 4 12B 开发者指南。

今天开始- 自己尝试：在 LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 中点击几下即可体验。

- 下载权重：直接从 Hugging Face 和 Kaggle 下载预训练和指令微调的检查点。- 集成与学习：查看开发者文档和快速入门笔记本。

- 使用您最喜欢的开发工具：使用 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理管道，或使用 Unsloth 进行高效微调。

- 利用 Gemma Skills 进行智能体开发：为了支持开发者使用最新的 Gemma 进展构建智能体，我们正在发布官方技能库。这是一个专门设计的技能库，旨在使智能体能够使用 Gemma 模型进行构建。

- 以您的方式部署：使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 进行部署。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读