谷歌发布Gemma 4 12B:无编码器多模态模型,可在笔记本本地运行
谷歌推出Gemma 4 12B,一款无编码器架构的多模态模型,性能接近26B MoE模型,但内存占用减半,可在16GB内存笔记本上本地运行,支持原生音频输入,推动端侧智能体应用。
介绍Gemma 4 12B:统一、无编码器的多模态模型今天,我们推出Gemma 4 12B,这是我们的最新模型,旨在将智能体多模态智能直接带到笔记本电脑中。
Gemma 4 12B 缩小了我们的边缘友好型 E4B 和更先进的 26B 专家混合(MoE)之间的差距,在更小的内存占用空间内封装了强大的功能。它也是我们第一款具有原生音频输入的中型模型。得益于开发者社区,Gemma 4 模型的下载量现已突破 1.5 亿次。
您已经构建了从用于物理辅助的可穿戴机械臂到企业级 AI 安全等各类应用。我们很高兴看到您用这个最新版本构建什么。以下是 Gemma 4 12B 独特之处的概述:- 新颖的统一架构:没有多模态编码器。
视觉和音频输入直接流入 LLM 主干网络。- 高级推理:基准性能接近我们的 26B 模型,释放强大的多步骤推理和智能体工作流程。- 笔记本电脑就绪:小到可以在本地运行,只需 16GB VRAM 或统一内存。
- 开放且易于访问:在 Apache 2.0 许可下发布,支持整个开发者生态系统。- 准备起草:Gemma 4 12B 配备了多令牌预测(MTP)起草器,以减少延迟。这些功能共同为日常硬件带来了先进的多模态能力,而不会牺牲速度或推理。
现在让我们仔细看看 Gemma 4 12B 如何实现这一目标。
在本地运行最先进的智能体Gemma 4 12B 在标准基准测试中的性能接近我们更大的 26B MoE 模型,但总内存占用不到一半。它足够小,可以在具有 16GB RAM 的消费级笔记本电脑上本地运行,从而在您的机器上解锁强大的多模态和智能体体验。
体验独特高效、统一的架构Gemma 4 12B 的突出之处在于其处理视觉和音频输入的简化方法。传统的多模态模型通常依赖于单独的编码器来翻译图像和音频,然后将这些表示传递给语言模型。
由于这些分离的编码器增加了延迟并增加了内存使用,我们使用无编码器架构训练了 Gemma 4 12B,以直接集成音频和视觉输入。
以下是 Gemma 4 12B 如何原生处理多模态输入:- 视觉:我们用轻量级嵌入模块取代了 Gemma 4 的视觉编码器,该模块由单个矩阵乘法、位置嵌入和归一化组成。这使得 LLM 主干网络能够接管视觉处理。
- 音频:我们进一步简化了音频处理。我们完全移除了音频编码器,并将原始音频信号投影到与文本令牌相同的维度空间。对于想要详细了解的开发人员,请参阅我们的配套 Gemma 4 12B 开发者指南。
今天开始- 自己尝试:在 LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 中点击几下即可体验。
- 下载权重:直接从 Hugging Face 和 Kaggle 下载预训练和指令微调的检查点。- 集成与学习:查看开发者文档和快速入门笔记本。
- 使用您最喜欢的开发工具:使用 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理管道,或使用 Unsloth 进行高效微调。
- 利用 Gemma Skills 进行智能体开发:为了支持开发者使用最新的 Gemma 进展构建智能体,我们正在发布官方技能库。这是一个专门设计的技能库,旨在使智能体能够使用 Gemma 模型进行构建。
- 以您的方式部署:使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 进行部署。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。