精选· 重要性 4/5

Google DeepMind 发布 DiffusionGemma：本地 AI 运行速度提升 4 倍

Ars Technica — AI·大约 2 个月前·Ryan Whitwam·约 2 分钟阅读

中文导读

Google DeepMind 推出 DiffusionGemma，一种非自回归的开放权重模型，通过并行生成文本实现 4 倍速度提升，在本地硬件上高效运行。

又一天，谷歌又发布了一个 AI 模型。这次，Google DeepMind 推出了 Gemma 4 开放模型家族的新成员，但它与系列中其他模型有根本不同。DiffusionGemma 不像大多数 AI 模型那样线性生成输出，而是可以并行生成整个文本块。

谷歌表示，这使得它在本地硬件（如 Nvidia DGX 或普通的游戏 GPU）上运行时更快、更高效。大多数 AI 模型被设计为自回归——它们从左到右逐个 token 生成文本。

DiffusionGemma 与图像生成模型有更多共同点，后者从静态开始，然后通过去噪创建所需内容。该模型在画布上多次运行占位 token 字段，生成可能的 token，并用这些 token 改进对其他 token 的估计。

在过程结束时，模型在一个大块中最终确定其 token 输出——即“去噪”后的文本画布。DiffusionGemma 在谷歌的开放模型中相当大。它是一个混合专家（MoE）模型，总共有 260 亿参数，但推理时仅激活 38 亿。

这意味着它应该能适配高端 GPU 的 18GB 内存分配。在 RTX 5090 上测试时，DiffusionGemma 每秒输出约 700 个 token。

使用单个 Nvidia H100 AI 加速器，DiffusionGemma 每秒可产生 1000 多个 token。这大约是类似规模的自回归 Gemma 模型输出的四倍。

这种文本生成方法将瓶颈从内存带宽转移到算力，可并行生成多达 256 个 token。谷歌表示，这为内联编辑、分子测序和数学绘图等非线性任务带来了可衡量的提升。

上面的动画展示了 DiffusionGemma 如何被调优来解决数独谜题，这对标准自回归 AI 模型来说是一项众所周知的挑战性任务，因为每个 token 都依赖于未来的 token。DiffusionGemma 持续自我纠正大量 token 的能力使这变得更容易。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读