Google DeepMind发布了DistusionGemma,这是一种运行本地AI速度快4倍的模型
另一天,谷歌的另一个人工智能模型。这次,Google DeepMind发布了Gemma 4开放模型家族的新成员,但与其他阵容有根本不同。扩散Gemma不会像大多数人工智能模型那样线性生成输出。
相反,它可以并行生成整个文本块。谷歌表示,这使得它在Nvidia DGX或不起眼的游戏图形处理器等本地硬件上运行时更快、更高效。大多数人工智能模型都被设计为自回归--它们每次从左到右生成一个令牌的文本。
扩散Gemma与图像生成模型有更多共同点,这些模型从静态开始,然后对其进行降噪以创建所需的内容。该模型采用在画布上运行多次的占位符令牌字段来生成可能的令牌,并使用这些令牌来改进对其他令牌的估计。
在该过程结束时,该模型在一个大块(“去噪”文本画布)中最终确定其代币输出。DiscusionGemma在Google开放模型领域相当大。这是一个专家混合(MoE)模型,共有260亿个参数,但只有3个。
推理期间激活了80亿。这意味着它应该适合高端图形处理器的18 GB内存分配。在使用RTX 5090进行测试时,扩散Gemma每秒喷出约700个代币。通过单个Nvidia H100 AI加速器,扩散Gemma每秒可以产生1,000多个代币。
这大约是类似规模的自回归Gemma模型输出的四倍。
这种文本生成方法将瓶颈从内存带宽转移到计算,并行生成多达256个令牌。谷歌表示,这为在线编辑、分子测序和数学绘图等非线性任务提供了可衡量的推动。
上面的动画展示了如何调整扩散Gemma来解决数独谜题,这对于标准的自回归人工智能模型来说是一项众所周知的具有挑战性的任务,因为每个代币都取决于未来的代币。DiscusionGemma连续自我纠正大量代币的能力使这一点变得更容易。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。