AI 见闻
精选· 重要性 4/5

谷歌开源扩散模型 DiffusionGemma,推理速度超500 token/秒

Simon Willison's Weblog··约 1 分钟阅读
中文导读

谷歌去年短暂发布的实验性扩散模型 Gemini Diffusion 以开源形式回归,新模型 DiffusionGemma 采用 Apache 2 许可,在 NVIDIA NIM 云 API 上免费托管,推理速度超过 500 token/秒。

2026年6月10日-链接博客扩散Gemma(via)去年五月,谷歌短暂发布了实验性的Gemini扩散模型。我当时尝试了预览,并记录了它以857个代币/秒的速度运行。这是一个令人兴奋的模型,但谷歌没有进一步宣布它。

这项研究已经以最好的方式回归:作为新的开重量(Apache 2许可)Gemma模型,google/diffusiongemma-26 B-A4 B-it。NVIDIA目前正在其NIM云API上免费托管该模型。

我使用该API来生成这个鹈鹕,这需要4.4秒(根据uv运行时间generate.py)返回2,409个代币-因此每秒至少500个代币。

最近的文章- 克劳德寓言的初步印象2026年6月5日至9日- 使用MicroPython和WASM在沙箱中运行Python代码-2026年6月6日- Claude Opus 4.8:“适度但切实的改进”-2026年5月28日

原文出处
DiffusionGemma

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读