改进的Gemini音频模型，赋能强大语音交互体验

Google DeepMind Blog·8 个月前·约 6 分钟阅读

改进的Gemini音频模型，实现强大的语音交互本周早些时候，我们推出了更大的控制音频生成升级到我们的双子座2。5 Pro和Flash文本到语音模型。但产生富有表达力的言语只是对话的一个方面。今天，我们发布了更新的双子座2。

5适用于实时语音代理的Flash原生音频。此更新提高了模型处理复杂工作流程、导航用户指令和进行自然对话的能力。双子座2。

5 Flash Native音频现已在Google AI Studio、Vertex AI等Google产品中提供，并且已开始在Gemini Live和Search Live中推出，首次将原生音频的自然性带入Search Live。

这意味着您可以更有效地与Gemini一起进行头脑风暴、在Search Live中获得实时帮助，或者构建下一代企业级客户服务代理。除了为有用的代理提供动力之外，原生音频还为全球通信打开了新的可能性。

我们正在引入实时语音翻译，这是一种支持耳机流语音到语音翻译的功能。它保留了说话者的语调、节奏和音调。这种测试版体验将从今天开始在Google Translate应用程序中推出。现场语音代理为了实现跨表面和产品的广泛用例，我们改进了Gemini 2。

5三个关键领域的原生音频：- 更清晰的功能调用：我们提高了模型触发外部功能时的可靠性。现在，它可以更准确地识别何时在对话期间获取实时信息，并将该数据无缝织回音频响应中，而不会中断流程。

在ComplexFuncBench音频（一个捕获具有各种约束的多步函数调用的eval）上，Gemini 2。5 Native Audio领先，评分为71。5%。- 稳健的指令遵循：该模型现在更擅长处理复杂的指令，从而提高用户对内容完整性的满意度。

开发人员指令的遵守率为90%（高于84%），因此提供更可靠的输出。- 更流畅的对话：我们在多轮对话质量方面取得了显着提高。双子座2。5 Flash Native Audio能够更有效地从前几个回合中检索上下文，创建更有凝聚力的对话。

更新后的双子座2。5 Flash Native音频在ComplexFuncBench上相对于之前版本和行业竞争对手的性能顾客在说什么Google Cloud客户已经在使用Gemini的原生音频功能来推动真正的业务成果，从抵押贷款处理到客户电话。

- “用户经常在使用Sidekick后一分钟内忘记他们正在与人工智能交谈，在某些情况下，在长时间交谈后会感谢机器人.通过Gemini提供的新Live API人工智能功能[2.

5 Flash Native音频]让我们的商户能够获胜。”- David Wurtz，Shopify产品副总裁- “通过整合双子座2号。5 Flash原生音频模型.自2025年5月推出以来，我们显着增强了Mia的功能。

这种强大的组合使我们能够为我们的经纪合作伙伴产生超过14，000笔贷款。”- Jason Bressler，联合批发抵押贷款（UWM）首席技术官- “与双子座2合作。5通过Vertex AI的Flash Native音频模型允许Newo。

ai AI接待员实现无与伦比的对话智能。. . .即使在嘈杂的环境中，它们也可以识别主要说话者，在对话中切换语言，并且听起来非常自然和富有情感表达力。”- David Yang，Newo联合创始人。

AI现场演讲翻译Gemini现在原生支持新的实时语音到语音翻译功能，旨在处理连续收听和双向对话。通过持续聆听，Gemini会自动将多种语言的语音翻译成单一目标语言。这允许您戴上耳机，用您的语言聆听周围的世界。

对于双向对话，Gemini的实时语音翻译可以实时处理两种语言之间的翻译，并根据说话者自动切换输出语言。

例如，如果您说英语并想与印地语使用者聊天，您会在耳机中实时听到英语翻译，而当您说完后，您的手机会广播印地语。

Gemini的现场语音翻译具有许多关键功能，可以在现实世界中提供帮助：- 语言覆盖范围：通过将Gemini模型的世界知识和多语言能力与其原生音频能力相结合，翻译70多种语言和2000种语言对的语音- 风格转换：捕捉人类言语的细微差别，保留说话者的语调、节奏和音调，

使翻译听起来自然。- 多语言输入：在单个会话中同时理解多种语言，帮助您了解多语言对话，而无需摆弄语言设置。- 自动检测：初始化口语并开始翻译，因此您甚至不需要知道正在使用什么语言即可开始翻译。

- 噪音稳健性：过滤环境噪音，以便您即使在喧闹的户外环境中也可以舒适地交谈。从今天开始，您可以在Google Translate应用程序中尝试新的测试版体验，通过将耳机连接到您的设备并点击“实时翻译”，即可在耳机中进行实时翻译。

“这种体验正在美国、墨西哥和印度的所有Android设备上推广，很快就会支持iOS和更多地区。

根据反馈，我们将继续推广这一体验，并在2026年将其推广到包括Gemini API在内的更多Google产品中。今天开始现在就开始使用Gemini 2构建语音代理。5 Flash原生音频，现在在Vertex AI上普遍可用，并在Gemini API中预览。

在Google AI Studio中尝试一下。双子座2。5 Flash和2。5 Pro文本转语音模型还可以通过Google AI Studio中的Gemini API提供。开始使用语音生成文档、探索提示指南或查看Gemini API Cookbook即可开始使用。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读