AI 见闻

改进的Gemini音频模型,提供强大的语音体验

Google DeepMind Blog··约 6 分钟阅读

改进的Gemini音频模型,实现强大的语音交互本周早些时候,我们推出了更大的控制音频生成升级到我们的双子座2。5 Pro和Flash文本到语音模型。但产生富有表达力的言语只是对话的一个方面。今天,我们发布了更新的双子座2。

5适用于实时语音代理的Flash原生音频。此更新提高了模型处理复杂工作流程、导航用户指令和进行自然对话的能力。双子座2。

5 Flash Native音频现已在Google AI Studio、Vertex AI等Google产品中提供,并且已开始在Gemini Live和Search Live中推出,首次将原生音频的自然性带入Search Live。

这意味着您可以更有效地与Gemini一起进行头脑风暴、在Search Live中获得实时帮助,或者构建下一代企业级客户服务代理。除了为有用的代理提供动力之外,原生音频还为全球通信打开了新的可能性。

我们正在引入实时语音翻译,这是一种支持耳机流语音到语音翻译的功能。它保留了说话者的语调、节奏和音调。这种测试版体验将从今天开始在Google Translate应用程序中推出。现场语音代理为了实现跨表面和产品的广泛用例,我们改进了Gemini 2。

5三个关键领域的原生音频:- 更清晰的功能调用:我们提高了模型触发外部功能时的可靠性。现在,它可以更准确地识别何时在对话期间获取实时信息,并将该数据无缝织回音频响应中,而不会中断流程。

在ComplexFuncBench音频(一个捕获具有各种约束的多步函数调用的eval)上,Gemini 2。5 Native Audio领先,评分为71。5%。- 稳健的指令遵循:该模型现在更擅长处理复杂的指令,从而提高用户对内容完整性的满意度。

开发人员指令的遵守率为90%(高于84%),因此提供更可靠的输出。- 更流畅的对话:我们在多轮对话质量方面取得了显着提高。双子座2。5 Flash Native Audio能够更有效地从前几个回合中检索上下文,创建更有凝聚力的对话。

更新后的双子座2。5 Flash Native音频在ComplexFuncBench上相对于之前版本和行业竞争对手的性能顾客在说什么Google Cloud客户已经在使用Gemini的原生音频功能来推动真正的业务成果,从抵押贷款处理到客户电话。

- “用户经常在使用Sidekick后一分钟内忘记他们正在与人工智能交谈,在某些情况下,在长时间交谈后会感谢机器人.通过Gemini提供的新Live API人工智能功能[2.

5 Flash Native音频]让我们的商户能够获胜。”- David Wurtz,Shopify产品副总裁- “通过整合双子座2号。5 Flash原生音频模型.自2025年5月推出以来,我们显着增强了Mia的功能。

这种强大的组合使我们能够为我们的经纪合作伙伴产生超过14,000笔贷款。”- Jason Bressler,联合批发抵押贷款(UWM)首席技术官- “与双子座2合作。5通过Vertex AI的Flash Native音频模型允许Newo。

ai AI接待员实现无与伦比的对话智能。. . .即使在嘈杂的环境中,它们也可以识别主要说话者,在对话中切换语言,并且听起来非常自然和富有情感表达力。”- David Yang,Newo联合创始人。

AI现场演讲翻译Gemini现在原生支持新的实时语音到语音翻译功能,旨在处理连续收听和双向对话。通过持续聆听,Gemini会自动将多种语言的语音翻译成单一目标语言。这允许您戴上耳机,用您的语言聆听周围的世界。

对于双向对话,Gemini的实时语音翻译可以实时处理两种语言之间的翻译,并根据说话者自动切换输出语言。

例如,如果您说英语并想与印地语使用者聊天,您会在耳机中实时听到英语翻译,而当您说完后,您的手机会广播印地语。

Gemini的现场语音翻译具有许多关键功能,可以在现实世界中提供帮助:- 语言覆盖范围:通过将Gemini模型的世界知识和多语言能力与其原生音频能力相结合,翻译70多种语言和2000种语言对的语音- 风格转换:捕捉人类言语的细微差别,保留说话者的语调、节奏和音调,

使翻译听起来自然。- 多语言输入:在单个会话中同时理解多种语言,帮助您了解多语言对话,而无需摆弄语言设置。- 自动检测:初始化口语并开始翻译,因此您甚至不需要知道正在使用什么语言即可开始翻译。

- 噪音稳健性:过滤环境噪音,以便您即使在喧闹的户外环境中也可以舒适地交谈。从今天开始,您可以在Google Translate应用程序中尝试新的测试版体验,通过将耳机连接到您的设备并点击“实时翻译”,即可在耳机中进行实时翻译。

“这种体验正在美国、墨西哥和印度的所有Android设备上推广,很快就会支持iOS和更多地区。

根据反馈,我们将继续推广这一体验,并在2026年将其推广到包括Gemini API在内的更多Google产品中。今天开始现在就开始使用Gemini 2构建语音代理。5 Flash原生音频,现在在Vertex AI上普遍可用,并在Gemini API中预览。

在Google AI Studio中尝试一下。双子座2。5 Flash和2。5 Pro文本转语音模型还可以通过Google AI Studio中的Gemini API提供。开始使用语音生成文档、探索提示指南或查看Gemini API Cookbook即可开始使用。

原文出处
Improved Gemini audio models for powerful voice experiences

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。