深化与英国AI安全研究所的合作

Google DeepMind Blog·8 个月前·约 5 分钟阅读

深化与英国人工智能安全研究所的合作伙伴关系今天，我们宣布通过一份新的谅解备忘录扩大与英国人工智能安全研究所（AISI）的合作伙伴关系，重点关注基础安全和安全研究，以帮助确保人工智能的安全开发并使每个人受益。

与AISI的研究合作伙伴关系是我们与英国政府在加速安全和有益的人工智能进步方面更广泛合作的重要组成部分。建立在合作的基础上人工智能具有巨大的潜力，通过帮助治疗疾病，加速科学发现，创造经济繁荣和应对气候变化来造福人类。

为了实现这些效益，我们必须将安全和责任置于发展的核心。针对广泛的潜在风险评估我们的模型仍然是我们安全战略的重要组成部分，外部合作伙伴关系是这项工作的重要组成部分。这就是为什么我们自2023年11月成立以来一直与英国AISI合作，测试我们最强大的模型。

我们坚定地致力于英国AISI的目标，即让政府、行业和更广泛的社会对先进人工智能构成的潜在风险以及潜在的解决方案和缓解措施有科学的了解。

我们正在积极与AISI合作，为人工智能模型建立更稳健的评估，我们的团队在安全研究方面进行了合作，以推动该领域的发展，包括最近的关于思想链的协调性：人工智能安全的新而脆弱的机会的工作。

在这一成功的基础上，今天我们正在扩大我们的合作伙伴关系，从测试扩展到各个领域更广泛、更基础的研究。

合作伙伴关系涉及什么在这种新的研究合作伙伴关系下，我们正在扩大合作范围，包括：- 共享对我们专有模型、数据和想法的访问权限，以加速研究进展- 与研究界分享研究结果的联合报告和出版物- 结合我们团队的专业知识，

开展更多的协作性安全研究- 应对复杂安全挑战的技术讨论重点研究领域我们与AISI的联合研究重点关注关键领域，

Google DeepMind的专业知识、跨学科团队和多年的开创性负责任研究可以帮助使人工智能系统更加安全可靠：监控AI推理过程我们将研究监控人工智能系统“思维”（通常也称为其思维链（CoT））的技术。

这项工作也基于之前的Google DeepMind研究，以及我们最近与AISI、OpenAI、Anthropic和其他合作伙伴就该主题进行的合作。CoT监控帮助我们了解人工智能系统如何产生答案，补充可解释性研究。

理解社会和情感影响我们将共同努力调查社会情感失调的道德影响;也就是说，人工智能模型的行为方式与人类福祉不一致的可能性，即使它们在技术上正确遵循了指令。这项研究将建立在现有的Google DeepMind工作的基础上，这些工作帮助定义了人工智能安全的这一关键领域。

评估经济体系我们将通过模拟不同环境中的现实世界任务来探索人工智能对经济系统的潜在影响。专家将对这些任务进行评分和验证，然后根据复杂性或代表性等维度对它们进行分类，以帮助预测长期劳动力市场影响等因素。

共同努力实现人工智能的好处我们与AISI的合作是我们实现人工智能为人类带来好处同时减轻潜在风险的一个要素。我们更广泛的战略包括前瞻性研究、与能力开发齐头并进的广泛安全培训、对我们的模型进行严格测试，以及开发更好的工具和框架来了解和减轻风险。

强大的内部治理流程对于安全和负责任的人工智能开发也至关重要，与独立外部专家合作也是如此，他们为我们的工作带来了新鲜的观点和多样化的专业知识。

Google DeepMind的责任与安全委员会跨团队合作，监控新出现的风险，审查道德和安全评估，并实施相关的技术和政策缓解措施。

我们还与Apollo Research、Vaultis、Dreadnote等其他外部专家合作，对我们的模型进行广泛的测试和评估，包括迄今为止最智能、最安全的模型Gemini 3。

此外，Google DeepMind是Frontier Model Forum和Partnership on AI的创始成员，我们专注于确保前沿AI模型的安全和负责任的开发，并加强在重要安全问题上的合作。

我们希望与AISI扩大合作伙伴关系将使我们能够建立更强大的人工智能安全方法，不仅造福于我们自己的组织，也造福于更广泛的行业和与人工智能系统互动的每个人。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读