Gemma Scope 2：助力AI安全社区深入理解复杂语言模型行为

Google DeepMind Blog·7 个月前·约 4 分钟阅读

Gemma范围2：帮助人工智能安全社区加深对复杂语言模型行为的理解宣布一套新的开放语言模型可解释性工具大型语言模型（LLM）能够做出令人难以置信的推理壮举，但其内部决策过程在很大程度上仍然不透明。

如果系统的行为不按预期，则缺乏对其内部工作的可见性可能会导致很难确定其行为的确切原因。去年，我们利用Gemma Scope推进了可解释性科学，这是一个工具包，旨在帮助研究人员了解Gemma 2（我们的轻量级开放模型集合）的内部工作原理。

今天，我们发布了Gemma Scope 2：一套全面的开放性解释工具，适用于所有Gemma 3型号尺寸（从270 M到27B参数）。这些工具可以使我们能够追踪模型整个“大脑”的潜在风险。据我们所知，这是迄今为止人工智能实验室最大规模的可解释性工具开源版本。

制作Gemma Scope 2涉及存储大约110 PB的数据，以及训练超过1万亿个总参数。

随着人工智能的不断发展，我们期待人工智能研究界使用Gemma Scope 2调试紧急模型行为，使用这些工具更好地审计和调试人工智能代理，并最终加速开发针对越狱、幻觉和谄媚等问题的实用且强大的安全干预措施。

我们的交互式Gemma Scope 2演示可供尝试，由Neuronpedia提供。Gemma Scope 2的新功能可解释性研究旨在了解人工智能模型的内部工作原理和学习算法。随着人工智能变得越来越强大和复杂，可解释性对于构建安全可靠的人工智能至关重要。

与其前身一样，Gemma Scope 2充当Gemma语言模型家族的显微镜。通过结合稀疏自动编码器（SAEs）和代码转换器，它允许研究人员查看模型内部，了解他们在想什么，以及这些想法是如何形成的并与模型的行为相关联。

反过来，这使得对越狱或其他与安全相关的人工智能行为进行更丰富的研究，例如模型的沟通推理与其内部状态之间的差异。

虽然最初的Gemma Scope支持关键安全领域的研究，例如模型幻觉、识别模型已知的秘密以及训练更安全的模型，但Gemma Scope 2通过重大升级支持更雄心勃勃的研究：- 大规模全面覆盖：我们为整个Gemma 3家族提供了一整套工具（最多27 B参数），

对于研究仅以规模出现的紧急行为至关重要，例如之前由27 B大小的C2 S Scale模型发现的行为，该模型帮助发现了一种新的潜在癌症治疗途径。

尽管Gemma Scope 2没有在此模型上进行训练，但这是这些工具可能能够理解的紧急行为的一个例子。- 更完善的工具来破译复杂的内部行为：Gemma Scope 2包括对Gemma 3模型系列的每一层进行培训的严重不良事件和代码转换器。

跳过代码转换器和跨层代码转换器使破译遍布整个模型的多步计算和算法变得更容易。- 先进的训练技术：我们使用最先进的技术，特别是Matryoshka训练技术，它可以帮助SAEs检测更有用的概念并解决Gemma Scope中发现的某些缺陷。

- Chatbot行为分析工具：我们还针对针对聊天用例调整的Gemma 3版本提供解释性工具。这些工具能够分析复杂的多步骤行为，例如越狱、拒绝机制和思想链忠诚度。

推进该领域通过发布Gemma Scope 2，我们的目标是使人工智能安全研究界能够使用一套尖端的可解释性工具推动该领域的发展。这种新的访问水平对于解决仅在更大的现代LLM中出现的现实世界的安全问题至关重要。

了解有关Gemma Scope的更多信息

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读