精选· 重要性 4/5

GPT-2：2019年因太危险而延迟发布的模型

Hacker News (AI)·大约 2 个月前·AbuAssar·约 4 分钟阅读

社区热度 284 分

中文导读

2019年OpenAI认为GPT-2过于危险而仅发布小模型，九个月后最终公开完整版，这一事件开启了AI安全与负责任发布的讨论。

GPT-2：发布太危险（2019）GPT-1和GPT-2之间的区别GPT-2是GPT-1的直接扩展，具有更多参数并基于更多数据进行训练。然而，OpenAI认为发布它太危险了：由于我们担心该技术的恶意应用，我们不会发布训练模型。

作为负责任披露的一个实验，我们发布了一个更小的模型供研究人员进行实验，以及一篇技术论文。OpenAI博客——更好的语言模型及其影响GPT-1被公开发布，没有如此严重的担忧。因此，上述说法让公众想知道GPT-2在生成看起来像人类书写的文本方面有多强大。

而且，GPT-1和GPT-2有什么区别？1 区别：GPT-1与GPT-2在GPT-1论文中，他们对零样本任务迁移进行了实验，使用预训练模型和启发式解决方案来执行特定任务。实验的成功表明，即使没有监督微调，语言模型也包含执行特定任务所需的信息。

所有知识都存储在网络参数（权重和偏置）中。换句话说，更多参数应该会增加语言模型的容量，并使其对这些特定任务更加稳健。

从这个意义上说，微调只是为特定任务的模型添加了最后的修饰，因此GPT-1之所以伟大，主要是因为预训练。因此，用更多参数预训练这样的模型应该会进一步提高模型的性能。因此，GPT-2是GPT-1的直接扩展，具有更多参数并基于更多数据进行训练。

因此，GPT-1和GPT-2在架构方面没有区别。两者都基于Transformer的解码器。然而，它们的主要区别在于参数的数量以及训练文本的数量和种类，这使得神经网络能够获得更多的语言知识和理解，并将其吸收到参数中。

GPT-2的较大版本（2019年2月未发布）有15亿个参数，是GPT-1的10倍。他们在40GB的网络文本上训练了该模型，并在各种语言建模、阅读理解、问答和摘要基准上取得了最先进的结果。2 GPT-2：1.5B发布GPT-2论文解释了GPT-2有四种配置。

最大的GPT-2使用15亿参数，48个解码器块，d_model=1600。考虑到原始Transformer使用了六个解码器块，嵌入维度（d_model）为512，大GPT-2模型非常庞大。成功训练如此巨大的模型本身就是一项重大成就。

在最初宣布GPT-2九个月后，OpenAI决定发布带有1.5B参数的GPT-2，以及代码和模型权重。

我们希望这个测试用例对未来强大模型的开发人员有用，我们正在积极继续与AI社区就负责任发布进行对话。……我们过去九个月在GPT-2方面的经验使我们对在AI中创建负责任发布规范的挑战和机遇有了宝贵的见解。

OpenAI博客——GPT-2：1.5B发布——2019年11月5日他们总结了九个月的发现：- 人类认为GPT-2的输出令人信服。- GPT-2可以被微调用于滥用。- 检测具有挑战性（RoBERTa检测1.5B GPT-2生成文本的准确率约为95%）。

- 到目前为止，我们没有看到滥用的有力证据。- 我们需要研究偏见的标准。所有这些观点都是有效的，OpenAI在早期阶段就很好地识别了潜在风险，特别是滥用和偏见。3 GPT-2 vs. ChatGPT今天（2022年12月），我们已经看到了ChatGPT的表现。

因此，GPT-2似乎没有那么有害。我可以看到他们将学到的知识应用到ChatGPT中以防止滥用，例如，通过不模仿他人。然而，许多其他滥用行为，比如学生让ChatGPT做作业，更难防止。随着研究人员提高AI能力，这些问题可能会持续存在并变得广泛。

教师能否使用检测模型发现学生是否作弊？这变得越来越难了。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读