AI 见闻
精选· 重要性 4/5

GPT-2:2019年因太危险而延迟发布的模型

Hacker News (AI)··AbuAssar·约 4 分钟阅读
Hacker News 284
中文导读

2019年OpenAI认为GPT-2过于危险而仅发布小模型,九个月后最终公开完整版,这一事件开启了AI安全与负责任发布的讨论。

GPT-2:发布太危险(2019)GPT-1和GPT-2之间的区别GPT-2是GPT-1的直接扩展,具有更多参数并基于更多数据进行训练。然而,OpenAI认为发布它太危险了:由于我们担心该技术的恶意应用,我们不会发布训练模型。

作为负责任披露的一个实验,我们发布了一个更小的模型供研究人员进行实验,以及一篇技术论文。OpenAI博客——更好的语言模型及其影响GPT-1被公开发布,没有如此严重的担忧。因此,上述说法让公众想知道GPT-2在生成看起来像人类书写的文本方面有多强大。

而且,GPT-1和GPT-2有什么区别?1 区别:GPT-1与GPT-2在GPT-1论文中,他们对零样本任务迁移进行了实验,使用预训练模型和启发式解决方案来执行特定任务。实验的成功表明,即使没有监督微调,语言模型也包含执行特定任务所需的信息。

所有知识都存储在网络参数(权重和偏置)中。换句话说,更多参数应该会增加语言模型的容量,并使其对这些特定任务更加稳健。

从这个意义上说,微调只是为特定任务的模型添加了最后的修饰,因此GPT-1之所以伟大,主要是因为预训练。因此,用更多参数预训练这样的模型应该会进一步提高模型的性能。因此,GPT-2是GPT-1的直接扩展,具有更多参数并基于更多数据进行训练。

因此,GPT-1和GPT-2在架构方面没有区别。两者都基于Transformer的解码器。然而,它们的主要区别在于参数的数量以及训练文本的数量和种类,这使得神经网络能够获得更多的语言知识和理解,并将其吸收到参数中。

GPT-2的较大版本(2019年2月未发布)有15亿个参数,是GPT-1的10倍。他们在40GB的网络文本上训练了该模型,并在各种语言建模、阅读理解、问答和摘要基准上取得了最先进的结果。2 GPT-2:1.5B发布GPT-2论文解释了GPT-2有四种配置。

最大的GPT-2使用15亿参数,48个解码器块,d_model=1600。考虑到原始Transformer使用了六个解码器块,嵌入维度(d_model)为512,大GPT-2模型非常庞大。成功训练如此巨大的模型本身就是一项重大成就。

在最初宣布GPT-2九个月后,OpenAI决定发布带有1.5B参数的GPT-2,以及代码和模型权重。

我们希望这个测试用例对未来强大模型的开发人员有用,我们正在积极继续与AI社区就负责任发布进行对话。……我们过去九个月在GPT-2方面的经验使我们对在AI中创建负责任发布规范的挑战和机遇有了宝贵的见解。

OpenAI博客——GPT-2:1.5B发布——2019年11月5日他们总结了九个月的发现:- 人类认为GPT-2的输出令人信服。- GPT-2可以被微调用于滥用。- 检测具有挑战性(RoBERTa检测1.5B GPT-2生成文本的准确率约为95%)。

- 到目前为止,我们没有看到滥用的有力证据。- 我们需要研究偏见的标准。所有这些观点都是有效的,OpenAI在早期阶段就很好地识别了潜在风险,特别是滥用和偏见。3 GPT-2 vs. ChatGPT今天(2022年12月),我们已经看到了ChatGPT的表现。

因此,GPT-2似乎没有那么有害。我可以看到他们将学到的知识应用到ChatGPT中以防止滥用,例如,通过不模仿他人。然而,许多其他滥用行为,比如学生让ChatGPT做作业,更难防止。随着研究人员提高AI能力,这些问题可能会持续存在并变得广泛。

教师能否使用检测模型发现学生是否作弊?这变得越来越难了。

原文出处
GPT-2: Too Dangerous To Release (2019)

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读