OFASys：一行代码实现多任务学习

Qwen Team Blog·超过 3 年前·约 7 分钟阅读

Intro多面手模特很火！我们都看到了通过多模式多任务学习建立真正的通才模型的机会。为此目标，我们之前发布了一个开源的统一多模式预训练模型OFA。但实际上我们在实施过程中遇到了很多困难。例如，很难针对多种模式设置多个任务，也很难组织多任务学习，例如。

G.、如何批量化您的数据以及如何使您的训练稳定。因此，我们提出了OFASys，这是一个针对多模式多任务学习的人工智能框架。简而言之，它使用一个名为“指令”的简单界面，这是特定任务指令和输入信息的模板。

因此，只需1行指令代码，即可构建多模式多任务学习工作，而无需担心复杂的流程，例如。G.、数据预处理、模型构建、培训等。OFASys可以帮助您摆脱许多细节，并为您提供专注于设计任务和模式的机会。

背景感谢Transformer和预培训，我们见证了通用人工智能的前所未有的机会！在自然语言领域，我们现在拥有不止GPT-31，甚至还有ChatGPT，在问答、对话、创意写作等方面具有极其全面的能力。

在多模式表示学习领域，我们看到了试图统一任务和模式以构建更通用的人工智能系统的统一模型，包括我们提出的OFA 2、GATO 3、Unified-IO 4等。然而，关键困难在于实现。

让深度学习工程师们苦苦挣扎的是如何实施和训练这样一个具有如此多涉及不同模式和任务输入的数据集的通才模型。虽然我们现在有PyTorch和TensorFlow用于深度学习，以及许多用于构建Transformer的漂亮框架，例如。

G.、Hugging Face Transformers、fairseq等，仍然没有指定的系统为任务不可知的通才模型学习提供简洁的抽象和工具。用户界面在介绍系统设计之前，我们首先进入OFASys的世界，看看如何用一行代码构建多任务学习模型。

更具体地说，您需要做的是编写一份适当的指令。以下是不同任务的几个说明示例：用“->”隔开的两个句子分别描述任务输入及其所需的输出。在这种情况下，”<tt>[图片：IMG]</tt>“指定有一个图像输入绑定到名为<tt>img</tt>在数据集中。

说明中的纯文本表明该任务是关于为图像添加字幕。任务的输出是一个文本序列，即<tt>帽</tt>数据集中的列。

另一个例子是NLI任务：与前一个类似，我们使用模板和指标作为输入来构建指令。相反，编码器有两个输入。此外，由于我们发现在解码器中重复输入有助于下游性能，因此我们使用信号<tt>无损失</tt>以避免损失计算。

当NLI的标签集关闭时，我们使用信号<tt>封闭集</tt>用于指示。总而言之，如果您使用OFASys，事情会容易得多。您需要的可能只是指令的1行代码。系统设计简洁的系统设计是易于使用的界面背后的关键。

下面展示了概述。OFASys通过指令将指令解析成任务计划来访问任务定义和任务数据。在每个计划中，都有一个模型层次结构，由特定于模式的预处理器/后处理器和适配器以及与模式无关的计算模型组成。通用模型即用于融合多峰输入和生成输出的通用模块。

由于输入和输出始终是表示序列，因此通用模型的实现具有高度通用性，无论形态的复杂性如何。通用模型的输出最终由适配器和后处理器进行后处理，以生成与输入格式一致的内容。

阶段组件（包括标准和生成器）提供训练和推理支持，其中有各种开箱即用的实现。这样，不同的多模式数据就可以通过具有一致内部接口的系统，提高开发效率。在多任务学习中，有多个从说明中解析的此类计划。

OFASys默认共享适配器和通用模型的可训练参数，以便每个参数都可以在尽可能多的示例上进行优化。任务调度器管理任务优先级和联合优化，逻辑调度器在多个物理设备上安排工作流。

应用示例：OFA+为了验证其有效性，我们训练了一个基于OFA、OFA+的通才模型，该模型首次可以一体处理文本、图像、语音、视频和运动数据。具体来说，我们训练了基于OFA的OFA+（多面手）和具有模式级MoE的改进版本OFA+（多面手MoE）。

为了进行比较，我们使用原始的OFA（OFA+（Specialist）），该OFA对每个特定任务进行了微调。一般来说，OFA+能够保留专业模型95%以上的性能，同时扩展到7种模式上的23项不同任务。

这表明多任务学习不仅赋予通才模型多种能力，而且还帮助它在特定任务上实现顶级性能。

结论由于通才模型吸引了越来越多的兴趣，缺乏指定的系统和库的多模式多任务脱颖而出的快速增长的道路上的障碍。OFASys的开发是为了满足极端模态和任务缩放的多模态多任务学习的需要。我们希望OFASys能够推动多模态多任务学习的研究，并促进更通用的通才模型的构建。

布朗，T. B.，Mann，B.，莱德，N.，Subbiah，M.、Kaplan，J.、Dhariwal，P.、Neelakantan，A.、Shyam，P.、Sastry，G.，Askell，A.，Agarwal，S.，Herbert-Voss，A.，Krueger，

G.，

Henighan，T. J.、Child、R.，拉梅什，A.、齐格勒、D. M.、Wu，J.、Winter，C.，黑森州，C.，Chen，M.，Sigler，E.，利特温，M.，格雷，S.、Chess，B.、Clark，J.、Bernner，C.，麦坎迪什，S.，雷德福，

A.，萨特斯凯弗，I.，& Amedei，D.（2020年）。语言模型是很少学习的人。arXiv，abs/2005。14165.↩︎Wang，P.，Yang，A.，曼，R。，林，J.，白，S.，李，Z。

，Ma，J.，Zhou，C.、Zhou，J.、& Yang，H.（2022）。通过简单的序列到序列学习框架统一架构、任务和模式。国际机器学习会议。

↩︎里德，S.、佐尔纳、K.，Parisotto，E.，Colmenarejo，S. G.、诺维科夫、A.，巴斯-马龙，G.、吉门尼斯，M.，苏斯基，Y.、Kay，J.、Springenberg，JT，Eccles，T.、Bruce，J.、Razavi，A.，爱德华兹，

A. D.，Heess，N. M.，Chen，Y.，哈德塞尔，R.，缅因州维尼亚尔斯，博德巴，M.

，& Freitas，N. D.（2022）。多面手特工。arXiv，abs/2205。06175.↩︎Lu，J.，Clark，C.，泽勒斯，R.，莫塔吉，R.，& Kembhavi，A.（2022）。

Unified-IO：视觉、语言和多模式任务的统一模型。arXiv，abs/2206。08916.↩︎

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读