精选· 重要性 4/5

OFA：迈向统一多模态预训练的通才模型

Qwen Team Blog·超过 3 年前·约 7 分钟阅读

中文导读

OFA是2022年提出的统一多模态预训练模型，通过任务、模态和架构的统一，在多个视觉语言任务上达到领先性能，为构建通才模型奠定了基础。

2022年是通才模型的一年！随着多模态预训练的蓬勃发展，特别是统一模型的出现，我们看到了构建能够处理不同模态或多模态任务的通才模型的机会。因此，我们提出了OFA，即One-For-All，一个统一的多模态预训练模型，将涉及多种模态的理解和生成任务统一到一个框架中。

我们采用基于指令的多任务预训练方法，赋予OFA多种能力。我们向社区开源了预训练和微调后的模型，希望这项开创性工作能够加速通才模型的发展。背景自BERT转向跨模态表示学习以来，多模态预训练发展迅速。

代表性研究包括UNITER、VilBERT等。这些研究直接将基于Transformer的BERT整合到单流或双流框架中进行多模态预训练，并将图像转换为一系列物体特征，与词嵌入拼接后作为Transformer的输入。

2021年晚些时候，随着Vision Transformer的兴起，出现了摆脱物体级特征的方法，这些特征依赖于复杂的预处理流程，例如Faster-RCNN：例如，最简单的基于补丁投影的ViLT、基于CLIP的CLIP-ViL等。

之后的里程碑是SimVLM的提出，它利用T5/BART方法进行多模态预训练，并在许多任务上取得了新的最佳结果。这些进展应被视为2022年统一多模态预训练模型的基础，包括我们的OFA、Unified-IO、Flamingo、BeiT-3等。

方法OFA旨在实现任务、模态和架构的统一。我们认为统一模型应具备三个特征：任务无关、模态无关和任务全面性。具体来说，“任务无关”指统一模型应能接受任务而不修改自身架构和训练方法；“模态无关”指统一模型应能接受不同模态的输入，无需知道其具体类型或设计复杂预处理；

“任务全面性”指统一模型应学习尽可能多的任务，以便通过现有能力的组合迁移到未见过的任务。因此，我们为OFA提出了三种统一：模态统一、架构统一和任务统一。我们逐一说明。对于模态统一，一个关键问题是不同模态输入的标记化，即离散化。

否则，可能需要其他解决方案，如扩散模型用于生成。

文本的标记化无需改变，但图像和边界框需要离散化。得益于向量量化和基于Transformer的文本到图像生成的成功，图像可以用VQ令牌表示。受pix2seq启发，边界框也可以用分箱离散化。

我们选择通用的Transformer编码器-解码器架构，因为它在T5等NLP统一模型中取得了成功。对于图像输入到Transformer，我们使用ResNet的前三个块。在Transformer架构上，我们通过引入Normformer来改进设计，以提高训练稳定性和迁移性能。

多任务学习是OFA的关键创新。具体来说，我们用8个任务预训练模型，包括5个视觉语言任务、2个视觉任务和1个语言任务。视觉语言任务包括视觉定位、定位字幕、视觉问答、图像文本匹配和图像描述。视觉任务包括检测和图像填充。

语言任务是文本填充。为了帮助模型区分任务，我们插入一条指令，即一段描述任务的文本。因此，我们期望模型能根据指示未见任务的新指令进行零样本生成。为使研究尽可能可复现，我们的预训练依赖公开数据集。

因此，我们希望后续研究人员能使用我们的开源代码复现结果。我们发布了5种规模的OFA模型：OFA-Tiny（33M）、OFA-Medium（93M）、OFA-Base（180M）、OFA-Large（470M）和OFA-Huge（930M）。

更多统计数据见下表。实验我们在多个跨模态任务和单模态任务上进行了实验。在视觉语言理解方面，我们在VQA和SNLI-VE上测试了模型。我们发现，超大尺寸模型可以达到与在5B图像文本对上预训练的80B参数模型Flamingo和2B参数模型CoCa相当的性能。

此外，我们在视觉蕴含任务上取得了最佳性能。在视觉语言生成方面，我们专注于经典图像描述任务，OFA在交叉熵优化和CIDEr优化两种设置下均达到了最佳性能。

此外，我们将视觉定位任务转化为生成任务，发现即使是基础规模的OFA也能超越之前的最佳结果，并且模型规模的扩大持续带来性能提升。这体现了模态和任务统一的重要性。另外，我们测试了OFA的文本到图像生成能力，因为我们相信预训练中的图像填充任务赋予其生成图像编码的能力。

实验表明，OFA在评估中能获得较低的FID分数，并且在更大数据集上进一步微调可显著提升性能。

见以下案例。对于单模态任务，我们在NLU的GLUE基准、NLG的Gigaword摘要和视觉理解的ImageNet分类上评估OFA。结果表明，OFA可以与RoBERTa和DeBERTa竞争，而以往的多模态预训练模型在NLU上往往远落后于最佳结果。

同样，OFA在NLG上也能取得良好性能，并超越之前的最佳模型。在图像分类方面，OFA也能达到与BeiT和MAE等自监督视觉模型相似的性能。我们观察到，基于多任务预训练的OFA展现出迁移到未见任务和未见领域的潜力。

下面用两个案例说明。第一个案例展示了模型通过理解指令并利用两种已学能力来执行新任务的组合泛化能力。我们设置了一个名为“Grounded VQA”的新任务，它是VQA和定位字幕的组合。我们只需改变指令。

包含问题和区域信息的新任务指令引导模型给出正确答案。此外，我们发现OFA能有效迁移到未见领域。一个例子是动画图像的视觉定位。OFA在此设置中表现良好，因为它已在一些动漫数据上预训练，并在通用领域数据的视觉定位上预训练。

这再次展示了统一模型的组合能力。

结论这是我们研究技术上“一为所有”模型（即通才模型）的起点。我们表明这一研究方向前景广阔，因为Transformer是一个非常强大的架构，任务和模态可以统一到单一训练框架中。与GPT-3一样，我们相信多模态表示学习领域很快会出现强大的基础模型。

参考文献：Wang,P.,Yang,A.,Men,R.,Lin,J.,Bai,S.,Li,Z.,Ma,J.,Zhou,C.,Zhou,J.,& Yang,H. (2022). Unifying Architectures,Tasks,

and Modalities Through a Simple Sequence-to-Sequence Learning Framework. International Conference on Machine Learning. ↩ Devlin,

J.,Chang,M.,Lee,K.,& Toutanova,K. (2019). BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. ↩

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读