中文CLIP:面向中文的对比视觉语言预训练模型
本文介绍了中文CLIP项目,旨在解决现有CLIP模型在中文场景下性能不佳的问题,通过两阶段预训练方法构建了高性能的开源中文CLIP模型,显著提升了跨模态检索等任务的表现。
CLIP是视觉和多模态表示学习领域的杰出贡献者。它不仅是基础模型,也是视觉和语言之间的桥梁,引发了不同领域的一系列研究,尤其是文本到图像生成。然而,我们发现应用程序(尤其是跨模态检索)需要一个特定语言的CLIP,而当时没有性能良好的开源中文CLIP。
因此,我们启动了这个项目来推动中文多模态表示学习。背景在现实世界的视觉语言应用中,例如跨模态检索,语言发挥着重要作用。假设我们直接使用CLIP和文本翻译,翻译质量会显著影响下游性能。此外,另一个重要问题是预训练数据的领域。
如果我们希望模型在中国数据上取得良好性能,CLIP也有必要适应中国网站的图像领域,这些图像反映了文化价值观、社会风貌等。以下是使用mCLIP搜索的示例。我们发现该模型很难理解中文中的一些概念,只能检索属于西方文化的相关项目。
此外,我们还使用原始CLIP加机器翻译进行了跨模态检索实验,性能显著下降,远远落后于我们的中文CLIP。
这也证明了为什么我们需要一个特定语言的CLIP。方法总体上,我们遵循原始CLIP的设置,并提出了一种两阶段预训练方法,其表现优于从头训练。我们相信这是将CLIP迁移到另一种语言更具成本效益的方式。
在第一阶段,我们用预训练模型初始化两个塔,即CLIP的视觉编码器(例如ViT-B、ResNet等)和中文RoBERTa(RoBERTa-wwm-ext)。我们冻结图像编码器,对比调整语言编码器,将其表示映射到CLIP视觉编码器的输出空间。
在第二阶段,我们解锁视觉编码器,对比调整两个塔,使视觉编码器能够学习建模中文数据图像的分布。为了使这项研究可复现,我们主要使用公开数据集进行预训练,包括LAION-5B中标记为“zh”的部分、悟空数据集、来自Visual Genome和MSCOCO的翻译数据等。
图文对总数达到2亿。我们发布了5个版本的中文CLIP,包括ResNet-50、ViT-B/16、ViT-L/14、ViT-L/14@336px和ViT-H/14。统计数据如下。
实验实验在3个跨模态检索数据集上进行,包括中文原生数据集MUGE,以及英文原生数据集(即图像和文本并非来自中文网站)Flickr30K-CN和COCO-CN。
在所有数据集上,中文CLIP表现最佳,且在MUGE上与之前最佳模型的差距远大于其他数据集。这表明我们的方法有助于构建特定语言的CLIP模型,在原生数据集上表现更优。我们还尝试了中文CLIP的零样本图像分类,通过将所有标签和提示手动翻译成中文参与了ELEVATER基准测试。
结果表明,中文CLIP在英文原生基准上也能取得有竞争力的表现。消融实验发现,与从头训练相比,两阶段预训练方法表现更好,且第二阶段预训练能进一步提升模型在跨模态检索中的性能。局限与未来工作尽管上述内容展示了中文CLIP的有效性,我们仍需验证其作为视觉基础模型的作用。
从经验上看,它应该是中文原生数据任务的强大基础模型。因此,下一步我们将致力于构建中文多模态表示学习和视觉表示学习的基准。欢迎访问我们的GitHub仓库,使用代码和检查点。希望它们对您的研究或应用有所帮助!
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G.
& Sutskever,
I. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning. ↩︎Carlss
on,F.,Eisen,P.,Rekathati,F.,& Sahlgren,
M. (2022). Cross-lingual and Multilingual CLIP. International Conference on Language Resources and Evaluation. ↩︎Schuhmann,
C.,Beaumont,R.,Vencu,R.,Gordon,C.,Wightman,R.,Cherti,M.,Coombes,T.,Katta,A.,Mullis,C.,Wortsman,M.,Schramowski,P.,Kundurthy,S.,Crowson,
K.,Schmidt,L.,Kaczmarczyk,R.,& Jitsev,J. (2022). LAION-5B:
An open large-scale dataset for training next generation image-text models. arXiv,
abs/2210.08402. ↩︎Gu,J.,Meng,X.,Lu,G.,Hou,L.,Niu,M.,Xu,H.,Liang,X.,Zhang,W.,Jiang,X.,& Xu,C. (2022). Wukong:
100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework. arXiv,
abs/2202.06767. ↩︎Li,C.,Liu,H.,Li,L.,Zhang,P.,Aneja,J.,Yang,J.,Jin,P.,Lee,Y. J.,Hu,H.,Liu,Z.,& Gao,J. (2022). ELEVATER:
A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models. arXiv,abs/2204.08790. ↩︎