文本条件JEPA：学习语义丰富的视觉表示

Apple Machine Learning Research·3 个月前·约 3 分钟阅读

用于学习语义丰富的视觉表示的文本条件JEPA作者陈黄、李贤航、维迪·蒂拉克、Etai Littwin、Josh Susskind内容类型论文发表于2026年5月用于学习语义丰富的视觉表示的文本条件JEPA作者陈黄、李贤航、维迪·蒂拉克、Etai Littwin、

Josh Susskind基于图像的联合嵌入预测架构（I-JEPA）通过掩蔽特征预测提供了一种有前途的视觉自监督学习方法。然而，由于掩蔽位置处固有的视觉不确定性，特征预测仍然具有挑战性，并且可能无法学习语义表示。

在这项工作中，我们提出了文本条件JEPA（TC-JEPA），使用图像字幕，以减少预测的不确定性。具体来说，我们使用细粒度的文本调节器来调制预测的补丁功能，该文本调节器计算输入文本标记上的稀疏交叉注意。

通过这种条件反射，补丁特征变得可预测为文本的函数，因此在语义上更有意义。我们表明，TC-JEPA提高了下游性能和训练稳定性，并具有良好的扩展性能。

TC-JEPA还提供了一种仅基于特征预测的新的视觉语言预训练范式，在各种任务上表现优于对比方法，尤其是那些需要细粒度视觉理解和推理的任务。

重新思考JEPA：具有冷冻教师的计算机高效视频SSL2025年10月8日研究领域计算机视觉，研究领域方法和边界会议ICLR视频联合嵌入预测架构（V-JEPA）通过使用指数移动平均值（EMA）更新的教师预测潜在空间中的掩蔽区域来学习可推广的现成视频表示。

虽然EMA防止了表示崩溃，但它使可扩展模型选择以及教师和学生架构的结合变得复杂。我们重新审视了蒙面潜在预测，并表明一个冰冻的老师就足够了。

具体来说，我们（i）训练.JEPA如何避免噪音特征：深度线性自蒸馏网络的隐性偏差2024年11月20日研究领域计算机视觉，研究领域方法和边界会议NeuurIPS对于数据表示的自我监督学习，存在两种相互竞争的范式。

联合嵌入预测架构（JEPA）是一类架构，其中语义相似的输入被编码为相互预测的表示。JEPA框架下最近一种成功的方法是自蒸馏，即训练在线编码器来预测目标编码器的输出，有时使用.

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读