ESM：蛋白质领域的苦涩教训即将到来 - Alex Rives, BioHub

Latent Space (Swyx)·大约 2 个月前·RJ Honicky·约 8 分钟阅读

编者按：在我们与Priscilla和Mark的第一个BioHub pod中，他们讨论了对EvoScale的收购，该EvoScale由Alex Rives领导，他现任BioHub科学主管。

通过ESM-1，他们对从整个生命中提取的数百万个蛋白质序列训练语言模型，其目标是简单的“下一个令牌”：根据序列其余部分的上下文预测被随机屏蔽的氨基酸。

但他们很快发现，这些模型还学习了生物结构和功能，包括模型从未明确展示过的属性，并且这种能力可以通过计算可预测地扩展，从而产生了ESM 2和ESM 3。今天，Alex宣布推出ESMold 2，这是一个开放科学引擎，为蛋白质生物学的预测、设计和发现提供动力。

ESMold 2基于Cryo-EM数据（在CZZ pod中讨论），报告了蛋白质相互作用的最新性能，尤其是抗体（治疗的关键模式），以及推断时间缩放也适用于癌症和免疫学的五个目标的证据。为了向另一个著名的AI x蛋白质折叠项目致敬，他们还发布了一个包含6个的地图集。

80亿蛋白质，以及1. 10亿个预测的结构，您可以在他们的网站上进行研究。我们很荣幸能够与他们合作推出这个巨大的版本！我们在科学吊舱中听到的一个重复是，蛋白质折叠、材料设计、细胞生物学等是与语言建模截然不同的问题。

他们绝对是。然而，Alex Rives和BioHub的ESM团队刚刚发布了预印本和模型，证明在足够大和多样化的数据集上训练的香草类BERT Transformer模型可以在一些最棘手的蛋白质相关问题上击败AlphaFold 3等专业模型。

安德鲁·怀特（Andrew White）在我们的第一集《LS-Science》中有一个很棒的片段，解释了AlphaFold 2在2020年发布时是多么令人兴奋：它突然解决了桌面上的图形处理器上的问题，而DESRes已经构建了定制ASIC超级计算机集群来解决这些问题。

约翰·朱珀（John Jumper）和德米斯·哈萨比斯（Demmis Hassabis）因这项工作获得诺贝尔化学奖。AlphaFold 2利用了一个非常聪明的观察结果：如果多个物种共同进化出突变对，这意味着这些突变对应于蛋白质在3d空间中接近的部分。

这通常被称为MTA（多序列比对），这是AlphaFold 2如此有效的关键见解。然而，与其他归纳偏见一样，它会损害概括性。

天气凉爽之前就堆积了鳞片如果你看一下LLM的标度律和结构预测模型发布的时间轴，ESM团队在AlphaFold 2发布后，他们的MSA被诅咒的方法明显加倍了。这显然需要高度相信规模假设。为什么定罪？

ESM发展之际，许多缩放定律和“苦涩的教训”被证明越来越正确。

AlphaFold 2的巨大成功一定既令人兴奋，又令人极度失望。但使用MTA意味着该模型依赖于包含MTA的训练数据，以便在给定领域保持准确。对于像没有MSs可训练的抗体2这样的事情，AlphaFold往往表现不佳。

ESM采取了不同的方法：通过无监督训练尽可能多的多样性来学习不同蛋白质之间的关系（听起来熟悉吗？），然后将其与从蛋白质数据库（DBC）和其他来源了解的结构进行关联3。换句话说，世界典范。

蛋白质世界模型“世界模特”是一个炒作术语，我这样定义：使用无监督训练从数据中学习抽象模式：

抽象应该是语义的--新颖的结构代表遵守现实世界规则的事物抽象应该是组合式的--重新组合不同的模式会产生新颖且通常有效的结构抽象应该支持概括-它预测现实世界中未训练的事物一旦你有了一个世界模型，

你就可以在它上附加“头”来执行下游任务：预测蛋白质的属性、分解其功能特征，或者搜索满足设计标准的蛋白质的表示。BioHub刚刚根据麻省理工学院许可证发布的两个大型模型直接映射到此：世界模型→ ESMC（在2.上训练的模型。

80亿个序列）结构预测主管| ESMFold 2世界模型“预测事物”的有趣方法之一是生成蛋白质序列，然后在实验室中测量预测的性质，例如结合亲和力。亚历克斯在这一集中谈到了验证他们在湿实验室中预测的一些更硬的分子。

非常酷！另一种方法是使用稀疏自动编码器（SAEs）等机械中间技术从模型中提取语义特征，然后找到预测未知生物学的新颖特征。我不会破坏你的这部分：这对我来说是这一集的亮点之一！细胞是一台计算机我们都听说过基因就像计算机程序，但通常这种类比之后就失败了。

当然，基因被转录成RNA，RNA被翻译成蛋白质，所以基因是构建蛋白质的程序，但这只能类比为“二进制数字是程序”。

”这是一个更好的类比：您可以将细胞核视为存储设备/存储控制器，将核糖体视为JT编译器和运行时，将我们通过SAEs从世界模型中学习的语义特征视为功能，将蛋白质视为在工作流程中相互作用的过程（信号途径）以产生行为和输出（表型）。

与功能一样，严重不良事件特征具有局部、二级和三级结构（模拟蛋白质结构）的分层组成4，但也具有概念性基序，例如膜整合、无序区域和二硫键5。当我们学会将这些特征组合成新型蛋白质设计时，我们进一步走向可编程生物学。

亚历克斯在这一集中对此进行了更详细的描述，以及：新数据收集的原则BioHub的愿景建模细胞享受！完整视频播客请点赞并订阅！联系我们抗体突变非常快，以便能够适应含有新型蛋白质的病原体。这些动态意味着MSSA不会出现在其中。

这包括使用AlphaFold 2本身为ESMC创建的数据集，使其成为AlphaFold的提炼，并间接依赖于MSAs本身。非常局部（1-3个残基）：单个氨基酸生物化学，疏水性vs

极地特征、电荷短程（~5-10个残基）：二级结构-a-螺旋特征、β-链特征、β-转弯特征中程（~10-30个残基）：超二级基序- β-发夹、螺旋-转折-螺旋、β-a-β单元长范围（全蛋白质）：全结构域标识符-免疫球蛋白折叠、Rossmann折叠、TIM桶、

四螺旋束DNA结合特征-跨螺旋-转折-螺旋蛋白、

锌指、白蛋白拉链和其他共享功能但不共享序列的DNA结合折叠被激活膜整合特征-在跨膜片段上激活，无论它们是否位于GPCR、转运蛋白或通道中无序区域特征SAGE将约686个特征（占特征预算的5-10%）投入到本质上无序的区域，这一点令人震惊，因为IDT没有结构可预测。

该模型将无序本身作为一个概念来表示，并具有不同IDT口味（多两性电解质、极道、类Prion域）的子特征二硫键特征-在参与二硫键的半胱氨酸上活化，将其与游离半胱氨酸区分开来

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读