蛋白质涌现新突破!68 亿序列锻造最强生物大模型,ESMC 剑指下一代 AlphaFold

日期:2026-06-08 22:43:43 / 人气:14


当大模型的涌现能力从自然语言领域延伸至生命科学,蛋白质研究迎来颠覆性变革。继 AlphaFold 凭借蛋白质结构预测拿下 2024 年诺贝尔化学奖后,Biohub 重磅推出ESM Cambrian(ESMC) 蛋白质语言模型,依托 68 亿条进化序列完成训练,被视作有望超越 AlphaFold 的新一代底层工具。Biohub 首席科学家、ESMC 核心创造者 Alex Rives 在深度播客访谈中,详解模型研发逻辑、技术突破与行业愿景,揭开 AI 重塑蛋白质科学的全新图景。
一、行业新拐点:从结构预测到读懂蛋白质 “语义”
AlphaFold 实现了 AI 预测蛋白质三维结构的历史性突破,但这只是起点。科学界不再满足于 “看清形态”,更希望借助 AI 解析蛋白质的功能、演化逻辑,并自主设计具备医疗价值的全新蛋白分子。ESMC 的问世,正是瞄准这一核心方向,它也是目前全球综合实力最强的开源蛋白质基础模型,搭配全球规模最大的蛋白质结构预测图谱,以 MIT 协议向全球科研人员免费开放,大幅降低生物科研的技术门槛。
早在 2018 年,Alex Rives 团队就率先将 Transformer 架构应用于蛋白质领域,成为蛋白质语言模型赛道的先行者。他坚信缩放定律(scaling law) 同样适用于生物序列:随着模型参数量、训练数据量级提升,蛋白质模型会像大语言模型一样,自发涌现出高阶能力。与自然语言模型不同,蛋白质序列的 “容错性” 更强 —— 自然语言随机采样易生成无意义乱码,但氨基酸序列即便随机组合,依然属于合法蛋白,这也让生物大模型的进化路径具备独特优势。
该理论的核心依据源自语言学经典理论:词汇的含义由上下文语境决定。映射到蛋白质领域,一种氨基酸能搭配的周边序列,本质由蛋白质结构、生理功能、演化路径共同约束。模型在海量数据训练中,会自动捕捉这些隐藏规律,无需人为标注先验知识,就能吃透蛋白质的底层 “语法”。
二、数据革命:宏基因组序列打破性能瓶颈
此前 ESM2 模型训练时,研究团队遭遇明显的收益递减问题:单纯增加参数量与算力,模型性能不再同步提升。而 ESMC 实现弯道超车的关键,在于数据策略的彻底革新 —— 引入海量宏基因组序列,彻底打破原有数据边界。
传统生物学研究讲究控制变量、聚焦单一假设,样本筛选严谨;而 ESMC 反其道而行之,广泛采集热液喷口、南极冻土、深海、土壤、人体肠道等各类极端与普通生态环境的生物样本。这类数据来源繁杂、序列片段残缺、噪声极大,甚至无法追溯具体所属物种,但超高的物种多样性成为核心优势。海量异构的进化序列,让模型见识到氨基酸在亿万种演化场景中的组合形态,原本停滞的缩放曲线重新变得顺滑,证明 ESM2 的短板是数据不足,而非算力受限。
依托全球顶级蛋白质数据库,团队最终整合出68 亿条非冗余蛋白质序列,并按照 70% 序列相似度完成聚类,为每一个聚类中心预测结构,累计形成11 亿个蛋白质预测结构。这张巨型图谱梳理出跨物种、跨演化阶段的蛋白质关联,成为人类迄今为止最全面的蛋白质知识体系。目前全球可挖掘的蛋白质序列总量约达 1000 亿条,远未被充分利用,也意味着模型未来仍有巨大升级空间。
三、能力涌现:可解释特征与未知蛋白新发现
研究团队为 ESMC 不同参数量版本(3 亿、6 亿、60 亿参数)搭载稀疏自编码器(SAE),深挖模型内部逻辑,意外发现层级化特征空间:模型会自主按照基础生化属性、蛋白质结构单元、大型功能模块、抽象生物概念逐层划分特征,这套分类体系与人类百年积累的生物学认知高度契合,全程无人工干预。
诸多具象发现印证了模型的深度理解能力。例如蛋白质中经典功能基序 “亲核肘”,即便出现在演化路径、拓扑结构完全不同的多个蛋白家族中,模型也会用单一特征统一标识。这是模型为完成氨基酸预测任务,自发提炼出的核心隐变量,也是 AI 理解蛋白质功能的直观体现。
更具价值的是未知领域探索:ESMC 在特征空间中发现一批聚类异常的蛋白质,现有生物学理论无法解释其功能。结合过往经验,团队推测这类序列大概率是新型基因编辑系统。此前 ESM 系列图谱就曾助力新基因编辑系统的发掘,而 ESMC 的探索能力更进一步,有望持续挖掘生命演化中未被人类发现的秘密。
四、实战突破:抗体设计、蛋白互作超越传统方案
在医疗核心场景抗体设计中,ESMC 展现出碾压性优势。抗体的演化逻辑区别于普通蛋白:普通蛋白在演化中追求结构与功能稳定,而抗体为对抗各类病原体,需要持续提升多样性。传统方案高度依赖多序列比对(MSA),但 MSA 对抗体不仅帮助有限,甚至会产生误导。
ESMC 无需依托 MSA,仅凭自身学习的蛋白质表征,就能高效筛选出具备治疗活性的 scFv 单链抗体。这类抗体由重链与轻链构成,结合界面复杂,是新药研发的重要方向(全球约四分之一新药为抗体类药物)。实测数据显示,ESMC 的抗体设计成功率领先所有开源模型,打破了 AlphaFold 系工具在该领域的垄断。
除此之外,在蛋白质多聚体、蛋白相互作用预测领域,ESMC 也稳居开源模型第一梯队。蛋白质极少单独发挥作用,细胞内的信号传导、生理反应,都依赖蛋白之间的联动。精准预测蛋白互作,是迈向虚拟细胞的核心基石。
五、长远布局:5 亿美元押注虚拟生物学,重构科研范式
Alex Rives 团队提出 “虚拟细胞” 宏大愿景:终极目标是打造可精准预测细胞对全新干预、全新环境反应的数字模型。现阶段的各类 “虚拟细胞” 仅能复刻已有实验数据,面对未知场景预测能力薄弱,而从蛋白质模型升级到细胞模型,需要跨越两大鸿沟:海量细胞干预数据、适配复杂系统的新型模型架构。
为此,Biohub 正式推出5 亿美元虚拟生物学计划:4 亿美元用于自研数据生产与技术迭代,1 亿美元扶持全球外部科研团队,以开放式合作推动行业发展。项目核心围绕两大原则:一是速度,不再耗费数十年积累数据,力争在数年内补齐细胞研究所需样本;二是泛化性,让模型成为 “科学预言家”,精准预判未开展的实验结果。
团队预判,未来十年 AI + 生物学将形成三层协作体系:大规模实验数据生产、多维度生物数字表征、实验反馈式推理。AI 可并行推演数千万个科学假设,再将高价值方向推送至实验室验证,形成 “AI 预测 + 实验验证” 的闭环,彻底改写传统生物科研慢周期、低效率的现状。
六、行业困境与未来展望
目前制约模型发展的两大核心瓶颈清晰显现:其一为算力,即便团队已配备充足资源,但更大规模的序列训练、模型迭代,依旧受限于算力上限;其二为数据生产,细胞层面的扰动生物学、空间生物学数据仍存在巨大缺口,需要全球科研界协同补齐。
关于缩放定律的边界,团队保持谨慎乐观。ESM2 因数据短板陷入收益递减,而 ESMC 借助宏基因组序列重启增长曲线。目前千亿级别的海量序列中,微小基因突变、物种特异性序列仍蕴含大量未挖掘信息,模型的学习潜力尚未触顶,唯有持续扩充数据、升级算力,才能持续释放能力。
现阶段,ESMC 已基于 MIT 协议全面开源,面向全球科研人员开放使用权。Alex Rives 表示,团队定位并非药物研发企业,而是底层技术提供商。其终极使命是借助 AI 打通从蛋白质分子到系统性疾病的全链路认知缺口,为疾病治疗、生命科学研究筑牢技术底座,让 AI 真正成为探索生命奥秘的通用工具。
从 AlphaFold 破解蛋白质结构,到 ESMC 理解蛋白质功能、自主设计医疗蛋白,AI 正在一步步改写生命科学的发展节奏。当数十亿年的生物演化数据遇上大模型的涌现能力,传统科研的边界被不断打破,一个 “可编程生物学” 的新时代,已然拉开帷幕。







参考 11 篇资料

作者:门徒娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 门徒娱乐 版权所有