蛋白质涌现新突破！68 亿序列锻造最强生物大模型，ESMC 剑指下一代 AlphaFold

日期：2026-06-08 22:43:43 / 人气：14

当大模型的涌现能力从自然语言领域延伸至生命科学，蛋白质研究迎来颠覆性变革。继 AlphaFold 凭借蛋白质结构预测拿下 2024 年诺贝尔化学奖后，Biohub 重磅推出ESM Cambrian（ESMC）蛋白质语言模型，依托 68 亿条进化序列完成训练，被视作有望超越 AlphaFold 的新一代底层工具。Biohub 首席科学家、ESMC 核心创造者 Alex Rives 在深度播客访谈中，详解模型研发逻辑、技术突破与行业愿景，揭开 AI 重塑蛋白质科学的全新图景。
一、行业新拐点：从结构预测到读懂蛋白质 “语义”
AlphaFold 实现了 AI 预测蛋白质三维结构的历史性突破，但这只是起点。科学界不再满足于 “看清形态”，更希望借助 AI 解析蛋白质的功能、演化逻辑，并自主设计具备医疗价值的全新蛋白分子。ESMC 的问世，正是瞄准这一核心方向，它也是目前全球综合实力最强的开源蛋白质基础模型，搭配全球规模最大的蛋白质结构预测图谱，以 MIT 协议向全球科研人员免费开放，大幅降低生物科研的技术门槛。
早在 2018 年，Alex Rives 团队就率先将 Transformer 架构应用于蛋白质领域，成为蛋白质语言模型赛道的先行者。他坚信缩放定律（scaling law）同样适用于生物序列：随着模型参数量、训练数据量级提升，蛋白质模型会像大语言模型一样，自发涌现出高阶能力。与自然语言模型不同，蛋白质序列的 “容错性” 更强 —— 自然语言随机采样易生成无意义乱码，但氨基酸序列即便随机组合，依然属于合法蛋白，这也让生物大模型的进化路径具备独特优势。
该理论的核心依据源自语言学经典理论：词汇的含义由上下文语境决定。映射到蛋白质领域，一种氨基酸能搭配的周边序列，本质由蛋白质结构、生理功能、演化路径共同约束。模型在海量数据训练中，会自动捕捉这些隐藏规律，无需人为标注先验知识，就能吃透蛋白质的底层 “语法”。
二、数据革命：宏基因组序列打破性能瓶颈
此前 ESM2 模型训练时，研究团队遭遇明显的收益递减问题：单纯增加参数量与算力，模型性能不再同步提升。而 ESMC 实现弯道超车的关键，在于数据策略的彻底革新 —— 引入海量宏基因组序列，彻底打破原有数据边界。
传统生物学研究讲究控制变量、聚焦单一假设，样本筛选严谨；而 ESMC 反其道而行之，广泛采集热液喷口、南极冻土、深海、土壤、人体肠道等各类极端与普通生态环境的生物样本。这类数据来源繁杂、序列片段残缺、噪声极大，甚至无法追溯具体所属物种，但超高的物种多样性成为核心优势。海量异构的进化序列，让模型见识到氨基酸在亿万种演化场景中的组合形态，原本停滞的缩放曲线重新变得顺滑，证明 ESM2 的短板是数据不足，而非算力受限。
依托全球顶级蛋白质数据库，团队最终整合出68 亿条非冗余蛋白质序列，并按照 70% 序列相似度完成聚类，为每一个聚类中心预测结构，累计形成11 亿个蛋白质预测结构。这张巨型图谱梳理出跨物种、跨演化阶段的蛋白质关联，成为人类迄今为止最全面的蛋白质知识体系。目前全球可挖掘的蛋白质序列总量约达 1000 亿条，远未被充分利用，也意味着模型未来仍有巨大升级空间。
三、能力涌现：可解释特征与未知蛋白新发现
研究团队为 ESMC 不同参数量版本（3 亿、6 亿、60 亿参数）搭载稀疏自编码器（SAE），深挖模型内部逻辑，意外发现层级化特征空间：模型会自主按照基础生化属性、蛋白质结构单元、大型功能模块、抽象生物概念逐层划分特征，这套分类体系与人类百年积累的生物学认知高度契合，全程无人工干预。
诸多具象发现印证了模型的深度理解能力。例如蛋白质中经典功能基序 “亲核肘”，即便出现在演化路径、拓扑结构完全不同的多个蛋白家族中，模型也会用单一特征统一标识。这是模型为完成氨基酸预测任务，自发提炼出的核心隐变量，也是 AI 理解蛋白质功能的直观体现。
更具价值的是未知领域探索：ESMC 在特征空间中发现一批聚类异常的蛋白质，现有生物学理论无法解释其功能。结合过往经验，团队推测这类序列大概率是新型基因编辑系统。此前 ESM 系列图谱就曾助力新基因编辑系统的发掘，而 ESMC 的探索能力更进一步，有望持续挖掘生命演化中未被人类发现的秘密。
四、实战突破：抗体设计、蛋白互作超越传统方案
在医疗核心场景抗体设计中，ESMC 展现出碾压性优势。抗体的演化逻辑区别于普通蛋白：普通蛋白在演化中追求结构与功能稳定，而抗体为对抗各类病原体，需要持续提升多样性。传统方案高度依赖多序列比对（MSA），但 MSA 对抗体不仅帮助有限，甚至会产生误导。
ESMC 无需依托 MSA，仅凭自身学习的蛋白质表征，就能高效筛选出具备治疗活性的 scFv 单链抗体。这类抗体由重链与轻链构成，结合界面复杂，是新药研发的重要方向（全球约四分之一新药为抗体类药物）。实测数据显示，ESMC 的抗体设计成功率领先所有开源模型，打破了 AlphaFold 系工具在该领域的垄断。
除此之外，在蛋白质多聚体、蛋白相互作用预测领域，ESMC 也稳居开源模型第一梯队。蛋白质极少单独发挥作用，细胞内的信号传导、生理反应，都依赖蛋白之间的联动。精准预测蛋白互作，是迈向虚拟细胞的核心基石。
五、长远布局：5 亿美元押注虚拟生物学，重构科研范式
Alex Rives 团队提出 “虚拟细胞” 宏大愿景：终极目标是打造可精准预测细胞对全新干预、全新环境反应的数字模型。现阶段的各类 “虚拟细胞” 仅能复刻已有实验数据，面对未知场景预测能力薄弱，而从蛋白质模型升级到细胞模型，需要跨越两大鸿沟：海量细胞干预数据、适配复杂系统的新型模型架构。
为此，Biohub 正式推出5 亿美元虚拟生物学计划：4 亿美元用于自研数据生产与技术迭代，1 亿美元扶持全球外部科研团队，以开放式合作推动行业发展。项目核心围绕两大原则：一是速度，不再耗费数十年积累数据，力争在数年内补齐细胞研究所需样本；二是泛化性，让模型成为 “科学预言家”，精准预判未开展的实验结果。
团队预判，未来十年 AI + 生物学将形成三层协作体系：大规模实验数据生产、多维度生物数字表征、实验反馈式推理。AI 可并行推演数千万个科学假设，再将高价值方向推送至实验室验证，形成 “AI 预测 + 实验验证” 的闭环，彻底改写传统生物科研慢周期、低效率的现状。
六、行业困境与未来展望
目前制约模型发展的两大核心瓶颈清晰显现：其一为算力，即便团队已配备充足资源，但更大规模的序列训练、模型迭代，依旧受限于算力上限；其二为数据生产，细胞层面的扰动生物学、空间生物学数据仍存在巨大缺口，需要全球科研界协同补齐。
关于缩放定律的边界，团队保持谨慎乐观。ESM2 因数据短板陷入收益递减，而 ESMC 借助宏基因组序列重启增长曲线。目前千亿级别的海量序列中，微小基因突变、物种特异性序列仍蕴含大量未挖掘信息，模型的学习潜力尚未触顶，唯有持续扩充数据、升级算力，才能持续释放能力。
现阶段，ESMC 已基于 MIT 协议全面开源，面向全球科研人员开放使用权。Alex Rives 表示，团队定位并非药物研发企业，而是底层技术提供商。其终极使命是借助 AI 打通从蛋白质分子到系统性疾病的全链路认知缺口，为疾病治疗、生命科学研究筑牢技术底座，让 AI 真正成为探索生命奥秘的通用工具。
从 AlphaFold 破解蛋白质结构，到 ESMC 理解蛋白质功能、自主设计医疗蛋白，AI 正在一步步改写生命科学的发展节奏。当数十亿年的生物演化数据遇上大模型的涌现能力，传统科研的边界被不断打破，一个 “可编程生物学” 的新时代，已然拉开帷幕。

参考 11 篇资料

作者：门徒娱乐

蛋白质涌现新突破！68 亿序列锻造最强生物大模型，ESMC 剑指下一代 AlphaFold

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →