
Biohub 的 ESM 仓库把蛋白质世界模型这一波进展集中到了一起:ESMC、ESMFold2 和 ESM Atlas。它的定位很清楚,不只是一个模型 demo,而是一套面向蛋白质预测、设计和发现的科研引擎,试图从进化产生的大规模蛋白序列中学习生物学规律。
ESMC 是新的蛋白质语言模型,训练于数十亿蛋白序列,用来学习从原子相互作用到长期进化关系的表示。官方也释放了 ESMC sparse autoencoders,用约 16,000 个可解释特征去拆解模型内部表征,让这个“世界模型”更容易映射到已知生物学知识。
ESMFold2 则建立在 ESMC 6B 上,用于蛋白结构预测。README 里强调它在 Foldbench 蛋白-蛋白与抗体-抗原复合物上有很强表现,也支持 single-sequence mode,能带来数量级上的折叠速度提升。官方还描述了用 ESMFold2 inversion 做 de novo minibinders 和 antibody-derived scFvs 设计的实验验证路径。
ESM Atlas 是另一块很重的资产:它覆盖 68 亿蛋白,并包含超过 10 亿个预测结构。Atlas 按 ESMC 内部世界模型组织,还用 agentic pipeline 给 SAE 特征生成自然语言解释,这一点对想理解蛋白功能关系的人很有吸引力。
仓库当前约 2.6k stars,主要内容是 notebook、教程和 Python 包安装入口;模型权重与变体主要通过 Hugging Face 和 Biohub Platform 获取。GitHub license 字段显示为 Other / NOASSERTION,实际使用前需要仔细看仓库里的 license 与 frontier-safety 说明。对蛋白质语言模型、结构预测和生物设计工作流感兴趣的人,这个项目值得重点跟进。
项目地址
官网:https://biohub.ai/esm/protein
项目地址:https://github.com/Biohub/esm
原创文章,如若转载,请注明出处:https://wefound.cc/p/4156.html