「ESM」Biohub 开源蛋白质世界模型：覆盖 ESMC、ESMFold2 和 68 亿蛋白 Atlas

Biohub 的 ESM 仓库把蛋白质世界模型这一波进展集中到了一起：ESMC、ESMFold2 和 ESM Atlas。它的定位很清楚，不只是一个模型 demo，而是一套面向蛋白质预测、设计和发现的科研引擎，试图从进化产生的大规模蛋白序列中学习生物学规律。

ESMC 是新的蛋白质语言模型，训练于数十亿蛋白序列，用来学习从原子相互作用到长期进化关系的表示。官方也释放了 ESMC sparse autoencoders，用约 16,000 个可解释特征去拆解模型内部表征，让这个“世界模型”更容易映射到已知生物学知识。

ESMFold2 则建立在 ESMC 6B 上，用于蛋白结构预测。README 里强调它在 Foldbench 蛋白-蛋白与抗体-抗原复合物上有很强表现，也支持 single-sequence mode，能带来数量级上的折叠速度提升。官方还描述了用 ESMFold2 inversion 做 de novo minibinders 和 antibody-derived scFvs 设计的实验验证路径。

ESM Atlas 是另一块很重的资产：它覆盖 68 亿蛋白，并包含超过 10 亿个预测结构。Atlas 按 ESMC 内部世界模型组织，还用 agentic pipeline 给 SAE 特征生成自然语言解释，这一点对想理解蛋白功能关系的人很有吸引力。

仓库当前约 2.6k stars，主要内容是 notebook、教程和 Python 包安装入口；模型权重与变体主要通过 Hugging Face 和 Biohub Platform 获取。GitHub license 字段显示为 Other / NOASSERTION，实际使用前需要仔细看仓库里的 license 与 frontier-safety 说明。对蛋白质语言模型、结构预测和生物设计工作流感兴趣的人，这个项目值得重点跟进。