蛋白质是生命功能的执行者,也是工业酶、生物药物、生物传感器的核心元件。如何快速获得性能更优的蛋白质,是代谢工程、合成生物学、生物制造领域持续攻坚的瓶颈。
传统定向进化采用“随机突变+功能筛选”的迭代模式,典型流程如下:
这种“试错”模式存在两个致命缺陷:
近年来,AI辅助蛋白设计崭露头角,尤其是基于Transformer架构的蛋白语言模型(如ESM、AlphaFold等)能够从海量序列中学习进化规律,预测单点突变的功能影响。然而,现有AI工具大多仅能评估单一突变,对多突变组合的预测准确率急剧下降——这就像只认识单个字母,却无法读懂整句话。
2026年2月19日,《Science》在线发表了加州大学伯克利分校Patrick D. Hsu团队的研究论文,提出MULTI-evolve(Model-guided, Universal, Multi‑mutation Directed Installation)方法,彻底打破上述瓶颈。该方法仅需一轮进化实验,即可在临近标记酶(APEX/APEX2)、RNA靶向蛋白(CRISPR-Cas13d/dCasRx)、治疗性抗体(抗CD122单抗)等三类蛋白上实现活性/适应性数量级提升,最高可达256倍。
MULTI-evolve的核心创新在于 “用数据训练神经网络,让AI学会突变间的协同规律” ,从而外推多突变组合的功能效应。整个方法可分为四个关键步骤:
研究团队首先利用预训练的蛋白语言模型(如ESM‑2)对目标蛋白的每个氨基酸位点进行功能影响评分,筛选出前5%–10% 可能增强活性的单点突变。这些突变构成初步的“候选突变库”。
技术细节:
为什么选择ESM‑2?
ESM‑2(Evolutionary Scale Modeling‑2)是Meta AI开发的蛋白语言模型,训练数据涵盖2.5亿条天然蛋白序列,能够捕捉氨基酸间的长程依赖关系。相比传统的物理力场计算(如Rosetta ddG),ESM‑2的预测速度快1000倍以上,且无需蛋白晶体结构,极大降低了应用门槛。
为了获取突变间相互作用的真实数据,团队设计了双突变组合实验:从候选突变库中随机选取两两组合,构建双突变体库,并通过高通量功能筛选(如荧光激活细胞分选、微流控液滴筛选)测定每个双突变体的活性值。
实验设计要点:
关键创新:传统定向进化需要测试所有可能的多突变组合,而MULTI-evolve只需测试双突变组合,实验量降低至少两个数量级。例如,10个位点的全面组合需要测试20¹⁰≈10¹³个突变体,而双突变组合仅需C(10,2)×20²≈1.9×10⁴个,相差10⁹倍。
将单点突变的功能评分(来自步骤1)与双突变体的实验活性数据(来自步骤2)作为训练集,输入一个三层全连接神经网络。网络的任务是学习突变间的非线性相互作用——即两个突变同时存在时,其联合效应不等于各自效应的简单相加。
网络架构:
为什么三层网络就够?
研究发现,双突变协同效应主要受局部结构环境影响,而非全局蛋白折叠。三层网络足以建模这种局部非线性关系,同时避免过拟合。训练完成后,该神经网络能够准确预测任意双突变组合的功能效应,并泛化到未见过的突变对。
这是MULTI-evolve的“临门一脚”:利用训练好的神经网络,对所有可能的多突变组合(如3–10个突变同时引入)进行虚拟筛选,直接预测其功能值。团队开发了蒙特卡洛树搜索(MCTS)算法,在巨大的组合空间(例如10个位点、每个位点20种氨基酸,总组合数20¹⁰)中高效寻找全局最优的多突变组合。
关键突破:
MCTS如何工作?
MCTS通过模拟“探索‑利用”平衡,在组合空间中快速定位高潜力区域。算法平均仅需评估约10⁵个虚拟组合(占总空间的10⁻⁸),即可找到性能提升85‑120倍的最优解,计算成本控制在单GPU‑小时内。
研究团队在临近标记酶(APEX/APEX2)、RNA靶向蛋白(CRISPR-Cas13d/dCasRx)、治疗性抗体(抗CD122单抗) 三个代表性蛋白上全面验证了MULTI-evolve的有效性。下图直观展示了优化后的活性提升倍数:
APEX(大豆抗坏血酸过氧化物酶)是用于蛋白质邻近标记的关键工具酶。研究团队首先利用蛋白语言模型(PLM)零样本预测集合筛选出16个功能增强的单点突变,其中包含已知的超增强突变A134P(即APEX2变体)。
优化策略:
CRISPR-Cas13d(dCasRx)是用于RNA靶向和剪接调控的关键蛋白。研究团队通过深度突变扫描(DMS)实验获得功能数据,筛选出增强剪接活性的单点突变。
优化策略:
HuABC2是靶向CD122(IL-2/IL-15受体β链)的高亲和力抗体(EC50 = 2.7 nM),在自身免疫性疾病治疗中具有重要价值。研究团队同时优化其表达水平和结合亲和力。
优化策略:
| 193-256倍 | ||||
| 3.6-4.8倍 | ||||
| 2.8-9.8倍 | ||||
| 亲和力2.7倍 |
关键发现:
与传统方法的定量对比:
| 4–6倍 | |||
| 降低100倍 | |||
| 从0到实用 | |||
| 10⁸倍加速 |
MULTI-evolve标志着蛋白工程从传统实验迭代向 “AI预测‑实验验证” 双轮驱动模式的转型。其核心逻辑可迁移至其他生物分子设计场景:
文献
Rapid directed evolution guided by protein language models and epistatic interactions