Deep learning guided design of protease substrates

News Message

Deep learning guided design of protease substrates

by wittx 2026-03-04

Deep learning guided design of protease substrates

用户发布的文档

加载速度比较慢比较慢，请稍等，手机环境下，有可能无法显示！

麻省理工学院Koch综合癌症研究所、哈佛-麻省理工健康科学与技术部、微软研究院联合的团队，在期刊《Nature Communications》（影响因子 15.7）发表了题为 “Deep learning guided design of protease substrates” 的研究论文。团队开发了一款端到端的人工智能（AI）设计工具 CleaveNet，通过深度学习技术破解蛋白酶底物设计的 combinatorial 难题，成功实现了基质金属蛋白酶（MMPs）底物的高效生成与精准调控，尤其在 MMP13（与癌症转移、骨关节炎相关）的高选择性底物设计中取得突破性成果。

摘要
蛋白酶是一类在健康和疾病中发挥关键作用的酶，通过切割肽键行使其功能。识别能被目标蛋白酶高效且选择性切割的底物，对于研究蛋白酶活性以及将其应用于蛋白酶激活的诊断和疗法至关重要。然而，可能底物的巨大设计空间（对于一个10肽，大约有20¹⁰种氨基酸组合）和高通量活性分析工具的有限可及性，阻碍了底物设计的速度和成功率。团队提出了 CleaveNet，一个用于蛋白酶底物设计的端到端 AI 流程。应用于基质金属蛋白酶时，CleaveNet 提升了底物设计的规模、可调性和效率。CleaveNet 生成的肽底物展现出良好的生物物理特性，并且不仅捕获了已充分证实的切割基序，还包括了先前未表征的切割基序。为了控制底物设计，CleaveNet 引入了一个条件标签，引导肽生成朝向所需的切割谱，从而实现高效和选择性底物的靶向设计。CleaveNet 生成的底物通过大规模体外筛选进行了实验验证，即使是在设计 MMP13 高度选择性底物这一挑战性案例中也是如此。团队预期 CleaveNet 将加速研究和利用蛋白酶活性的能力，为跨酶类的计算机设计工具铺平道路。

介绍
蛋白酶是一类在凝血、组织重塑、癌症等健康与疾病过程中起关键作用的多样化酶，其功能依赖肽键切割，因此识别可作为分子探针、肽基抑制剂或工程化诊断 / 疗法中条件激活触发器的肽底物，是研究和利用蛋白酶活性的核心。但设计兼具高效（高绝对切割率）与选择性（优先被目标蛋白酶切割）的底物极具挑战：一方面，蛋白酶与底物的相互作用介导广泛切割特异性，10 氨基酸肽的潜在序列可达 20¹⁰种（约 10¹³ 种），且非天然氨基酸未计入；另一方面，功能相关蛋白酶多源于共同祖先，共享重叠底物集合，进一步增加了选择性底物的识别难度。

底物设计通常分为两步：从组合序列空间提名候选底物，再根据针对目标蛋白酶的筛选结果选择底物。现有提名方法中，文献检索天然蛋白切割位点的方式效率低下，理性设计则资源密集、低通量且需定制；高通量实验筛选（如 mRNA、噬菌体展示）虽能覆盖部分序列空间，但复杂昂贵；传统计算方法仅能提供 “切割 / 未切割” 的二元预测，无法量化切割效率，难以满足工程应用需求。

为此，团队提出 AI 端到端设计流程 CleaveNet，由预测模型（分配蛋白酶切割分数）和生成模型（无条件或按目标切割谱条件生成肽序列）组成。该模型基于 18 种基质金属蛋白酶（MMPs）的 mRNA 展示肽数据集训练，在 MMPs（尤其与癌症转移、骨关节炎相关的 MMP13）上验证显示：CleaveNet 能精准预测切割分数，生成的序列涵盖已知及未表征切割基序，所有设计底物均能被 MMP13 切割，部分条件设计底物还具备极高选择性（仅被 MMP13 切割），为克服 MMPs 混杂性、提升蛋白酶底物设计的规模、多样性与可调性提供了新方案。
图 1.蛋白酶底物设计的深度学习方法

实验方法
数据集构建
1.训练数据集：采用公开的 mRNA 展示肽数据集，包含 18,583 个 10-mer 合成肽序列，以及它们对 18 种 MMPs 的连续切割效率（量化为标准化 Z 分数 Zₛₘ，代表底物 s 被蛋白酶 m 切割的相对强度）；

2.测试数据集：
1）mRNA-display 测试集：从训练集中随机抽取 20% 序列，经同源性过滤（去除与训练集 Levenshtein 距离 < 3 的序列），最终得到 2901 个非重叠序列；

2）荧光测试集：包含 71 个 FRET 配对序列，经体外实验筛选 7 种重组 MMPs 的切割活性，序列长度为 7-14-mer，与训练集实验方法及序列特征均不同，用于验证模型的泛化性。

预测模型训练
1.模型任务定义
将预测任务定义为多输出序列 - 功能回归问题：给定输入氨基酸序列 s，预测其对 18 种 MMPs 的连续切割分数Ẑₛₘ，同时计算预测不确定性 σₛₘ（通过 5 个模型集成的预测标准差量化）。Ẑₛₘ可根据预设阈值 Zₜ转换为二元分类结果（切割 / 不切割）。

2.模型架构与超参数优化
评估了两种序列建模常用架构：

1）双向 LSTM：按顺序学习序列模式，模型参数 44k，包含 2 层全连接双向 LSTM（隐藏维度 32），dropout 率 0.25，批大小 32；

2）Transformer（编码器架构）：同时关注序列所有元素，适合蛋白质语言建模，模型参数 56k，包含 2 层编码器（模型维度 32），6 个注意力头，批大小 64。

超参数网格搜索范围：批大小（32/64/128/256）、隐藏维度（16/32/64/128）、隐藏层数量（2/4/6）、dropout 率（0/0.1/0.25/0.3），选择验证损失最低的参数组合。

3.训练策略
1）输入处理：将氨基酸序列 token 化（20 种天然氨基酸 +[PAD] token），Transformer 模型额外在序列起始添加 [CLS] token；

2）优化器：Adam 优化器，训练 70 个 epoch；

3）学习率：
Transformer 采用原始 Transformer 论文中的公式：
其中 d_model=32，warmup_steps=4000；LSTM 学习率为 5e-3；

4）模型集成：训练 5 个独立模型（基于不同的 80/20 训练 / 验证集分割），用于量化预测不确定性。

生成模型训练
1.模型任务定义
采用自回归生成模型，给定前序氨基酸残基 x₁...xᵢ₋₁，预测下一个残基 xᵢ的概率，序列概率可分解为：

2.模型架构与训练策略
1）架构选择：评估 LSTM 与 Transformer 解码器，最终选择性能更优的 3 层解码器 Transformer（模型参数 328k，隐藏维度 64，6 个注意力头）；

2）输入处理：序列起始添加 [START] token，结束添加 [STOP] token，token 化方式与预测模型一致；

3）训练模式：
①无条件生成：仅以 [START] token 为输入，生成随机 MMPs cleavable 底物；

②条件生成：以 18 种 MMPs 的 Z 分数向量（四舍五入到小数点后一位）替代 [START] token，引导生成符合预设切割谱的底物；

③混合训练：50% epoch 训练无条件生成，50% 训练条件生成，批大小 128，学习率同 Transformer 预测模型，训练 50 个 epoch（测试损失趋于平稳）。

3.底物生成与筛选
1）无条件生成：生成 20,000 条序列，过滤长度≠10-mer 及与训练集完全匹配的序列，最终得到 19,905 条有效序列；

2）条件生成：以 mRNA 展示数据集中 Top50 MMP13 高效 / 选择性底物的 Z 分数谱为种子，每条种子生成 400 条序列，共得到 20,000 条高效序列和 20,000 条选择性序列；

3）筛选策略：通过 CleaveNet Predictor 的不确定性感知分数（Ẑₛₘ - σₛₘ）排序，过滤冗余 5-mer 序列，确保底物多样性。

体外验证流程
1.底物合成：选择 48 条 CleaveNet 生成序列（24 条高效、24 条选择性）、16 条基线序列（8 条位点独立采样、8 条位点独立 + Predictor 筛选）、15 条对照序列（训练集中高效 / 选择性 / 不切割底物），合成 FRET 标记的荧光底物（Mca-DNP 修饰）；

2.蛋白酶孵育：将 95 条底物分别与 12 种重组 MMPs 在 37℃孵育 3-24 小时，蛋白酶浓度 10 nM（MMP2/MMP10 为 75 nM，MMP7 为 30 nM），使用专用 MMP 缓冲液（MMP3 为 pH 6 的 MES 缓冲液）；

3.活性检测：通过 Tecan Infinite M200 Pro 荧光计检测荧光强度变化，计算切割效率（FCₓ/(FCₘₐₓ - FCₘᵢₙ)，0 代表不切割，1 代表最高切割率）；

4.选择性计算：
选择性分数 Sₛₘ定义为目标蛋白酶切割效率与其他蛋白酶平均切割效率的差值：
校正后的选择性分数：
其中Ẽₛₘ为校正效率：
Tₘ为各 MMP 的切割阈值（基于 ROC-AUC 最大化确定）。

研究结果
精准预测MMPs切割效率
CleaveNet Predictor 在两种测试集上均表现出优异的预测性能，且 Transformer 架构略优于 LSTM：

1.定量预测准确性：在 mRNA-display 测试集上，MMP13 的预测 Z 分数与真实 Z 分数的 Pearson 相关系数 r=0.80；荧光测试集上，MMP13 的预测与真实值相关性同样达到 r=0.80，表明模型在不同实验体系、不同长度序列中均具有强泛化性（图2C、E）；

2.分类性能：当切割阈值 Zₜ=2.5 时，MMP13 的分类 AUC 达到 0.98，且在 Zₜ=0-2.5 范围内均保持稳健性能（图2D）；

3.不确定性评估：模型不确定性与预测绝对误差呈正相关，非切割底物和高切割底物的预测不确定性较低，为底物筛选提供了可靠的置信度参考（图2G）。

CleaveNet Predictor 能够精准量化底物对不同 MMPs 的切割效率，其预测结果可有效指导底物优先级排序，解决了传统计算方法仅能二元预测的局限性。
图 2.CleaveNet 准确预测合成肽对 MMPs 的切割效率

生成生物物理性质合理的 MMPs 底物
CleaveNet Generator 生成的底物在序列特征、生物物理性质及切割谱上均与天然筛选的底物高度一致：

1.序列特征匹配：生成的底物成功捕获了 MMPs 的经典切割基序（脯氨酸 - X-X - 疏水残基），且在 P3-P2' 关键切割位点的氨基酸分布与 mRNA 展示集的相似度（KL 散度 = 0.25）显著优于位点独立采样基线（KL 散度 = 0.404）（图3B）；

2.生物物理性质：生成底物的电荷、疏水性、溶解度、脂肪族指数、等电点等生物物理性质与 mRNA 展示集高度吻合，表明其具有良好的生物相容性（图3C）；

3.切割谱一致性：CleaveNet 生成底物的预测切割分数分布与 mRNA 展示集几乎一致，而位点独立采样基线的切割分数显著更低（图3E）；

4.序列多样性：生成底物的 3-6-mer 多样性与 mRNA 展示集相似，且未出现明显的序列记忆（仅 95 条与训练集完全匹配），证明其能够探索新的序列空间（图3F）。

CleaveNet Generator 能够在不依赖实验筛选的情况下，生成具有合理生物物理性质和切割潜力的底物，且序列多样性充足，为大规模底物库构建提供了高效手段。
图 3.CleaveNet 生成生物物理性质合理的 MMP 底物

生成序列再现MMPs功能亚类的生物学相关切割模式
CleaveNet 生成的序列能够捕捉 MMPs 不同亚类的特异性切割偏好，揭示了潜在的分子机制：

1.亚类特异性基序：不同 MMP 亚类（胶原酶、明胶酶、MT1-MMP 等）的 Top 切割分数生成序列，其氨基酸分布与 mRNA 展示集高度吻合，且展现出亚类特异性偏好（如明胶酶的 P3 位脯氨酸占比 99%，P2' 位精氨酸偏好）（图4A）；

2.新发现的关键残基：生成序列中发现 P4 位甲硫氨酸对 MMPs 切割效率具有重要作用，其频率较天然氨基酸频率显著升高（明胶酶 11.4 倍、胶原酶 10.9 倍、MT1-MMP14.0 倍），为 MMPs 底物设计提供了新的分子靶点；

3.亚位点协同作用：生成序列中 3-mer（如 PLG）的频率显著高于基线，且 Top4 3-mer 与 mRNA 展示集完全重叠，证明模型能够学习到氨基酸之间的协同作用（图4B）；

4.系统发育聚类：基于生成序列切割谱的聚类结果与 MMPs 催化结构域的系统发育距离高度一致，进一步验证了生成序列的生物学合理性（图4C）。

CleaveNet 能够学习到 MMPs 亚类特异性的切割规则及亚位点协同作用，生成序列不仅具有实验可行性，还能揭示未被报道的切割机制，为蛋白酶生物学研究提供新视角。
图 4.生成序列再现 MMP 功能亚类的生物学相关切割模式

CleaveNet设计的MMP13底物在体外实现高效切割
针对 MMP13（癌症转移和骨关节炎相关蛋白酶）的体外验证结果表明，CleaveNet 设计的底物性能显著优于传统方法：

1.高命中率：24 条 CleaveNet 生成的 MMP13 高效底物全部被切割（命中率 100%），而位点独立基线的命中率仅 12.5%（1/8），位点独立 + Predictor 筛选的命中率提升至 100%（8/8）（图5B）；

2.切割效率优异：CleaveNet 生成底物的中位切割效率（0.64）显著高于 mRNA 展示集阳性对照（0.22），其中 18 条底物的切割效率超过训练集中最高效的底物 DL57（效率 0.46）（图5B）；

3.新切割基序发现：Top7 高效底物的共同特征为 P3-P2 位的 PL 基序，P1 和 P1' 位为疏水性氨基酸，且 P4 位丙氨酸、P3' 位天冬氨酸具有偏好性，这些特征在训练集中未被明确报道（图 5C）。

CleaveNet 设计的底物在体外实验中展现出极高的切割效率和命中率，不仅验证了模型的实用性，还发现了新的 MMP13 高效切割基序，为 MMP13 靶向工具开发提供了优质候选底物。
图 5.CleaveNet 设计的底物在体外被 MMP13 高效切割

条件生成实现MMP13高选择性底物设计
通过条件生成机制，CleaveNet 成功设计出仅被 MMP13 切割的高选择性底物：

1.选择性显著提升：条件生成的 MMP13 选择性底物，其选择性分数中位数较无条件生成序列高 5.5 倍（p<0.0001），且显著高于 mRNA 展示集序列（图6B）；

2.序列独特性：条件生成序列与 mRNA 展示集的 k-mer 重叠度随 k 值增加而降低，6-mer 几乎完全不重叠，证明其探索了新的选择性序列空间（图6D）；

3.泛化性验证：针对 MMP9（与 MMP2 底物重叠度高，选择性设计难度大）的条件生成结果表明，其选择性分数同样显著高于基线，证明条件生成机制具有普适性。

条件生成机制能够精准引导底物生成方向，实现对选择性的定向调控，解决了传统方法中效率与选择性难以兼顾的核心难题。
图 6.条件生成实现选择性底物的靶向设计

大规模体外筛选验证CleaveNet底物的高选择性与高效性
对 95 条底物（40 条高效、40 条选择性、15 条对照）与 12 种 MMPs 的大规模体外筛选结果显示：

1.切割谱符合设计预期：高效底物对 MMP13 切割率高，但对其他 MMPs 存在交叉切割（ promiscuous ）；选择性底物则主要被 MMP13 切割，交叉反应少（图7B）；

2.高效 - 高选择性底物发现：5 条底物进入 “高高效 - 高选择性” 象限（E>0.4，S>2.4），且均为 CleaveNet 设计序列，这类底物在训练集中几乎不存在，证明 CleaveNet 能够探索稀疏序列空间（图7D）；

3.选择性分子机制：高选择性底物的特征为 P2 位精氨酸、P1' 位芳香族氨基酸（尤其是苯丙氨酸）、P3' 位天冬氨酸，为后续选择性底物设计提供了明确的结构指导（图7F）；

4.切割阈值校准：通过大规模筛选，确定了 12 种 MMPs 的切割阈值（Zₜ=0.3-2.4），为后续底物设计的定量预测提供了校准标准。

CleaveNet 不仅能够设计出高效或高选择性的单一性能底物，还能实现 “高效 - 高选择性” 双优底物的设计，这类底物具有极高的应用价值，且其分子特征为蛋白酶底物设计提供了新的设计规则。
图 7.CleaveNet 设计的底物在体外被 MMP13 选择性切割

讨论与结论
鉴于蛋白酶底物库的庞大性，识别具有目标切割谱的底物仍是重大挑战。研究团队开发的 AI 驱动流程 CleaveNet，可设计预定义切割谱的蛋白酶底物，无需化学生物学先验知识，其生成器与预测器模型取代了传统底物提名和选择步骤，大幅提升了设计的规模、可调性与有效性。

CleaveNet 在 18 种 MMPs（健康与疾病相关蛋白酶类）上验证有效，能整合底物的连续切割分数，同时优化切割效率与选择性。计算机模拟显示，其生成的底物序列独特，却保持与训练数据相当的生物物理特性和切割谱，可重现跨 MMPs 的生物学相关基序，捕获亚位点协同性等复杂关系；引入条件标签后，还能定向生成高选择性底物（如 MMP13 特异性底物）。体外实验验证表明，所有 CleaveNet 设计的底物均能被 MMP13 切割，其中 3 种底物仅被 MMP13 识别（与训练集中最优选择性相当），另有一组底物兼具高选择性与高效率（训练数据中缺失该特性）。此外，通过荧光筛选确定的切割阈值，可校准预测 Z 分数与真实切割效率，提升数据可解释性，相关模型、数据集与代码库已开源。

CleaveNet 的核心贡献是将生成模型应用于蛋白酶底物设计，解决了传统方法手动操作、试错主导、命中率低的痛点。它通过学习肽序列数据和整合条件标签，将生物学合理性嵌入文库设计，可引导生成特定切割谱的序列，补充而非取代基于展示的技术，还能输出连续切割分数，优于二元切割预测工具，实现了与高通量展示策略相当的合成数据集生成。

CleaveNet 仍有局限：目前仅支持合成底物，需扩展至天然底物或全长蛋白质；仅验证了 MMPs 底物设计，需覆盖更多蛋白酶亚类；仍需体外实验验证底物实用性。未来可整合 AI 蛋白质结构预测与生成设计模型，拓展应用场景；针对其他 MMPs 或蛋白酶设计选择性底物；支持多蛋白酶切割的底物设计（如前药激活、底物逻辑设计）；结合高通量数据构建跨蛋白酶类别的底物图谱，为核酸酶、激酶等其他酶类的底物设计奠定基础。

CleaveNet 简化了特定蛋白酶肽底物的设计流程，开源特性使其惠及更多科研团队，有望催化蛋白酶研究及相关诊断、治疗工具的研发。

开源工具链接：
CleaveNet 模型、数据集及代码已完全开源：
https://github.com/microsoft/cleavenet

往
期
文
章

JACS（IF=15.7）|UCLA团队借力AI+MD解析PfB酶选择性催化机制，4步周环反应高效合成天然产物
Nat.Mach.Intell（IF=23.9）|耶鲁大学：ImmunoStruct多模态AI模型，以26049数据集实现免疫原性预测新高度，AUROC 0.882
Nat.Mach.Intell（IF=23.9）|伯克利国家实验室&密苏里大学开发PoseBench，DL共折叠方法主配体对接成功率64%，突破蛋白-配体对接瓶颈
J.Adv.Res.（IF=13）|AI药物发现新范式：从“微摩尔”到“纳摩尔”，杭州师范大学如何用AI生成+人工优化实现2300倍活性飞跃
APSB（IF=14.6）|中山大学团队构建全球首个萜类化合物生物活性图谱与AI发现平台，精准预测并实验验证新型抗黑色素瘤先导化合物
APSB（IF=14.6）|中国海洋大学+中科院团队利用AI+冷冻电镜，设计出靶向α7 nAChR的最小化芋螺肽，效力提升29倍
Nat.Commun.（IF=15.7）|UBC团队开发强化学习神器TARSA：高效筛选3600万肽库，解锁15种抗乳腺癌活性肽，3种具临床转化潜力
Nat.Commun.（IF=15.7）|香港中文大学（深圳）开发SCOPE-DTI，数据集扩大100倍，AI+3D结构助力药物靶点预测成功率超80%

Share Http URL: http://www.wittx.cn/get_news_message.do?new_id=1526

©2021 上海优钧机械设备科技有限公司

Best Last Month

硬件设备-传感器

硬件设备-传感器
Computer software and hardware

by wittx

微软 10 月将发布 Windows 11

微软 10 月将发布 Windows 11
Information industry

by wittx

RetinaNet

RetinaNet
Information industry

by wittx

微软正式推出Windows 11系统

微软正式推出Windows 11系统
Computer software and hardware

by wittx

Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond

Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond
Information industry

by wittx

无线电

无线电
Computer software and hardware

by wittx

2020/12/22 金融行情

2020/12/22 金融行情
Information industry

by wittx

科学家利用CD19和CD22双靶点CAR-T细胞治疗复发性或难治性B细胞恶性肿瘤

科学家利用CD19和CD22双靶点CAR-T细胞治疗复发性或难治性B细胞恶性肿瘤
Information industry

by wittx

Mechanical Design

Mechanical Design
Information industry

by wittx

机器人人机协作的无传感器碰撞检测

机器人人机协作的无传感器碰撞检测
Information industry

by wittx