CleaveNet Predictor 在两种测试集上均表现出优异的预测性能,且 Transformer 架构略优于 LSTM:
1.定量预测准确性:在 mRNA-display 测试集上,MMP13 的预测 Z 分数与真实 Z 分数的 Pearson 相关系数 r=0.80;荧光测试集上,MMP13 的预测与真实值相关性同样达到 r=0.80,表明模型在不同实验体系、不同长度序列中均具有强泛化性(图2C、E);
2.分类性能:当切割阈值 Zₜ=2.5 时,MMP13 的分类 AUC 达到 0.98,且在 Zₜ=0-2.5 范围内均保持稳健性能(图2D);
3.不确定性评估:模型不确定性与预测绝对误差呈正相关,非切割底物和高切割底物的预测不确定性较低,为底物筛选提供了可靠的置信度参考(图2G)。
CleaveNet Predictor 能够精准量化底物对不同 MMPs 的切割效率,其预测结果可有效指导底物优先级排序,解决了传统计算方法仅能二元预测的局限性。
图 2.CleaveNet 准确预测合成肽对 MMPs 的切割效率
CleaveNet Generator 生成的底物在序列特征、生物物理性质及切割谱上均与天然筛选的底物高度一致:
1.序列特征匹配:生成的底物成功捕获了 MMPs 的经典切割基序(脯氨酸 - X-X - 疏水残基),且在 P3-P2' 关键切割位点的氨基酸分布与 mRNA 展示集的相似度(KL 散度 = 0.25)显著优于位点独立采样基线(KL 散度 = 0.404)(图3B);
2.生物物理性质:生成底物的电荷、疏水性、溶解度、脂肪族指数、等电点等生物物理性质与 mRNA 展示集高度吻合,表明其具有良好的生物相容性(图3C);
3.切割谱一致性:CleaveNet 生成底物的预测切割分数分布与 mRNA 展示集几乎一致,而位点独立采样基线的切割分数显著更低(图3E);
4.序列多样性:生成底物的 3-6-mer 多样性与 mRNA 展示集相似,且未出现明显的序列记忆(仅 95 条与训练集完全匹配),证明其能够探索新的序列空间(图3F)。
CleaveNet Generator 能够在不依赖实验筛选的情况下,生成具有合理生物物理性质和切割潜力的底物,且序列多样性充足,为大规模底物库构建提供了高效手段。
图 3.CleaveNet 生成生物物理性质合理的 MMP 底物
CleaveNet 生成的序列能够捕捉 MMPs 不同亚类的特异性切割偏好,揭示了潜在的分子机制:
1.亚类特异性基序:不同 MMP 亚类(胶原酶、明胶酶、MT1-MMP 等)的 Top 切割分数生成序列,其氨基酸分布与 mRNA 展示集高度吻合,且展现出亚类特异性偏好(如明胶酶的 P3 位脯氨酸占比 99%,P2' 位精氨酸偏好)(图4A);
2.新发现的关键残基:生成序列中发现 P4 位甲硫氨酸对 MMPs 切割效率具有重要作用,其频率较天然氨基酸频率显著升高(明胶酶 11.4 倍、胶原酶 10.9 倍、MT1-MMP14.0 倍),为 MMPs 底物设计提供了新的分子靶点;
3.亚位点协同作用:生成序列中 3-mer(如 PLG)的频率显著高于基线,且 Top4 3-mer 与 mRNA 展示集完全重叠,证明模型能够学习到氨基酸之间的协同作用(图4B);
4.系统发育聚类:基于生成序列切割谱的聚类结果与 MMPs 催化结构域的系统发育距离高度一致,进一步验证了生成序列的生物学合理性(图4C)。
CleaveNet 能够学习到 MMPs 亚类特异性的切割规则及亚位点协同作用,生成序列不仅具有实验可行性,还能揭示未被报道的切割机制,为蛋白酶生物学研究提供新视角。
图 4.生成序列再现 MMP 功能亚类的生物学相关切割模式
CleaveNet设计的MMP13底物在体外实现高效切割
针对 MMP13(癌症转移和骨关节炎相关蛋白酶)的体外验证结果表明,CleaveNet 设计的底物性能显著优于传统方法:
1.高命中率:24 条 CleaveNet 生成的 MMP13 高效底物全部被切割(命中率 100%),而位点独立基线的命中率仅 12.5%(1/8),位点独立 + Predictor 筛选的命中率提升至 100%(8/8)(图5B);
2.切割效率优异:CleaveNet 生成底物的中位切割效率(0.64)显著高于 mRNA 展示集阳性对照(0.22),其中 18 条底物的切割效率超过训练集中最高效的底物 DL57(效率 0.46)(图5B);
3.新切割基序发现:Top7 高效底物的共同特征为 P3-P2 位的 PL 基序,P1 和 P1' 位为疏水性氨基酸,且 P4 位丙氨酸、P3' 位天冬氨酸具有偏好性,这些特征在训练集中未被明确报道(图 5C)。
CleaveNet 设计的底物在体外实验中展现出极高的切割效率和命中率,不仅验证了模型的实用性,还发现了新的 MMP13 高效切割基序,为 MMP13 靶向工具开发提供了优质候选底物。
图 5.CleaveNet 设计的底物在体外被 MMP13 高效切割
通过条件生成机制,CleaveNet 成功设计出仅被 MMP13 切割的高选择性底物:
1.选择性显著提升:条件生成的 MMP13 选择性底物,其选择性分数中位数较无条件生成序列高 5.5 倍(p<0.0001),且显著高于 mRNA 展示集序列(图6B);
2.序列独特性:条件生成序列与 mRNA 展示集的 k-mer 重叠度随 k 值增加而降低,6-mer 几乎完全不重叠,证明其探索了新的选择性序列空间(图6D);
3.泛化性验证:针对 MMP9(与 MMP2 底物重叠度高,选择性设计难度大)的条件生成结果表明,其选择性分数同样显著高于基线,证明条件生成机制具有普适性。
条件生成机制能够精准引导底物生成方向,实现对选择性的定向调控,解决了传统方法中效率与选择性难以兼顾的核心难题。
大规模体外筛选验证CleaveNet底物的高选择性与高效性
对 95 条底物(40 条高效、40 条选择性、15 条对照)与 12 种 MMPs 的大规模体外筛选结果显示:
1.切割谱符合设计预期:高效底物对 MMP13 切割率高,但对其他 MMPs 存在交叉切割( promiscuous );选择性底物则主要被 MMP13 切割,交叉反应少(图7B);
2.高效 - 高选择性底物发现:5 条底物进入 “高高效 - 高选择性” 象限(E>0.4,S>2.4),且均为 CleaveNet 设计序列,这类底物在训练集中几乎不存在,证明 CleaveNet 能够探索稀疏序列空间(图7D);
3.选择性分子机制:高选择性底物的特征为 P2 位精氨酸、P1' 位芳香族氨基酸(尤其是苯丙氨酸)、P3' 位天冬氨酸,为后续选择性底物设计提供了明确的结构指导(图7F);
4.切割阈值校准:通过大规模筛选,确定了 12 种 MMPs 的切割阈值(Zₜ=0.3-2.4),为后续底物设计的定量预测提供了校准标准。
CleaveNet 不仅能够设计出高效或高选择性的单一性能底物,还能实现 “高效 - 高选择性” 双优底物的设计,这类底物具有极高的应用价值,且其分子特征为蛋白酶底物设计提供了新的设计规则。
图 7.CleaveNet 设计的底物在体外被 MMP13 选择性切割