《JCIM》新突破:安徽农业大学团队创新推出SOPE-MsL,协同嵌入融合驱动蛋白质-小分子结合位点预测新范式!
本文提出SOPE-MsL(Synergy-Optimized Protein Language Model Embeddings with Multiscale Learning),一种创新深度学习模型,通过融合多源蛋白质语言模型(PLM)嵌入与多尺度卷积注意力机制,实现了蛋白质-小分子结合位点的高精度预测。模型核心突破在于系统筛选最优PLM嵌入对(ProstT5与Ankh),并引入加权焦点损失解决类别不平衡问题,在CHEN11、COACH355等基准数据集上显著优于现有方法(如CLAPE-SMB、GraphBind),灵敏度(Sen)提升至42.1%,马修相关系数(MCC)达0.444。一、协同优化嵌入融合:多PLM互补表征驱动预测性能突破SOPE-MsL的核心创新在于通过系统评估不同PLM嵌入的协同效应,实现特征表征的互补增强。研究团队首先对比了ProtTrans、ESM和Ankh系列共6种主流PLM的单嵌入性能,发现ProstT5与Ankh在结合位点预测任务中表现最优(Sen: 39.7% vs 38.0%, MCC: 0.420 vs 0.399)。进一步地,通过嵌入组合实验(图3),ProstT5+Ankh融合嵌入在COACH355测试集上达成最高综合性能(Sen: 42.1%, MCC: 0.444),显著优于单嵌入及其他组合(如ESM2+ProtBERT的MCC仅0.384)。该融合策略充分利用了ProstT5的结构感知特性与Ankh的局部空间依赖性建模能力,形成协同增益。二、多尺度学习架构:局部-全局特征耦合增强空间模式捕获模型架构设计上,SOPE-MsL集成多尺度一维卷积(核尺寸1、3、5)与注意力机制,实现残基级特征的层次化提取。如图所示,输入序列经PLM嵌入融合后(维度2560),并行通过三分支卷积层捕获不同感受野的局部模式,再通过跨头注意力模块建模长程依赖。多尺度特征加权求和后,经MLP分类器输出结合概率。该设计有效解决了结合位点空间分布的异质性问题——例如活性口袋常位于环区或螺旋表面,需同时捕捉局部簇集与全局关联。三、解释性验证应用:SHAP与t-SNE揭示残基级决策机制SOPE-MsL通过可解释性工具强化模型可信度。t-SNE可视化显示,经过多尺度CNN-注意力处理后的特征空间中,结合残基(洋红色)与非结合残基(蓝色)呈现明显聚类,证明模型学习到判别性表征。SHAP分析进一步量化了关键残基的贡献度:例如在案例蛋白1akr_1中,ProstT5通道对结合口袋残基的SHAP attribution占比达63.2%,而Ankh在全局语境建模中占主导,体现嵌入互补性。SOPE-MsL通过协同嵌入融合、多尺度架构与可解释性设计,建立了蛋白质-小分子结合位点预测的新范式。其创新点在于系统化挖掘PLM互补性而非简单堆叠,并结合动态损失平衡与多层次特征学习,在保持高精度的同时提供残基级决策洞察。未来融合三维结构信息与动态构象建模,可进一步拓展其在药物设计中的实用价值。原文链接:https://doi.org/10.1021/acs.jcim.5c02619