计算+生物 | OPUS-Rota4: 一个基于梯度和深度学习的蛋白质侧链建模框架

来源:上海高等研究院发布时间:2022-05-21浏览次数:203


蛋白质三维结构由主链和侧链共同搭建而成,运用人工智能预测蛋白质结构的通常步骤,是先为蛋白质主链建模,再根据主链的构象为侧链建模。自然界中的蛋白质含有20种氨基酸,它们的主链几乎完全相同,而侧链差异很大。由于药物分子与人体蛋白质结合的位点绝大多数在氨基酸侧链上,人工智能技术对侧链的精准预测对新药研发具有重要价值。这种精准预测能力还可用于解释基因点突变、基因小片段突变的机制,为遗传性疾病研究和治疗提供宝贵思路。


精准的蛋白质侧链建模对蛋白质折叠和蛋白质设计至关重要。近年来的研究中,研究人员开发的侧链建模算法大多基于抽样,如SCWRL4OPUS-Rota3等。其从离散的侧链二面角转子库中进行抽样,随后根据一系列能量函数进行优化,找到能够让能量最低的二面角转子即为最终结果。基于抽样的侧链建模算法优点是速度较快,但由于使用离散的转子并受限于能量函数的准确性,其整体侧链预测精度仍然有待提高。


近年来,计算+生物实验室双聘教授、复旦大学教授马剑鹏带领团队运用人工智能技术研发出具有自主知识产权的OPUS系列算法,用于预测蛋白质主链和侧链的三维结构。最近,马教授团队最新论文显示,基于AlphaFold2在国际蛋白质结构预测竞赛上预测的多个蛋白质主链结构重新预测其侧链结构,通过与实验测定的结构比对,OPUS-Rota4对侧链结构的预测精度比AlphaFold2高出13%


OPUS-Rota4引入深度学习算法,使得蛋白质侧链建模精度得到大幅提升。论文中提出一套蛋白质侧链建模的开源工具,包含三个模块:OPUS-RotaNN2,用于预测蛋白质侧链的二面角;OPUS-RotaCM,用于对不同残基侧链之间的距离和方向进行测量;以及由该团队自主研发的建模框架OPUS-Fold2,运用上述两个模块导出的信息进行侧链建模。


研究人员首先使用OPUS-RotaNN2结合多种不同的提取特征得到初始的侧链二面角预测结果,之后使用OPUS-RotaCM得到侧链原子接触图,最后使用OPUS-Fold2根据接触图对初始侧链二面角预测结果进行优化并输出最终结果。


OPUS-Rota4整体框架


研究人员在三个天然构象测试集中进行了测试,其中CAEMO60)包含60个测试蛋白,CASPFM56)包含56个测试蛋白,CASP14 (15)包含15个测试蛋白。其结果显示,在三个测试集中,OPUS-Rota4的结果均优于其他侧链建模算法。



在三个天然构象测试集上的RMSD结果:数值越低说明越接近天然构象,All代表全部残基,Core代表中心残基。全部残基包含中心残基和表面残基。中心残基位于蛋白质内部,对其生物学功能更为重要。

CASP14 (15)15个蛋白的预测结构


论文中展示的研究结果表明,OPUS-Rota4的侧链预测结果和天然构象基本接近,尤其是对于那些位于蛋白质内部的中心残基,预测结果与天然构象高度重叠。


除了三个天然构象测试集外,研究人员还使用AlphaFold2得到了CASP14 (15)15个蛋白的预测结构,并根据预测主链结构对其侧链用不同方法进行重新建模。其结果显示,OPUS-Rota4的结果显著优于其他侧链建模方法,而且比AlphaFold2预测的侧链更接近天然构象。


研究人员还对几个相对预测较差的结构进行了分析。论文中认为,预测较差的主要原因可能是这些结构中都存在较长的无序loop区域,该区域的氨基酸侧链结构自由度较高。研究人员表示,将对蛋白质侧链建模进行进一步研究,以期继续提升准确率,并将探索侧链建模在实际问题中的应用。


运用人工智能对蛋白质侧链结构进行精准预测,不仅对生命科学意义重大,同时也是计算生物学的重大突破。”马剑鹏介绍。


全文请参阅:https://academic.oup.com/bib/article/23/1/bbab529/6461160


本文转载自上海人工智能实验室。

今日编辑:徐敏