機器之心專欄
機器之心編輯部
# PSCP 深度架構 AttnPacker-大幅優化的AI演算法。
蛋白質結構和功能的形成,很大程度上取決於側鏈原子間的相互作用,因此,精準的蛋白質側鏈預測(PSCP)是解決蛋白質結構預測和蛋白質設計難題的關鍵一環。但先前蛋白質結構預測大多聚焦於主鏈結構,側鏈結構預測始終是未完全解決的難題。
近日,分子之心許錦波團隊推出一種新的PSCP 深度架構AttnPacker,在速度、記憶體效率和整體精度方面取得大幅提升,是目前已知的最優側鏈結構預測演算法,也是全球首創的可同時進行蛋白質側鏈預測和序列設計的AI 演算法。
論文發表在《美國科學院院刊》(PNAS)上,其預訓練模型、原始碼和推理腳本都已在 Github 上開源。
論文連結:
https://www.pnas.org/doi/10.1073/pnas.2216438120#supplementary-materials
開源連結:
https://github.com/MattMcPartlon/AttnPacker
背景
蛋白質由數個胺基酸折疊而成,其結構分為主鏈和側鏈。側鏈的差異性對蛋白質的結構與功能有巨大影響,尤其是生物活性。基於對側鏈結構的清晰認知,科學家們能夠更精準地測定蛋白質三維結構,解析蛋白質 - 蛋白質之間的相互作用,並進行理性蛋白質設計。應用到藥物設計領域,科學家便能更快、更準確地找到適合藥物與受體的結合點位,甚至根據需要優化或設計結合點位;在酶優化領域,科學家可以透過對序列的優化改造,讓多個側鏈參與催化反應,達到更有效率、特異性更高的催化效果。
目前大多數蛋白質結構預測演算法主要針對主鏈的結構解析,但蛋白質側鏈結構預測還是一個未被完全突破的難題。無論是 AlphaFold2 等熱門蛋白質結構預測演算法,或是 DLPacker、RosettaPacker 等專注側鏈結構預測的演算法,準確度或速度都不盡如人意。這也為蛋白質設計帶來了限制。
傳統方法,如 RosettaPacker,主要使用能量最佳化方法,先將側鏈原子的分佈分組,再針對某個特定胺基酸來搜尋側鏈的分組,尋找能量最小的組合。這些方法主要區別於研究者對旋轉異構體文庫、能量函數和能量最小化程序的選擇,準確性受限於對搜尋啟發式方法和離散抽樣程序的使用。業界也有基於深度學習的側鏈預測方法,如 DLPacker,它將 PSCP 表述為映像到映像的轉換問題,並採用了 U-net 模型結構。但預測精度和速度仍不夠理想。
方法
AttnPacker 是一種端到端的預測蛋白質側鏈座標的深度學習方法。它結合模擬了側鏈相互作用,直接預測的側鏈結構在物理上更可行,具有更少的原子碰撞和更理想的鍵長和角度。
具體而言,AttnPacker 引入了一種利用 PSCP 的幾何和關係方面的深度圖轉換器架構。受 AlphaFold2 啟發,分子之心提出了位置感知三角形更新,以使用基於圖形的框架來計算三角形注意力和乘法更新,從而優化成對特徵。透過這種方法,AttnPacker 的記憶體顯著減少並擁有更高容量的模型。此外,分子之心探索了幾種 SE (3) 等變注意力機制,並提出了一種用於從 3D 點學習的等變變換器架構。
AttnPacker 運行流程。以蛋白質主鏈座標和序列作為輸入,並基於座標資訊導出空間特徵圖和等變基。特徵圖由不變量 graph-transformer 模組處理,然後傳遞給一個等變的 TFN-Transformer 輸出預測的側鏈座標、每個殘基的置信度分數和可選的設計序列。預測座標經過後處理,以去除所有空間衝突,並確保理想化的幾何結構。
效果
###在预测效果上,AttnPacker 对天然和非天然主链结构都显示出准确性和效率上的改进。同时保证了物理上的可行性,与理想键长和角度的偏差可以忽略不计,且产生了最小的原子空间位阻。
分子之心在 CASP13 和 CASP14 天然和非天然蛋白质主链数据集上对 AttnPacker 与目前最先进的方法 ——SCWRL4、FASPR、RosettaPacker 和 DLPacker 进行对比测试。结果显示,AttnPacker 在 CASP13 和 CASP14 天然主链上显著优于传统蛋白质侧链预测方法,平均重建 RMSD 比每个测试集上的次优方法低 18% 以上。AttnPacker 还超越了深度学习方法 DLPacker,平均 RMSD 降低了 11% 以上,同时也显著提高了侧链二面角精度。除了准确性,AttnPacker 的原子碰撞明显少于其他方法。
给出天然主链结构时,各算法在 CASP13 和 CASP14 目标蛋白上的侧链结构预测结果。星号表示平均冲突值低于天然结构 ——CASP13 为 56.0、5.9 和 0.4,CASP14 为 80.4、7.9 和 2.5。
在 CASP13 和 CASP14 非天然主链上,AttnPacker 也明显优于其他方法,原子碰撞也明显少于其他方法。
给出非天然主链结构时,各算法在 CASP13 和 CASP14 目标蛋白上的侧链结构预测结果。星号表示平均冲突值低于相应天然结构 ——CASP13 的 34.6、2.2、0.5 和 CASP14 的 40.0、2.7、0.7。
创新性地摈弃了离散的旋转异构体库以及计算上昂贵的构象搜索和采样步骤,直接结合主链 3D 几何结构来并行计算所有侧链坐标。AttnPacker 与基于深度学习的方法 DLPacker、基于传统计算方法的 RosettaPacker 相比,计算效率显著提高,减少了 100 倍以上的推理时间。
不同 PSCP 方法的时间比较。重建所有 83 个 CASP13 目标蛋白的侧链原子的相对时间。
AttnPacker 在蛋白质设计上的表现同样优秀。分子之心训练了一个 AttnPacker 变体用以协同设计,该变体可实现媲美当下最先进的方法的天然序列恢复率,同时还可生产高度精确的组装。Rosetta 模拟验证显示,AttnPacker 设计的结构通常会产生亚原生(更低的)Rosetta 能量。
用 ESMFold scTM 和 plDDT 指标对比天然蛋白质序列和 AttnPacker 生成的序列,以评估 AttnPacker 的生成质量,结果表现出强相关性。
除了效果和效率惊人之外,AttnPaker 还有一个非常实用的价值 —— 它非常易用。AttnPaker 只需要一个蛋白质的结构文件即可运行。相比之下,OPUS-Rota4 (28) 需要来自 DLPacker 的原子环境的体素表示、来自 trRosetta100 的逻辑、二级结构和来自 OPUS-CM 输出的约束文件。另外,由于 AttnPacker 直接预测侧链坐标,输出是完全可微分的,这有利于下游预测任务,例如优化或蛋白质 - 蛋白质相互作用。“预测效果好、效率高、易用,这些优势有利于 AttnPacker 在研究和工业领域的广泛使用。” 许锦波教授表示。
总结
1、AttnPacker 是一个用于直接预测序列和侧链坐标的 SE(3)等变模型,可以用于蛋白质侧链结构预测,也可用于蛋白质序列设计,是一项开创性的工作。
2、AttnPacker 的准确性优于其他方法,且效率大幅提升,并具备极高的易用性。
以上是全球首創 :分子之心新AI演算法,攻克蛋白質側鏈預測與序列設計難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!