ホームページ >テクノロジー周辺機器 >AI >世界初:タンパク質側鎖予測と配列設計の問題を克服する、Molecular Heart のオープンソースの新しい AI アルゴリズム

世界初:タンパク質側鎖予測と配列設計の問題を克服する、Molecular Heart のオープンソースの新しい AI アルゴリズム

WBOY
WBOY転載
2023-06-05 18:10:271199ブラウズ

タンパク質の構造と機能の形成は側鎖原子間の相互作用に大きく依存するため、正確なタンパク質側鎖予測 (PSCP) はタンパク質の構造予測とタンパク質設計の問題を解決する鍵となります。しかし、これまでのタンパク質の構造予測は主鎖の構造に焦点が当てられており、側鎖の構造予測は完全には解決されていない難しい問題でした。

最近、Molecular Heart の Xu Jinbo チームは、速度、メモリ効率、全体的な精度の大幅な向上を達成した新しい PSCP ディープ アーキテクチャ AttnPacker を立ち上げました。これは現在最もよく知られている側面です。鎖構造予測アルゴリズムは、タンパク質の側鎖と配列設計を同時に予測できる世界初のAIアルゴリズムでもある。

この論文は米国科学アカデミー紀要 (PNAS) に掲載され、その事前トレーニング済みモデル、ソース コード、推論スクリプトは Github でオープンソース化されています。

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

  • 紙のリンク: https://www.pnas.org /doi/10.1073/pnas.2216438120#supplementary-materials
  • オープンソースリンク: https://github.com/MattMcPartlon/AttnPacker
背景

タンパク質はいくつかのアミノ酸から折りたたまれており、その構造は主鎖と側鎖に分かれています。側鎖の違いは、タンパク質の構造と機能、特に生物活性に大きな影響を与えます。側鎖構造の明確な理解に基づいて、科学者はタンパク質の三次元構造をより正確に決定し、タンパク質間相互作用を分析し、合理的なタンパク質設計を行うことができます。薬物設計の分野に適用すると、科学者は薬物と受容体に適した結合部位を迅速かつより正確に見つけ出し、必要に応じて結合部位を最適化または設計することもできます;酵素最適化の分野では、科学者は配列を最適化できます変換により複数の側鎖が可能になります触媒反応に参加して、より効率的かつ特異的な触媒効果を達成します。

現在のタンパク質構造予測アルゴリズムのほとんどは主鎖の構造解析に焦点を当てていますが、タンパク質の側鎖構造予測は依然として完全には克服されていない問題です。 AlphaFold2 などの一般的なタンパク質構造予測アルゴリズムであっても、DLPacker や RosettaPacker などの側鎖構造予測に重点を置いたアルゴリズムであっても、精度や速度が満足できるものではありません。これはタンパク質の設計にも制限を課します。

RosettaPacker などの従来の方法では、主にエネルギー最適化方法が使用され、最初に側鎖原子の分布をグループ化し、次に特定のアミノ酸の側鎖のグループ化を検索して見つけます。最小エネルギーの組み合わせ。これらの方法は、研究者が選択した回転異性体ライブラリー、エネルギー関数、エネルギー最小化手順とは主に異なり、検索ヒューリスティックや離散サンプリング手順の使用によって精度が制限されます。業界には、PSCP を画像から画像への変換問題として定式化し、U-net モデル構造を採用する DLPacker など、深層学習に基づくサイドチェーン予測手法もあります。ただし、予測の精度と速度はまだ理想的ではありません。

メソッド

AttnPacker は、タンパク質側鎖の座標を予測するためのエンドツーエンドの深層学習メソッドです。側鎖相互作用を共同でシミュレートし、原子衝突が少なく、より理想的な結合長と角度を備えた、より物理的に実現可能な側鎖構造を直接予測します。

具体的には、AttnPacker は、PSCP の幾何学的な側面とリレーショナルな側面を活用する深度マップ コンバーター アーキテクチャを導入しています。 AlphaFold2 からインスピレーションを得た Molecular Heart は、三角形のアテンションと乗算更新を計算するグラフベースのフレームワークを使用してペアごとの特徴を最適化する、位置を認識した三角形の更新を提案します。このアプローチにより、AttnPacker のメモリは大幅に削減され、より大容量のモデルになります。さらに、Molecular Heart は、いくつかの SE (3) 等変注意メカニズムを調査し、3D ポイントから学習するための等変トランスフォーマー アーキテクチャを提案しています。

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

#

AttnPacker がプロセスを実行します。タンパク質骨格の座標と配列が入力として使用され、その座標情報に基づいて空間特徴マップと等変基底が導出されます。特徴マップは、不変グラフ トランスフォーマー モジュールによって処理され、予測された側鎖座標、各残基の信頼スコア、およびオプションの設計配列を出力する等変 TFN トランスフォーマーに渡されます。予測された座標は後処理されて、すべての空間的矛盾が除去され、理想的なジオメトリが保証されます。

効果

予測パフォーマンスの観点から、At​​tnPacker は天然および非天然の両方のバックボーン構造の精度と効率が向上していることを示しています。同時に、物理的な実現可能性が確保され、理想的な結合の長さと角度からの逸脱は無視でき、原子の立体障害が最小限に抑えられます。

Molecular Heart は、AttnPacker と現在の最先端の方法 (SCWRL4、FASPR、RosettaPacker、DLPacker) の比較テストを CASP13 および CASP14 の天然および非天然タンパク質骨格に対して実施します。データセット。結果は、AttnPacker が CASP13 および CASP14 ネイティブ バックボーンに対して従来のタンパク質側鎖予測法を大幅に上回っており、平均再構成 RMSD が各テスト セットで次善の方法より 18% 以上低いことを示しています。また、AttnPacker は深層学習手法 DLPacker よりも優れたパフォーマンスを示し、平均 RMSD を 11% 以上削減すると同時に、サイドチェーンの二面角の精度も大幅に向上させます。精度に加えて、AttnPacker は他の方法よりもアトミック衝突が大幅に少ないです。

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

自然な主鎖構造が与えられると、各アルゴリズムは CASP13 で実行され、 CASP14 標的タンパク質の側鎖構造予測結果。アスタリスクは、平均競合値がネイティブ構造よりも低いことを示します (CASP13 では 56.0、5.9、および 0.4、CASP14 では 80.4、7.9、および 2.5)。

CASP13 および CASP14 の非ネイティブ バックボーンでは、AttnPacker は他の方法よりも大幅に優れており、アトミック衝突も他の方法よりも大幅に少なくなっています。

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

#非自然な主鎖構造が与えられた場合、各アルゴリズムは次のようになります。 CASP13 および CASP14 標的タンパク質の側鎖構造予測結果。アスタリスクは、平均競合値が対応するネイティブ構造よりも低いことを示します (CASP13 では 34.6、2.2、0.5、CASP14 では 40.0、2.7、0.7)。

離散回転異性体ライブラリーと計算コストのかかる立体構造検索とサンプリングのステップを革新的に放棄し、主鎖の 3D ジオメトリを直接組み合わせて平行鎖座標のすべての側面を計算します。深層学習ベースの手法 DLPacker や従来のコンピューティング手法ベースの RosettaPacker と比較して、AttnPacker はコンピューティング効率を大幅に向上させ、推論時間を 100 倍以上短縮しました。

さまざまな PSCP 方式の時間の比較。 83 個すべての CASP13 標的タンパク質の側鎖原子の相対時間を再構築します。

AttnPacker はタンパク質設計でも同様に優れたパフォーマンスを発揮します。 Molecular Heart は、現在の最先端の方法に匹敵するネイティブ配列の回収率を達成しながら、高精度のアセンブリを生成する共同設計用に AttnPacker バリアントをトレーニングしました。ロゼッタ シミュレーションの検証では、AttnPacker が設計した構造が一般的に下位 (より低い) ロゼッタ エネルギーを生成することが示されています。

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

##ESMFold scTM および plDDT インジケーターを使用して、ネイティブタンパク質配列を比較し、 AttnPacker によって生成されたシーケンスを使用して AttnPacker の生成品質を評価したところ、結果は強い相関を示しました。

AttnPaker には、その驚くべき効果と効率に加えて、非常に使いやすいという非常に実用的な価値もあります。 AttnPaker を実行するにはタンパク質構造ファイルのみが必要です。対照的に、OPUS-Rota4 (28) は、DLPacker からの原子環境のボクセル表現、trRosetta100 からのロジック、二次構造、および OPUS-CM 出力からの制約ファイルを必要とします。さらに、AttnPacker は側鎖の座標を直接予測するため、出力は完全に微分可能であり、最適化やタンパク質間相互作用などの下流の予測タスクが容易になります。 「優れた予測効果、高効率、使いやすさという利点は、研究分野や産業分野でのAttnPackerの広範な使用に貢献します。」とXu Jinbo教授は述べました。

概要

1. AttnPacker は、配列および側鎖座標を直接予測するために使用される SE (3) 等変モデルであり、タンパク質側鎖構造の予測に使用できます。 . タンパク質の配列設計にも使用でき、先駆的な研究です。

2. AttnPacker は他の方法に比べて精度が高く、効率が大幅に向上しており、非常に使いやすいです。

以上が世界初:タンパク質側鎖予測と配列設計の問題を克服する、Molecular Heart のオープンソースの新しい AI アルゴリズムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。