ホームページ >テクノロジー周辺機器 >AI >世界初:タンパク質側鎖予測と配列設計の問題を克服するMolecular Heartの新しいAIアルゴリズム
マシンの心臓コラム
ハートオブマシン編集部
PSCP ディープ アーキテクチャ AttnPacker - 大幅に最適化された AI アルゴリズム。
タンパク質の構造と機能の形成は、側鎖原子間の相互作用に大きく依存するため、正確なタンパク質側鎖予測 (PSCP) は、タンパク質の構造予測とタンパク質設計の問題を解決する上で重要な鍵となります。しかし、これまでのタンパク質の構造予測は主鎖の構造が中心であり、側鎖の構造予測は完全には解決されていない難しい問題でした。
最近、Molecular Heart Xu Jinbo のチームは新しい PSCP ディープ アーキテクチャ AttnPacker を立ち上げ、速度、メモリ効率、全体的な精度が大幅に向上しました。これは現在最もよく知られている側鎖構造予測アルゴリズムであり、世界初です。タンパク質の側鎖予測と配列設計を同時に実行できるAIアルゴリズム。
この論文は米国科学アカデミー紀要 (PNAS) に掲載され、その事前トレーニング モデル、ソース コード、推論スクリプトは Github でオープンソース化されています。
論文リンク:
https://www.pnas.org/doi/10.1073/pnas.2216438120#supplementary-materials
オープンソースリンク:
https://github.com/MattMcPartlon/AttnPacker
######背景######タンパク質はいくつかのアミノ酸から折りたたまれており、その構造は主鎖と側鎖に分かれています。側鎖の違いは、タンパク質の構造と機能、特に生物活性に大きな影響を与えます。側鎖構造の明確な理解に基づいて、科学者はタンパク質の三次元構造をより正確に決定し、タンパク質間相互作用を分析し、合理的なタンパク質設計を行うことができます。薬物設計の分野に適用すると、科学者は薬物と受容体に適した結合部位を迅速かつより正確に見つけ出し、必要に応じて結合部位を最適化または設計することもできます;酵素最適化の分野では、科学者は配列を最適化できます変換により複数の側鎖が可能になります触媒反応に参加して、より効率的かつ特異的な触媒効果を達成します。 現在のタンパク質構造予測アルゴリズムのほとんどは主鎖の構造解析を目的としていますが、タンパク質の側鎖構造予測は依然として完全には克服されていない難しい問題です。 AlphaFold2 などの一般的なタンパク質構造予測アルゴリズムであっても、DLPacker や RosettaPacker などの側鎖構造予測に重点を置いたアルゴリズムであっても、精度や速度が満足できるものではありません。これはタンパク質の設計にも制限を課します。
RosettaPacker などの従来の方法では、主にエネルギー最適化方法が使用され、最初に側鎖原子の分布をグループ化し、次に特定のアミノ酸の側鎖のグループを検索して最小のエネルギーを持つ組み合わせを見つけます。これらの方法は、研究者が選択した回転異性体ライブラリー、エネルギー関数、エネルギー最小化手順とは主に異なり、検索ヒューリスティックや離散サンプリング手順の使用によって精度が制限されます。業界には、PSCP を画像から画像への変換問題として定式化し、U-net モデル構造を採用する DLPacker など、深層学習に基づくサイドチェーン予測手法もあります。ただし、予測の精度と速度はまだ理想的ではありません。
######方法######AttnPacker は、タンパク質の側鎖座標を予測するためのエンドツーエンドの深層学習手法です。側鎖相互作用を共同でシミュレートし、原子衝突が少なく、より理想的な結合長と角度を備えた、より物理的に実現可能な側鎖構造を直接予測します。
具体的には、AttnPacker は、PSCP の幾何学的な側面とリレーショナルな側面を活用する深度マップ コンバーター アーキテクチャを導入しています。 AlphaFold2 からインスピレーションを得た Molecular Heart は、三角形のアテンションと乗算更新を計算するグラフベースのフレームワークを使用してペアごとの特徴を最適化する、位置を認識した三角形の更新を提案します。このアプローチにより、AttnPacker のメモリは大幅に削減され、より大容量のモデルになります。さらに、Molecular Heart は、いくつかの SE (3) 等変注意メカニズムを調査し、3D ポイントから学習するための等変トランスフォーマー アーキテクチャを提案しています。
AttnPacker がプロセスを実行します。タンパク質骨格の座標と配列が入力として使用され、その座標情報に基づいて空間特徴マップと等変基底が導出されます。特徴マップは、不変グラフ トランスフォーマー モジュールによって処理され、予測された側鎖座標、各残基の信頼スコア、およびオプションの設計配列を出力する等変 TFN トランスフォーマーに渡されます。予測された座標は後処理されて、すべての空間的矛盾が除去され、理想的なジオメトリが保証されます。
######効果######
予測パフォーマンスの観点から、AttnPacker は天然および非天然バックボーン構造の両方で精度と効率が向上していることを示しています。同時に、物理的な実現可能性が確保され、理想的な結合の長さと角度からの逸脱は無視でき、原子の立体障害が最小限に抑えられます。
Molecular Heart は、CASP13 および CASP14 の天然および非天然タンパク質バックボーン データセットに対して、AttnPacker と現在の最先端の方法である SCWRL4、FASPR、RosettaPacker、および DLPacker との比較テストを実施しました。結果は、AttnPacker が CASP13 および CASP14 ネイティブ バックボーンに対して従来のタンパク質側鎖予測法を大幅に上回っており、平均再構成 RMSD が各テスト セットで次善の方法より 18% 以上低いことを示しています。また、AttnPacker は深層学習手法 DLPacker よりも優れたパフォーマンスを示し、平均 RMSD を 11% 以上削減すると同時に、サイドチェーンの二面角の精度も大幅に向上させます。精度に加えて、AttnPacker は他の方法よりもアトミック衝突が大幅に少ないです。
天然の主鎖構造を考慮して、CASP13 および CASP14 標的タンパク質に対する各アルゴリズムの側鎖構造の予測結果を示します。アスタリスクは、平均競合値がネイティブ構造よりも低いことを示します (CASP13 では 56.0、5.9、および 0.4、CASP14 では 80.4、7.9、および 2.5)。
CASP13 および CASP14 の非ネイティブ バックボーンでも、AttnPacker は他の方法よりも大幅に優れており、アトミック衝突も他の方法より大幅に少なくなっています。
非天然骨格構造を考慮して、CASP13 および CASP14 標的タンパク質に対する各アルゴリズムの側鎖構造予測結果を示します。アスタリスクは、平均競合値が対応するネイティブ構造よりも低いことを示します (CASP13 では 34.6、2.2、0.5、CASP14 では 40.0、2.7、0.7)。
個別の回転異性体ライブラリーと、計算コストのかかる立体構造検索およびサンプリングのステップを革新的に放棄し、主鎖の 3D 幾何学的構造を直接組み合わせて、すべての側鎖の座標を並行して計算します。深層学習ベースの手法 DLPacker や従来のコンピューティング手法ベースの RosettaPacker と比較して、AttnPacker はコンピューティング効率を大幅に向上させ、推論時間を 100 倍以上短縮しました。
さまざまな PSCP 方式の時間の比較。 83 個すべての CASP13 標的タンパク質の側鎖原子の相対時間を再構築します。
AttnPacker はタンパク質設計でも同様に優れたパフォーマンスを発揮します。 Molecular Heart は、現在の最先端の方法に匹敵するネイティブ配列の回収率を達成しながら、高精度のアセンブリを生成する共同設計用に AttnPacker バリアントをトレーニングしました。ロゼッタ シミュレーションの検証では、AttnPacker が設計した構造が一般的に下位 (より低い) ロゼッタ エネルギーを生成することが示されています。
ESMFold scTM および plDDT インジケーターを使用して、ネイティブタンパク質配列と AttnPacker によって生成された配列を比較し、AttnPacker 生成の品質を評価しました。結果は、強い相関関係を示しました。
AttnPaker には、その驚くべき効果と効率に加えて、非常に実用的な価値もあります。それは非常に使いやすいということです。 AttnPaker を実行するにはタンパク質構造ファイルのみが必要です。対照的に、OPUS-Rota4 (28) は、DLPacker からの原子環境のボクセル表現、trRosetta100 からのロジック、二次構造、および OPUS-CM 出力からの制約ファイルを必要とします。さらに、AttnPacker は側鎖の座標を直接予測するため、出力は完全に微分可能であり、最適化やタンパク質間相互作用などの下流の予測タスクが容易になります。 「優れた予測効果、高効率、使いやすさという利点は、研究分野や産業分野でのAttnPackerの広範な使用に貢献します。」とXu Jinbo教授は述べました。
要約
1. AttnPacker は配列と側鎖の座標を直接予測するために使用される SE (3) 等変モデルであり、タンパク質の側鎖構造の予測とタンパク質の配列設計に使用できます。
2. AttnPacker は他の方法に比べて精度が高く、効率が大幅に向上し、非常に使いやすいです。
以上が世界初:タンパク質側鎖予測と配列設計の問題を克服するMolecular Heartの新しいAIアルゴリズムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。