ホームページ >テクノロジー周辺機器 >AI >「AI+物理学の事前知識」、浙江大学および中国科学院の一般的なタンパク質-リガンド相互作用スコアリング手法が Nature サブジャーナルに掲載
編集者 |科学者たちは、これらの「キー」と「ロック」の間の適合性、つまりタンパク質とリガンドの相互作用を予測する効率的な方法を探してきました。
しかし、従来のデータ駆動型の手法は、多くの場合、リガンドとタンパク質のトレーニング データ間の相互作用を実際に学習するのではなく、それらを暗記する「暗記学習」に陥ります。
最近、浙江大学と中国科学院の研究チームは、異種グラフニューラルネットワークを使用して物理的な事前知識を統合し、方程式変換空間におけるタンパク質-リガンド相互作用を特徴付ける、EquiScoreと呼ばれる新しいスコアリング方法を提案しました。
EquiScore は、複数のデータ拡張戦略と厳密な冗長性排除スキームを使用して構築された新しいデータセットでトレーニングされています。
2 つの大規模な外部テスト セットでは、EquiScore が他の 21 のメソッドと比較してトップになり始めました。 EquiScore をさまざまなドッキング方法とともに使用すると、これらのドッキング方法のスクリーニング機能を効果的に強化できます。 EquiScore は、構造的に類似した一連の物質の活性をランク付けするタスクでも良好なパフォーマンスを示し、リード化合物の最適化を導く可能性を実証しました。
最後に、EquiScore のさまざまな解釈可能性レベルが研究されました。これにより、構造に基づいた医薬品設計により多くの洞察が得られる可能性があります。
この研究は「
物理的な事前知識とデータ拡張モデリングを統合することによる汎用タンパク質-リガンド相互作用スコアリング」と題され、2024年6月6日に「Nature Machine Intelligence」に掲載されました。
論文リンク:
https://www.nature.com/articles/s42256-024-00849-z実験的なタンパク質-リガンド相互作用データの爆発的な増加により、機械学習ベースのスコアリング方法は大幅に進歩しました。
機械学習モデルの容量が増加することで、トレーニング データセット全体を記憶できるようになります。同時に、トレーニング データとテスト データの間のデータ漏洩の問題は、これらのモデルの機能の過度に楽観的な評価につながります
データセットの品質に加えて、機械学習ベースのスコアリング方法のパフォーマンスに影響を与えるもう 1 つの重要な要素リガンドとタンパク質の相互作用に関する関連する物理的な事前情報を効果的に統合することです。
EquiScore のアーキテクチャまず、研究者らは複数のデータ拡張戦略を使用して PDBscreen と呼ばれる新しいデータセットを構築しました。たとえば、ネイティブに近いリガンド結合ポーズを使用して陽性サンプルのサイズを増幅し、生成された高度に欺瞞的なデコイを使用して陰性サンプルのサイズを増幅します。
第二に、新しいタイプのノードとエッジ、および情報認識型注意メカニズムを導入することにより、物理的な分子間相互作用に関する事前情報を統合できる異種グラフが提案されます。
イラスト: PDBscreen データセットを構築するためのパイプライン。 (出典: 論文)
幾何学) と化学結合による構造ベースのエッジ (E構造) がノード間に確立されます。 研究者らはまた、ProLIF によって計算されたタンパク質-リガンドの経験的相互作用成分 (IFP) に基づくエッジのクラスを E 構造に追加し、分子間相互作用に関する先験的な物理的知識を含めました。 2 番目のステップでは、埋め込み層を使用して、異種グラフ上の各タイプのエッジとノードの潜在表現を取得します。このスキームは、明確な物理的意味を持つ他の新しいノードとエッジを導入することができ、後続の表現学習モジュールとシームレスに統合できます。 モデルの等しい分散を確保しながら、さまざまなノードやエッジからの情報の帰納的バイアスを最大限に活用するために、EquiScore レイヤーは、情報認識アテンション モジュール、ノード更新モジュール、エッジ更新モジュールの 3 つのサブモジュールで構成されます。 情報認識型アテンション モジュールは、(1) 等変幾何情報、(2) 化学構造情報、(3) タンパク質-リガンドの経験的相互作用成分など、さまざまな情報から相互作用を解釈できます。 研究者たちは、生成された EquiScore モデルのパフォーマンスを評価しました。 仮想スクリーニング (VS) シナリオでは、EquiScore は、DEKOIS2.0 と DUD-E という 2 つの外部データセット上の未確認タンパク質の 21 の既存のスコアリング方法と比較して、一貫してトップランキングを達成しました。 リード最適化シナリオでは、8 つの異なる方法のうち、EquiScore は FEP+ と比較して低いランキング能力のみを示しました。 FEP+ の計算には大幅に高い計算コストが必要であることを考慮すると、EquiScore は速度と精度の間でよりバランスのとれた利点を示しています。 さらに、EquiScore は、さまざまなドッキング方法によって生成されたポーズに適用すると強力な再スコアリング機能を示し、EquiScore 再スコアリングを使用すると、すべての評価方法で VS のパフォーマンスを向上できることがわかりました。 最後に、研究者らはモデルの解釈可能性を分析し、このモデルが重要な分子間相互作用を捕捉できることを発見し、モデルの合理性を証明し、合理的な医薬品設計に有用な手がかりを提供した。 タンパク質とリガンドの相互作用の確実な予測は、タンパク質の生物学を理解し、将来の薬物療法への影響を判断するための貴重な機会を提供します。 EquiScore は、人間の健康と病気の理解を深めることに貢献し、新薬の発見を促進します。 モデルのパフォーマンス評価
以上が「AI+物理学の事前知識」、浙江大学および中国科学院の一般的なタンパク質-リガンド相互作用スコアリング手法が Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。