ホームページ >テクノロジー周辺機器 >AI >SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合
編集者 | KX
医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することは、医薬品のスクリーニングと最適化にとって非常に重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。
これに基づいて、アモイ大学の研究者らは、タンパク質表面、3D構造、配列に関する情報を初めて組み合わせ、異なるモードにクロスアテンションメカニズムを使用する、新しいマルチモーダル特徴抽出(MFE)フレームワークを提案しました。状態間の機能の調整。
実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端のパフォーマンスを達成することを示しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。
関連研究「表面ベースの多峰性タンパク質-リガンド結合親和性予測」が、6月21日に「バイオインフォマティクス」に掲載されました。
創薬の重要な段階として、タンパク質-リガンド結合親和性の予測は長い間広範囲に研究されており、これは効率的かつ正確な薬剤スクリーニングに不可欠です。
従来のコンピューター支援創薬ツールは、スコアリング関数 (SF) を使用してタンパク質 - リガンド結合親和性を大まかに推定しますが、精度は低くなります。分子動力学シミュレーション法は、より正確な結合親和性の推定値を提供できますが、多くの場合、コストと時間がかかります。
コンピューティング技術の発展と大規模な生物学的データの増加に伴い、深層学習ベースの手法はタンパク質-リガンド結合親和性予測の分野で大きな可能性を示しています。
しかし、現在の研究は主に配列または構造ベースの表現を利用してタンパク質-リガンド結合親和性を予測しており、タンパク質-リガンド相互作用に重要なタンパク質表面情報に関する研究は比較的少数です。
分子表面はタンパク質の構造を高レベルで表現したもので、タンパク質と他の生体分子との相互作用パターンのフィンガープリントとして機能する特徴的な化学的および幾何学的パターンを示します。したがって、いくつかの研究では、タンパク質表面情報を使用してタンパク質-リガンド結合親和性を予測し始めました。
しかし、既存の手法は主にシングルモーダルデータに焦点を当てており、タンパク質のマルチモーダル情報は無視されています。さらに、タンパク質のマルチモーダル情報を処理する場合、従来の方法では通常、異なるモダリティ間の異質性を考慮せずに、異なるモダリティの特徴を直接接続するため、モダリティ間の相補性を効果的に活用できません。
ここで、研究者らは、タンパク質表面、3D 構造、配列からの情報を初めて組み合わせる新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案します。
具体的には、この研究では、タンパク質特徴抽出モジュールとマルチモーダル特徴比較モジュールという 2 つの主要コンポーネントを設計しました。
タンパク質特徴抽出モジュールは、タンパク質の表面、構造、配列情報から初期埋め込みを抽出するために使用されます。
マルチモーダル特徴比較モジュールでは、クロスアテンション メカニズムを使用してタンパク質構造、配列埋め込み、表面埋め込みの間の特徴比較を実現し、統一された情報豊富な特徴埋め込みを取得します。
現在の最先端の方法と比較して、提案されたフレームワークはタンパク質-リガンド結合親和性予測タスクにおいて最良の結果を達成します。
表 1 は、タンパク質-リガンド結合親和性予測タスクにおける MFE およびその他のベースライン モデルの結果を示しています。すべてのモデルは同じトレーニングおよび検証セットの分割方法を使用し、PDBbind コア セット (バージョン 2016) でテストされました。 MFE メソッドは、すべてのベースラインと比較して SOTA パフォーマンスを達成していることがわかります。
さまざまなモーダル特徴と特徴比較の有効性と必要性をさらに証明するために、研究者らは次のアブレーション研究を実施しました: W/O タンパク質表面情報、W/O タンパク質構造情報、W/O タンパク質構造情報、W/O タンパク質表面情報、W/O タンパク質構造情報o タンパク質配列情報と特徴のないアラインメント。結果を表 2 および図 2 に示します。
図 2: アブレーションの研究結果。 (出典: 論文)
結果は、表面情報が削除されるとパフォーマンスが大幅に低下することを示しており、表面情報がモデルにおいて重要な役割を果たしていることがわかります。同様に、構造情報またはシーケンス情報を除外するとパフォーマンスが低下しますが、シーケンス情報を削除するとパフォーマンスがさらに顕著に低下します。これは、配列情報にはタンパク質に関するグローバルな情報が含まれており、これはモデルがタンパク質を完全に理解するために重要であるためです。
さらに、機能比較を行わないと、モデルのパフォーマンスが低下します。これは、異なるモーダル フィーチャ間の異質性を軽減し、それによって異なるモーダル フィーチャを効果的に統合するモデルの能力を向上させるため、マルチモーダル データを処理する際のフィーチャ比較の重要性を強調します。
モデルのパフォーマンスに対するさまざまなハイパーパラメータの影響を研究するために、研究者たちは次の 3 つの実験を実施しました: (i) MFE-A-6: 化学を表すために 6 つの基本的な原子タイプのみを使用します。水素、炭素、窒素、酸素、リン、硫黄を含む表面の特性 (ii) MFE-P-256: リガンド中心に最も近い 256 個の表面点のみがタンパク質ポケット表面として選択されます。 -P -1024: リガンド中心に最も近い 1024 個の表面点をタンパク質ポケット表面として選択します。
図 3 は、タンパク質-リガンド結合親和性予測タスクにおける 3 つの異なるハイパーパラメーター選択法の結果を示しています。
モデルのパフォーマンスに対する特徴アライメントの影響を深く研究するために、研究者らは主成分分析 (PCA) を使用して、タンパク質表面、構造の次元削減と合計を実行しました。テスト セットのシーケンス機能と視覚的な分析。このアプローチの目的は、特徴の位置合わせによってマルチモーダルな埋め込み間の異質性を軽減できるかどうかを判断することです。
研究により、特徴のアラインメントにより、タンパク質の表面、構造、配列の埋め込みの間の一貫性が大幅に強化されることがわかりました。これは、異なるフィーチャ間のアテンションの重みを計算するアテンション メカニズムによる、Transformer のマルチモーダル フィーチャの相互作用の最適化によるものです。これにより、重要な情報を取得するモデルの能力が強化され、さまざまなモダリティからのデータを特徴空間内でより密にクラスター化できるようになり、それによってモデルによるタンパク質-リガンド相互作用の同定におけるノイズとエラーが減少します。
最後に研究者らは、「要約すると、タンパク質の表面を研究することで、タンパク質が他の生体分子とどのように相互作用するのかをより深く理解できるようになります。今後の研究では、タンパク質の表面をより徹底的に調査して、その幅広い用途を明らかにする予定です。」バイオインフォマティクス」
注: 表紙はインターネットからのものです
。以上がSOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。