![394,760 個のタンパク質表現を生成し、ハーバード大学チームがタンパク質のコンテキストを完全に理解する AI モデルを開発](https://img.php.cn/upload/article/000/000/000/172199642176737.png)
編集者 | 大根の皮
タンパク質の機能を理解し、分子治療を開発するには、タンパク質が役割を果たす細胞の種類を特定し、タンパク質間の相互作用を分析する必要があります。
しかし、生物学的文脈を越えたタンパク質相互作用のモデリングは、既存のアルゴリズムにとって依然として困難です。
最新の研究では、ハーバード大学医学部の研究者らが、状況を認識したタンパク質表現を生成するための幾何学的な深層学習手法である PINNACLE を開発しました。
PINNACLE は、多臓器単一細胞アトラスを活用して、コンテキスト化されたタンパク質相互作用ネットワークを学習し、24 組織にわたる 156 の細胞型コンテキストから 394,760 個のタンパク質表現を生成します。
この研究は「単細胞タンパク質生物学のためのコンテキストAIモデル」というタイトルで、2024年7月22日に「Nature Methods」に掲載されました。
![394,760 個のタンパク質表現を生成し、ハーバード大学チームがタンパク質のコンテキストを完全に理解する AI モデルを開発](https://img.php.cn/upload/article/000/000/000/172199642930863.png)
タンパク質の機能とネットワーク
- タンパク質は細胞の基本的な機能単位であり、相互作用を通じて生物学的機能を達成します。
- ハイスループット技術により、タンパク質相互作用ネットワークのマッピングが推進され、計算手法によるタンパク質の構造、機能、標的設計の理解が深まりました。
- この学習方法が分子細胞アトラスを統合し、タンパク質相互作用ネットワークを分析でき、タンパク質の機能の理解を広げることができることを示します。
状況依存性のタンパク質機能
- タンパク質は、異なる生物学的状況において異なる役割を果たし、遺伝子の発現と機能は健康状態や病気の状態に応じて異なります。
- バックグラウンドフリーのタンパク質は、細胞タイプ間の機能変化を識別できないことを意味し、予測精度に影響します。
単一細胞の遺伝子発現とタンパク質ネットワーク
- シーケンス技術は単一細胞の遺伝子発現を測定し、状況依存の問題を解決する道を開きます。
- 注意ベースの深層学習は、大量の入力に焦点を当て、コンテキスト内の重要な要素を学習できます。
- 単一細胞アトラスは、疾患の進行に関連する遺伝子制御ネットワークのマッピングを強化し、標的を明らかにすることができます。
最高峰モデル
- タンパク質をコードする遺伝子発現をタンパク質相互作用ネットワークに統合するにはまだ課題があります。
- PINNACLE モデルは、タンパク質のコンテキスト固有の理解を提供します。
- PINNACLE は、細胞環境におけるタンパク質の相互作用を分析することでタンパク質表現を生成する幾何学的な深層学習モデルです。
![394,760 個のタンパク質表現を生成し、ハーバード大学チームがタンパク質のコンテキストを完全に理解する AI モデルを開発](https://img.php.cn/upload/article/000/000/000/172199643199579.png)
1. PINNACLEの概要
イラスト: PINNACLEの概要。 (出典: 論文)
2. コンテキスト化されたタンパク質表現
PINNACLE は、細胞の相互作用と組織階層を捕捉するネットワークによって補完された、統合されたコンテキスト認識 PPI ネットワーク上でトレーニングされ、細胞タイプに合わせてカスタマイズされたタンパク質表現を生成します。
3. マルチスケール表現
コンテキストフリーモデルとは異なり、PINNACLE は細胞タイプのコンテキストに応じて各タンパク質の複数の表現を生成します。さらに、PINNACLE は細胞タイプのコンテキストと組織レベルの表現を生成します。
4. マルチスケール学習
PINNACLE は、統一された潜在表現空間を最適化することで、タンパク質、細胞種、組織のトポロジーを学習します。
5. コンテキスト認識モデル
PINNACLE は、コンテキスト固有のデータを単一のモデルに統合し、タンパク質、細胞タイプ、組織レベルのデータの間で知識を伝達します。
6. 埋め込み空間
細胞および組織の情報を埋め込み空間に注入するために、PINNACLE はタンパク質、細胞の種類、および組織レベルの注意を採用します。
7. 物理的相互作用マッピング
物理的に相互作用するタンパク質ペアは、埋め込み空間にしっかりと埋め込まれます。
8. 細胞型環境
タンパク質は、その細胞型環境の近くに埋め込まれています。
9. グラフニューラルネットワークの伝播
PINNACLEは、各ノードとエッジタイプにカスタマイズされたアテンションメカニズムを使用して、タンパク質、細胞タイプ、組織間で情報を伝播します。
![394,760 個のタンパク質表現を生成し、ハーバード大学チームがタンパク質のコンテキストを完全に理解する AI モデルを開発](https://img.php.cn/upload/article/000/000/000/172199643639109.png)
図: PINNACLE タンパク質埋め込み領域の濃縮。 (出典: 論文) タンパク質レベルの事前トレーニング タスクでは、タンパク質相互作用の自己教師ありリンク予測とタンパク質ノードの細胞型分類が考慮されます。これらのタスクにより、PINNACLE は、コンテキストを認識したタンパク質相互作用ネットワークのトポロジーとタンパク質の細胞型アイデンティティをカプセル化する埋め込み空間を形成できます。
PINNACLE の細胞タイプおよび組織固有の事前トレーニング タスクは、細胞および組織の組織の学習を促進するために完全に自己教師付きリンク予測に依存しています。細胞タイプと組織のトポロジーは、アテンションブリッジングメカニズムを通じてタンパク質表現に渡され、組織と細胞の組織をタンパク質表現上で効果的に強化します。
PINNACLE のコンテキスト化されたタンパク質表現は、コンテキストを認識したタンパク質相互作用ネットワークの構造を捉えます。潜在空間におけるこれらの文脈化されたタンパク質表現の局所的な配置は、メタグラフによって表される細胞および組織の組織を反映しています。これにより、統一された細胞型および組織固有のフレームワーク内で、包括的かつ状況に応じたタンパク質の表現が可能になります。
PINNACLE によって生成された 394,760 個のコンテキスト化されたタンパク質表現(それぞれが細胞型固有のもの)により、研究者らは、タンパク質相互作用と 156 の細胞型コンテキストの基礎となるタンパク質をコードする遺伝子トランスクリプトームを組み合わせる PINNACLE の能力を実証しました。
PINNACLE の埋め込み空間は細胞と組織の構造を反映し、組織階層のゼロショット検索を可能にします。事前トレーニングされたタンパク質表現は、下流のタスクに適応させることができます。つまり、3D 構造ベースの表現を強化して免疫腫瘍学タンパク質の相互作用を解決し、さまざまな細胞型に対する薬剤の効果を研究します。
PINNACLE は、関節リウマチや炎症性腸疾患の治療標的の特定において最先端のモデルを上回っており、細胞型のコンテキストを正確に特定するコンテキストフリー モデルよりも高い予測力を備えています。 PINNACLE が動作する環境に出力を適応させる能力は、生物学における大規模なコンテキスト固有の予測への道を開きます。
論文リンク: https://www.nature.com/articles/s41592-024-02341-3
以上が394,760 個のタンパク質表現を生成し、ハーバード大学チームがタンパク質のコンテキストを完全に理解する AI モデルを開発の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。