ホームページ > 記事 > テクノロジー周辺機器 > 清華大学チームが知識誘導グラフ Transformer 事前トレーニング フレームワーク: 分子表現学習を改善する方法を提案
創薬分野において分子特性の予測を容易にするためには、効果的な分子特徴表現を学ぶことが非常に重要です。最近では、自己教師あり学習手法を使用してグラフ ニューラル ネットワーク (GNN) を事前トレーニングすることで、データ不足という課題を克服しています。しかし、自己教師あり学習に基づく現在の方法には、2 つの主な問題があります。それは、明確な自己教師あり学習戦略の欠如と GNN
の機能が限られていることです。最近、清華大学と西湖大学の研究チームは、と Zhijiang Laboratory は、大幅に強化された分子表現学習を通じて改善され、一般化可能で堅牢な学習を提供する自己教師あり学習フレームワークである、知識誘導型グラフ トランスフォーマー (KPGT) の事前トレーニングを提案します。 KPGT フレームワークには、分子グラフ用に特別に設計されたグラフ Transformer と、分子の構造的および意味論的な知識を完全に捕捉するための知識に基づく事前トレーニング戦略が統合されています。
63 のデータセットに対する広範な計算テストを通じて、KPGT はさまざまな分野での分子特性の予測において優れたパフォーマンスを実証しました。さらに、創薬における KPGT の実際の適用可能性は、2 つの抗腫瘍標的の潜在的な阻害剤を同定することによって検証されました。全体として、KPGT は、AI 支援による創薬プロセスを推進するための強力で便利なツールを提供できます。
この研究は「分子表現学習を改善するための知識誘導型事前トレーニングフレームワーク」というタイトルで、2023年11月21日に「Nature Communications」に掲載されました。
分子の特性を実験的に決定するには多大な時間とリソースが必要であり、望ましい特性を持つ分子を同定することは創薬における最も重要な課題の 1 つです。近年、分子特性の予測において人工知能ベースの手法がますます重要な役割を果たしています。分子特性を予測するための人工知能ベースの方法の主な課題の 1 つは、分子の特性評価です。
近年、分子特性を予測するための潜在的に有用なツールとして、深層学習ベースの方法が登場しています。主な理由は、単純な入力から変換する機能を備えているためです。 データから効果的な特徴を自動的に抽出する優れた機能を備えています。特に、リカレント ニューラル ネットワーク (RNN)、畳み込みニューラル ネットワーク (CNN)、グラフ ニューラル ネットワーク (GNN) などのさまざまなニューラル ネットワーク アーキテクチャは、単純化された分子入力からライン入力システムに至るまで、さまざまな形式での分子データのモデリングに優れています ( SMILES) を分子画像と分子図に変換します。ただし、マーカー分子の入手可能性が限られていることと化学空間が広大であるため、特に分布外のデータサンプルを扱う場合には、その予測性能が制限されます。
自然言語処理とコンピュータービジョンの分野における自己教師あり学習手法の目覚ましい成果により、これらの手法は GNN の事前トレーニングに適用され、分子の表現学習を改善し、それによって下流の分子分野で成功を収めています。大幅な進歩が見られました
研究者らは、分子の特性を定量的に記述する追加の知識を自己教師あり学習フレームワークに導入することで、これらの課題に効果的に対処できると仮説を立てています。分子には、分子記述子やフィンガープリントなどの多くの定量的特性があり、現在確立されている計算ツールで簡単に取得できます。この追加の知識を統合すると、豊富な分子意味情報を自己教師あり学習に導入できるため、意味的に豊富な分子表現の取得が大幅に強化されます。
一般に、既存の自己教師あり学習手法は、コア モデルとして GNN に依存しています。ただし、GNN のモデル容量は限られています。さらに、GNN は原子間の長距離相互作用を捕捉するのが難しい場合があります。そして、Transformer ベースのモデルは、革新的なモデルになりました。これは、パラメータ数の増加と長距離相互作用を捕捉する機能を特徴としており、分子の構造特性を包括的にシミュレートするための有望なアプローチを提供します
この研究では、研究者らは KPGT と呼ばれる自己教師あり学習フレームワークを導入しました。これは、分子表現学習を強化して下流の分子特性予測タスクを促進することを目的としています。 KPGT フレームワークは、Line Graph Transformer (LiGhT) と呼ばれるバックボーン モデルと、知識に基づいた事前トレーニング ポリシーの 2 つの主要コンポーネントで構成されます。 KPGT フレームワークは、分子グラフ構造を正確にモデル化するために特別に設計された大容量 LiGhT モデルを組み合わせ、知識に基づいた事前トレーニング戦略を利用して分子構造と意味論的な知識を捕捉します。 200 万分子の LiGhT は、知識に基づいた事前トレーニング戦略を通じて事前トレーニングされました
書き直された内容: 図: KPGT の概要。 (出典: 論文)
KPGT は、分子特性の予測においてベースライン手法を上回ります。いくつかのベースライン手法と比較して、KPGT は 63 のデータセットで大幅な改善を達成しました。
さらに、KPGT を使用して 2 つの抗腫瘍標的、造血前駆体キナーゼ 1 (HPK1) と線維芽細胞成長因子受容体 (FGFR1) の潜在的な阻害剤を同定することに成功したことにより、実用的適用可能性が実証されました。 KPGTの。
効果的な分子特性予測における KPGT の利点にもかかわらず、依然としていくつかの限界があります。
全体として、KPGT は効果的な分子表現学習のための強力な自己教師あり学習フレームワークを提供し、それによって人工知能支援創薬の分野を前進させます。
論文リンク: https://www.nature.com/articles/s41467-023-43214-1
以上が清華大学チームが知識誘導グラフ Transformer 事前トレーニング フレームワーク: 分子表現学習を改善する方法を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。