ホームページ >テクノロジー周辺機器 >AI >自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-04-23 12:46:081678ブラウズ

分子は、物質の化学的安定性を維持する最小単位です。分子の研究は、薬学、材料科学、生物学、化学などの多くの科学分野における基本的な問題です。

#分子表現学習は近年非常に人気のある方向性であり、現在は多くの学派に分かれています。

計算薬理学者は次のように述べています: 分子は一連の指紋または記述子として表すことができます。たとえば、Shanghai Pharmaceuticals が提案した AttentiveFP は、この点で優れた代表例です。
NLPer 氏は次のように述べています。分子は SMILES (シーケンス) として表現され、自然言語として処理されます。たとえば、Baidu の X-Mol はこの点で優れた代表例です。
グラフニューラルネットワークの研究者は次のように述べています: 分子は隣接行列であるグラフ (Graph) として表現でき、Tencent の GROVER、MIT の DMPNN などのグラフニューラルネットワークを使用して処理できます。 , CMU の MOLCLR などの手法は、この点において優れた代表例です。

ただし、現在の特性評価方法にはまだいくつかの制限があります。たとえば、配列表現には分子の明示的な構造情報が不足しており、既存のグラフニューラルネットワークの表現能力には依然として多くの制限があります (中国科学院計算技術研究所のシェン・ファーウェイ教師がこれについて議論しました。シェン氏のレポート「Theグラフニューラルネットワークの表現力」）。

興味深いのは、高校の化学で分子を学ぶとき、私たちは分子の画像を見ますが、化学者が分子を設計するときも、分子の画像に基づいて観察し、考えます。自然なアイデアが自然に生まれます: 「分子を表すために分子画像を直接使用しないのはなぜですか?」画像を直接使用して分子を表すことができるなら、CV (コンピュータービジョン) ではそれはできません。 18 種類の武道すべてが分子の研究に使用されるのでしょうか?

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

やってみよう。CV には非常に多くのモデルがあるので、それらを使って分子を学習してみませんか?やめてください、データという別の重要な問題があります。特にラベル付きデータ！履歴書の分野では、データのアノテーションはそれほど難しいものではないようです。画像認識や感情分類などの古典的な CV および NLP の問題の場合、人は平均 800 個のデータに注釈を付けることができます。しかし、分子分野では分子の性質は湿式実験や臨床実験でしか評価できないため、ラベル付けされたデータは非常に不足しています。

これに基づいて、湖南大学の研究者らは、大規模なラベルなし分子画像データを教師なし事前トレーニングに使用する世界初の分子画像用教師なし学習フレームワーク ImageMol を提案しました。これは、分子の特性と薬剤標的を理解するための新しいパラダイムであり、分子画像がインテリジェントな薬剤研究開発の分野で大きな可能性を秘めていることを証明しています。この成果は、「自己教師あり画像表現学習フレームワークを使用した分子特性と薬物標的の正確な予測」というタイトルで、国際トップジャーナル「Nature Machine Intelligence」に掲載されました。コンピュータービジョンと分子分野の交差点で達成された成功は、コンピュータービジョンテクノロジを使用して分子の特性と薬物標的メカニズムを理解することの大きな可能性を実証し、分子分野の研究に新たな機会を提供します。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

論文リンク: https://www.nature.com/articles/s42256-022-00557-6.pdf

ImageMol モデルの構造

ImageMol の全体的な構造は次の図に示されており、3 つの部分に分かれています。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

(1) 約 1,000 万枚の分子画像から潜在的な特徴を抽出できる分子エンコーダー ResNet18 (水色) を設計します (a)。

(2) 分子画像の化学知識と構造情報を考慮して、5 つの事前トレーニング戦略 (MG3C、MRD、JPP、MCL、MIR) を使用して、分子エンコーダーの潜在表現を最適化します (b ）。具体的には:

① MG3C (多粒度化学クラスター分類): 構造分類器 (濃い青色) は分子画像の予測に使用されます化学構造情報;

② MRD (分子合理性識別): 合理的な分子と非合理的な分子を区別するために使用される合理性分類子 (緑色);

③ JPP (ジグソーパズル予測):ジグソー分類器 (明るい灰色) は、分子の合理的な配置を予測するために使用されます。

④ MCL (MASK ベースの対照学習 MASK ベースの対照学習): 対照的な分類器 (濃い灰色) ) は、元の画像とマスク画像の間の類似性を最大化するために使用されます;

⑤ MIR (分子画像再構成): ジェネレーター (黄色) は、分子の潜在的な特徴を復元するために使用されます。識別子（紫色）は、実際の画像と生成された画像を区別するために使用されます。機械によって生成された偽の分子画像です。

(3) 下流タスクで前処理された分子エンコーダーを微調整して、モデルのパフォーマンスをさらに向上させます (c)。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

ベンチマーク評価

著者らはまず、8 つの創薬ベンチマークデータセットを使用して ImageMol のパフォーマンスを評価し、2 つの最も一般的な分割を使用しました。戦略 (スキャフォールド分割とランダムスキャフォールド分割) は、すべてのベンチマークデータセットに対する ImageMol のパフォーマンスを評価するために使用されます。分類タスクでは、受信者動作特性 (ROC) 曲線と曲線下面積 (AUC) が評価に使用されますが、実験結果から、ImageMol がより高い AUC 値を取得できることがわかります (図 a)。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

ImageMol と分子画像を予測するための古典的な畳み込みニューラルネットワークフレームワークである Chemception 間の HIV と Tox21 の検出結果の比較 (図 b)、 ImageMol の AUC 値はより高くなります。この記事では、5 つの主要な代謝酵素 (CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4) による薬物代謝の予測における ImageMol のパフォーマンスをさらに評価します。図 c は、5 つの主要な薬物代謝酵素の阻害剤と非阻害剤の予測において、ImageMol が 3 つの最先端の分子画像ベースの表現モデル (Chemception46、ADMET-CNN12、および QSAR-CNN47) と比較して優れた結果を達成していることを示しています。 . より高い AUC 値 (0.799 ～ 0.893 の範囲) を達成しました。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

この論文では、ImageMol のパフォーマンスを 3 つの最先端の分子表現モデルとさらに比較します。たとえば、図 d および e に示すように。 ImageMol は、ランダムスケルトンパーティショニングを使用するフィンガープリントベースのモデル (AttentiveFP など)、シーケンスベースのモデル (TF_Robust など)、およびグラフベースのモデル (N-GRAM、GROVER、MPG など) と比較してパフォーマンスが優れています。さらに、ImageMolは、従来のMACCSベースの方法およびFP4ベースの方法と比較して、CYP1A2、CYP2C9、CYP2C19、CYP2D6およびCYP3A4でより高いAUC値を達成しました（図f）。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

ImageMol は、図に示すように、シーケンスベースのモデル (RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF、CHEM-BERT を含む) およびグラフベースのモデル (MolCLRGIN、MolCLRGCN、GROVER を含む) と比較されます。 g これは、ImageMol が CYP1A2、CYP2C9、CYP2C19、CYP2D6、および CYP3A4 で優れた AUC パフォーマンスを達成していることを示しています。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

ImageMol と他の先進モデルとの上記の比較では、ImageMol の優位性がわかります。

新型コロナウイルス感染症（COVID-19）の発生以来、私たちは新型コロナウイルス感染症（COVID-19）に対する効果的な治療戦略を早急に開発する必要がありました。したがって、著者らはこの点に応じて ImageMol を評価しました。

13 の SARS-CoV-2 ターゲットの予測

ImageMol は、今日懸念されている 13 の SARS-CoV-2 ターゲットについて予測実験を実施しました。データセットでは、ImageMol は 72.6% ～ 83.7% という高い AUC 値を達成しました。パネル a は、ImageMol によって特定された潜在的なシグネチャを明らかにしています。これは、13 のターゲットまたはエンドポイントで活性および不活性な抗 SARS-CoV-2 によくクラスター化しており、他のものよりも高い AUC 値を示しています。モデル Jure の GNN は 12% 以上高く、これを反映しています。モデルの高精度と強力な一般化。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

抗 SARS-CoV-2 阻害剤の同定

薬物分子の研究に関連する最も直接的な実験はこちらです、ImageMol を使用して阻害剤分子を直接特定します。この研究は、ImageMol フレームワークに基づく 3CL プロテアーゼ (新型コロナウイルス感染症の治療における有望な治療開発標的であることが証明されている) の阻害剤と非阻害剤の分子画像表現を通じて、3CL 阻害剤と非阻害剤が以下の図 b に示すように、SNE プロットでは t-Well に大きな差が分離されています。

さらに、ImageMol は、既知の 3CL プロテアーゼ阻害剤 16 種類のうち 10 種類を特定し、これら 10 種類の薬剤を図の埋め込まれた空間に視覚化しました (成功率 62.5%)。これは、抗炎症薬における高い汎化能力を示しています。 -SARS-CoV-2の創薬。 HEY293 アッセイを使用して抗 SARS-CoV-2 再利用薬剤を予測した場合、ImageMol は 70 薬剤中 42 薬剤の予測に成功しました (成功率 60%)。これは、ImageMol が HEY293 アッセイでの潜在的な薬剤候補の推論にも優れていることを示しています。昇進の可能性が高い。以下の図 c は、ImageMol が DrugBank データセット上で 3CL 阻害剤の可能性がある薬剤を発見したことを示しています。パネル d は、ImageMol によって発見された 3CL 阻害剤の分子構造を示しています。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

#注目の可視化

ImageMol は、=O 結合、-OH 結合などの分子画像表現から化学情報の事前知識を取得できます。 , -NH3結合とベンゼン環。パネル b および c は、ImageMol の Grad-CAM によって視覚化された 12 個の分子の例を示しています。これは、ImageMol がグローバル (b) とローカル (c) の両方の構造情報を同時に正確に捉えていることを意味しており、これらの結果により、研究者は分子構造が特性やターゲットにどのような影響を与えるかを視覚的に理解できるようになります。

自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介

以上が自己教師あり学習に基づく世界初の分子画像生成フレームワーク、ImageMol の紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：GPT-4 開発者は無制限の自己修復機能を備えた AI システムを開発次の記事：GPT-4 開発者は無制限の自己修復機能を備えた AI システムを開発

続きを見る