ホームページ > 記事 > テクノロジー周辺機器 > AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載
著者 | コーネル大学 Du Yuanqi
編集者 | ScienceAI
科学のための AI がますます注目を集めるにつれ、人々は AI がどのようにして科学的問題を解決し、他の分野で参考としてうまく利用できるかについてより懸念を抱いています。国も同様の分野。
AI と低分子創薬は、最も代表的で初期に研究が進められている分野の 1 つです。分子の発見は、(分子構造の離散的な性質のため) 非常に困難な組み合わせ最適化問題であり、探索空間は非常に大きく、険しいものであると同時に、通常、探索された分子の特性を検証することは非常に困難です。高価な実験、少なくともシミュレーション計算、フィードバックを提供するための量子化学手法が必要です。
機械学習の急速な発展と初期の探求(シンプルで使用可能な最適化目標と効果測定方法の構築を含む)のおかげで、組み合わせ最適化、検索、サンプリングアルゴリズム(遺伝的アルゴリズム)を含む多数のアルゴリズムが開発されました。 、モンテカルロ木探索、強化学習、生成フローモデル/GFlowNet、マルコフ連鎖モンテカルロなど)、および連続最適化アルゴリズム、ベイズ最適化、勾配ベースの最適化など。同時に、既存の比較的完全なアルゴリズム測定ベンチマークと比較的客観的で公正な比較方法により、機械学習アルゴリズムの開発に広い余地が開かれました。
最近、コーネル大学、ケンブリッジ大学、およびローザンヌ工科大学エコール工科大学 (EPFL) の研究者らが、「Nature Machine Intelligence」に「機械学習支援生成分子設計」というタイトルのレビュー記事を発表しました。
論文リンク: https://www.nature.com/articles/s42256-024-00843-5
このレビューでは、生成分子設計における機械学習の応用をレビューします。創薬と開発では、特定の物理化学的特性と生物学的活性を満たすように分子を最適化する必要があります。ただし、従来の方法は高価であり、膨大な検索スペースと不連続な最適化機能により失敗する傾向があります。機械学習は、分子生成とスクリーニングのステップを組み合わせることで、初期段階の創薬プロセスを加速します。
イラスト: 生成 ML 支援分子設計プロセス。
生成分子設計タスク
生成分子設計は、分散学習と目標指向生成という 2 つの主要なパラダイムに分けることができ、目標指向生成はさらに条件付き生成と分子最適化に分けることができます。各方法の適合性は、特定のタスクと関係するデータによって異なります。
分布学習(分布学習)
条件付き生成 (プロパティ条件付き生成)
分子最適化は、医薬品候補の特性を改良して安全性、有効性、薬物動態特性を向上させることで、創薬において重要な役割を果たします。候補分子構造に小さな変更を加えて、溶解度、バイオアベイラビリティ、標的親和性などの薬物特性を最適化し、それによって治療の可能性を向上させ、臨床エンドポイントの成功率を高めます。
イラスト: 生成タスク、生成戦略、分子の特性評価のイラスト。
分子生成プロセス
分子生成は多くの異なるユニットの組み合わせからなる複雑なプロセスです。以下の図に代表的な作業をリストし、各部分の代表的なユニットを紹介します。
分子表現
分子的に生成されたニューラル アーキテクチャを開発する場合、最初に分子構造の機械可読な入出力表現を決定する必要があります。入力表現はモデルに適切な誘導バイアスを注入するのに役立ち、出力表現は分子の最適化された探索空間を決定します。表現タイプによって、生成方法の適用可能性が決まります。たとえば、離散検索アルゴリズムは、グラフや文字列などの組み合わせ表現にのみ適用できます。
さまざまな入力表現が研究されていますが、表現タイプとそれをエンコードするニューラル アーキテクチャとの間のトレードオフはまだ明確ではありません。分子間の表現変換は必ずしも全単射的であるとは限りません。たとえば、密度マップやフィンガープリントでは分子を一意に識別できないため、この自明ではないマッピング問題を解決するにはさらなる技術が必要です。一般的な分子表現には、文字列、2 次元トポロジカル グラフ、3 次元幾何学グラフなどがあります。
表現の粒度は、生成モデル設計におけるもう 1 つの考慮事項です。通常、この方法では生成中に原子または分子の断片を基本的な構成要素として利用します。フラグメントベースの表現は、分子構造を原子グループを含むより大きな単位に洗練し、官能基の同定などの階層情報を保持するため、従来のフラグメントベースまたはファーマコフォアの薬剤設計アプローチと一致します。
生成メソッド
深層生成モデルは、学習分布 (分布学習とも呼ばれます) からデータとサンプルの確率分布を推定するメソッドのクラスです。これらには、変分オートエンコーダー、敵対的生成ネットワーク、正規化フロー、自己回帰モデル、拡散モデルが含まれます。これらの生成方法にはそれぞれユースケース、長所と短所があり、選択は必要なタスクとデータの特性によって異なります。
生成戦略
生成戦略とは、モデルが分子構造を出力する方法を指し、一般に 1 回限りの生成、逐次生成、または反復的改善に分類できます。
ワンショット生成: ワンショット生成では、モデルの 1 回の順方向パスで完全な分子構造が生成されます。このアプローチでは、現実的で合理的な分子構造を高精度で生成するのが難しいことがよくあります。さらに、ワンショット生成では、生成される構造の精度と妥当性を確保するために重要な原子価制約などの明示的な制約を満たすことができないことがよくあります。
逐次生成: 逐次生成では、通常は原子またはフラグメントによる一連のステップを通じて分子構造を構築します。原子価制約を連続生成に簡単に注入できるため、生成される分子の品質が向上します。ただし、逐次生成の主な制限は、生成される軌跡の順序をトレーニング中に定義する必要があり、推論に時間がかかることです。
反復的改善: 反復的改善では、一連の更新を予測することで予測を調整し、ワンショット生成方法の困難を回避します。たとえば、AlphaFold2 の環状構造モジュールは、関連する分子生成戦略にインスピレーションを与えたアプローチであるバックボーン フレームワークの洗練に成功しました。拡散モデリングは、一連のノイズ低減ステップを通じて新しいデータを生成する一般的な手法です。現在、拡散モデルは、立体構造生成、構造ベースの薬物設計、リンカー設計など、さまざまな分子生成問題に適用されています。
最適化戦略
組み合わせ最適化: 分子 (画像または文字列) の組み合わせエンコードには、組み合わせ最適化の分野のテクノロジーを直接適用できます。
継続的最適化: 分子は、ユークリッド空間の点群や幾何学マップ、または連続潜在空間の離散データをエンコードする深層生成モデルなどの連続ドメインで表現またはエンコードできます。
生成機械学習モデルの評価
生成モデルの評価には、計算による評価と実験による検証が必要です。標準的な指標には、有効性、独自性、新規性などが含まれます。ビルドのパフォーマンスを完全に評価するには、モデルを評価するときに複数のメトリックを考慮する必要があります。
実験検証
主に計算による貢献に焦点を当てた既存の研究とは対照的に、生成された分子は湿式実験を通じて明示的に検証される必要があります。生成モデルには弱点がないわけではありませんが、予測と実験の間に断絶があるのは、そのような検証を行うために必要な専門知識、費用、および長いテストサイクルにも原因があります。
モデル法則の生成
実験的検証を報告するほとんどの研究は、SMILESを操作オブジェクトとしてRNNおよび/またはVAEを使用します。 4 つの主な観察結果を要約します:
将来の方向性
機械学習アルゴリズムは低分子創薬に希望をもたらしましたが、直面する課題と機会はまだたくさんあります。
課題
チャンス
著者: Du Yuanqi、コーネル大学コンピューター サイエンス学部博士課程 2 年生 彼の主な研究対象には、幾何学的な深層学習、確率モデル、サンプリング、検索、最適化問題、解釈可能性、およびこの分野での応用が含まれます。具体的な情報については、https://yuanqidu.github.io/をご覧ください。
以上がAI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。