ホームページ >テクノロジー周辺機器 >AI >AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

PHPz
PHPzオリジナル
2024-06-24 21:20:21519ブラウズ

AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

著者 | コーネル大学 Du Yuanqi

編集者 | ScienceAI

科学のための AI がますます注目を集めるにつれ、人々は AI がどのようにして科学的問題を解決し、他の分野で参考としてうまく利用できるかについてより懸念を抱いています。国も同様の分野。

AI と低分子創薬は、最も代表的で初期に研究が進められている分野の 1 つです。分子の発見は、(分子構造の離散的な性質のため) 非常に困難な組み合わせ最適化問題であり、探索空間は非常に大きく、険しいものであると同時に、通常、探索された分子の特性を検証することは非常に困難です。高価な実験、少なくともシミュレーション計算、フィードバックを提供するための量子化学手法が必要です。

機械学習の急速な発展と初期の探求(シンプルで使用可能な最適化目標と効果測定方法の構築を含む)のおかげで、組み合わせ最適化、検索、サンプリングアルゴリズム(遺伝的アルゴリズム)を含む多数のアルゴリズムが開発されました。 、モンテカルロ木探索、強化学習、生成フローモデル/GFlowNet、マルコフ連鎖モンテカルロなど)、および連続最適化アルゴリズム、ベイズ最適化、勾配ベースの最適化など。同時に、既存の比較的完全なアルゴリズム測定ベンチマークと比較的客観的で公正な比較方法により、機械学習アルゴリズムの開発に広い余地が開かれました。

最近、コーネル大学、ケンブリッジ大学、およびローザンヌ工科大学エコール工科大学 (EPFL) の研究者らが、「Nature Machine Intelligence」に「機械学習支援生成分子設計」というタイトルのレビュー記事を発表しました。

AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

論文リンク: https://www.nature.com/articles/s42256-024-00843-5

このレビューでは、生成分子設計における機械学習の応用をレビューします。創薬と開発では、特定の物理化学的特性と生物学的活性を満たすように分子を最適化する必要があります。ただし、従来の方法は高価であり、膨大な検索スペースと不連続な最適化機能により失敗する傾向があります。機械学習は、分子生成とスクリーニングのステップを組み合わせることで、初期段階の創薬プロセスを加速します。

AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

イラスト: 生成 ML 支援分子設計プロセス。

生成分子設計タスク

生成分子設計は、分散学習と目標指向生成という 2 つの主要なパラダイムに分けることができ、目標指向生成はさらに条件付き生成と分子最適化に分けることができます。各方法の適合性は、特定のタスクと関係するデータによって異なります。

分布学習(分布学習)

  • 分布学習は、与えられたデータセット内の分子の確率分布をモデル化することでデータの分布を記述し、それによって学習された分布から新しい分子をサンプリングすることを目的としています。

条件付き生成 (プロパティ条件付き生成)

  • プロパティ条件付き生成: 特定の属性 (テキストの説明または特定の属性の値) を含む構造を生成します。
  • 分子 (サブ) 構造条件付き生成 (分子 (サブ) 構造条件付き生成): 部分構造の設計、足場ホッピング、リンカー設計、全体構造の再設計 (パイロット最適化) など、特定の構造制約を持つ分子を生成します。または分子の条件付き生成全体 (立体構造生成)。
  • ターゲット条件付き生成 (ターゲット条件付き生成): 特定の疾患関連生体分子ターゲットに対して高い結合親和性を持つ分子を生成することを目的としています。属性条件の生成とは異なり、ターゲット条件の生成では、ターゲット構造への明示的なアクセスを利用して、直接のターゲット-リガンド相互作用を統合することにより、ターゲットに対するリガンド分子の親和性を向上させます。
  • 表現型条件付き生成 (表現型条件付き生成): 細胞ベースの顕微鏡検査または他のバイオアッセイの読み取り値 (トランスクリプトーム データなど) から表現型のフィンガープリントを学習して、生成を目的の生物学に導く条件付けされたシグナルを提供することが含まれます。結果の分子。

分子最適化は、医薬品候補の特性を改良して安全性、有効性、薬物動態特性を向上させることで、創薬において重要な役割を果たします。候補分子構造に小さな変更を加えて、溶解度、バイオアベイラビリティ、標的親和性などの薬物特性を最適化し、それによって治療の可能性を向上させ、臨床エンドポイントの成功率を高めます。

  • イラスト: 生成タスク、生成戦略、分子の特性評価のイラスト。

    分子生成プロセス

    分子生成は多くの異なるユニットの組み合わせからなる複雑なプロセスです。以下の図に代表的な作業をリストし、各部分の代表的なユニットを紹介します。

    分子表現

    分子的に生成されたニューラル アーキテクチャを開発する場合、最初に分子構造の機械可読な入出力表現を決定する必要があります。入力表現はモデルに適切な誘導バイアスを注入するのに役立ち、出力表現は分子の最適化された探索空間を決定します。表現タイプによって、生成方法の適用可能性が決まります。たとえば、離散検索アルゴリズムは、グラフや文字列などの組み合わせ表現にのみ適用できます。

    さまざまな入力表現が研究されていますが、表現タイプとそれをエンコードするニューラル アーキテクチャとの間のトレードオフはまだ明確ではありません。分子間の表現変換は必ずしも全単射的であるとは限りません。たとえば、密度マップやフィンガープリントでは分子を一意に識別できないため、この自明ではないマッピング問題を解決するにはさらなる技術が必要です。一般的な分子表現には、文字列、2 次元トポロジカル グラフ、3 次元幾何学グラフなどがあります。

    • 文字列ベースの分子構造: 通常は、Simplified Molecular Input Line Entry System (SMILES) や Self-Referential Embedded Strings (SELFIES) などの文字列としてエンコードされます。 SMILES は構文ルールを使用して分子を表しますが、文字列が無効である可能性があります。SELFIES はこれらのルールを変更することで分子の有効性を判断します。分子列は通常、リカレント ネットワークと Transformer モデルを介して配列データにエンコードされます。
    • トポロジカルグラフと幾何学グラフに基づく原子と結合: 通常、トポロジカルグラフではノードとエッジとして表されます。グラフ ニューラル ネットワーク (GNN) は、グラフ構造の分子データをモデル化するためによく使用され、隣接するノードに基づいてノードとエッジの特徴を更新します。幾何学的 GNN は、3D 情報が利用可能で関連性がある場合に、並進および回転の不変性または等変性など、3D 空間でのアプリケーション関連の対称性をキャプチャするためによく使用されます。

    表現の粒度は、生成モデル設計におけるもう 1 つの考慮事項です。通常、この方法では生成中に原子または分子の断片を基本的な構成要素として利用します。フラグメントベースの表現は、分子構造を原子グループを含むより大きな単位に洗練し、官能基の同定などの階層情報を保持するため、従来のフラグメントベースまたはファーマコフォアの薬剤設計アプローチと一致します。

    生成メソッド

    深層生成モデルは、学習分布 (分布学習とも呼ばれます) からデータとサンプルの確率分布を推定するメソッドのクラスです。これらには、変分オートエンコーダー、敵対的生成ネットワーク、正規化フロー、自己回帰モデル、拡散モデルが含まれます。これらの生成方法にはそれぞれユースケース、長所と短所があり、選択は必要なタスクとデータの特性によって異なります。

    生成戦略

    生成戦略とは、モデルが分子構造を出力する方法を指し、一般に 1 回限りの生成、逐次生成、または反復的改善に分類できます。

    ワンショット生成: ワンショット生成では、モデルの 1 回の順方向パスで完全な分子構造が生成されます。このアプローチでは、現実的で合理的な分子構造を高精度で生成するのが難しいことがよくあります。さらに、ワンショット生成では、生成される構造の精度と妥当性を確保するために重要な原子価制約などの明示的な制約を満たすことができないことがよくあります。

    逐次生成: 逐次生成では、通常は原子またはフラグメントによる一連のステップを通じて分子構造を構築します。原子価制約を連続生成に簡単に注入できるため、生成される分子の品質が向上します。ただし、逐次生成の主な制限は、生成される軌跡の順序をトレーニング中に定義する必要があり、推論に時間がかかることです。

    反復的改善: 反復的改善では、一連の更新を予測することで予測を調整し、ワンショット生成方法の困難を回避します。たとえば、AlphaFold2 の環状構造モジュールは、関連する分子生成戦略にインスピレーションを与えたアプローチであるバックボーン フレームワークの洗練に成功しました。拡散モデリングは、一連のノイズ低減ステップを通じて新しいデータを生成する一般的な手法です。現在、拡散モデルは、立体構造生成、構造ベースの薬物設計、リンカー設計など、さまざまな分子生成問題に適用されています。

    最適化戦略

    組み合わせ最適化: 分子 (画像または文字列) の組み合わせエンコードには、組み合わせ最適化の分野のテクノロジーを直接適用できます。

    継続的最適化: 分子は、ユークリッド空間の点群や幾何学マップ、または連続潜在空間の離散データをエンコードする深層生成モデルなどの連続ドメインで表現またはエンコードできます。

    AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

    生成機械学習モデルの評価

    生成モデルの評価には、計算による評価と実験による検証が必要です。標準的な指標には、有効性、独自性、新規性などが含まれます。ビルドのパフォーマンスを完全に評価するには、モデルを評価するときに複数のメトリックを考慮する必要があります。

    実験検証

    主に計算による貢献に焦点を当てた既存の研究とは対照的に、生成された分子は湿式実験を通じて明示的に検証される必要があります。生成モデルには弱点がないわけではありませんが、予測と実験の間に断絶があるのは、そのような検証を行うために必要な専門知識、費用、および長いテストサイクルにも原因があります。

    AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

    AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載

    モデル法則の生成

    実験的検証を報告するほとんどの研究は、SMILESを操作オブジェクトとしてRNNおよび/またはVAEを使用します。 4 つの主な観察結果を要約します:

    1. SMILES は、限られた 3D 情報をキャプチャしますが、分散学習と小さなデータセットの微調整に適した効率的な表現として機能します。
    2. 実験的に検証された研究ターゲットの多くはキナーゼであり、ChEMBL などの人気のあるオープンソース データセットの一般的なターゲットです。
    3. 目標指向型手法の大多数は、リガンドベースおよび構造ベースの薬物設計を含む、最適化アルゴリズムとして強化学習を (単独またはコンポーネントとして) 使用します。
    4. AlphaFold の予測構造は、構造生成薬剤設計にうまく使用できます。

    将来の方向性

    機械学習アルゴリズムは低分子創薬に希望をもたらしましたが、直面する課題と機会はまだたくさんあります。

    課題

    1. 流通外生成: 既知の化学物質は、化学物質の空間のほんの一部しか占めていません。深い生成モデルはトレーニング分布外の分子を提案できますが、それらが合理的であることを保証する必要があります。
    2. 非現実的な問題の定式化: 現実の創薬に適用できるモデルを開発するには、正確な問題の定式化が不可欠です。見落とされがちな基本的な側面には、構造力学、水の役割、エントロピーの寄与などが含まれますが、オラクル呼び出しへの無制限のアクセスなどの仮定は、誤って当然のこととみなされることがよくあります。これにはサンプル効率の問題も含まれており、最近の研究では、限られたオラクルの予算の下で効率的な目標指向の生成に向けて進歩しています。
    3. 忠実度の低いオラクル: 創薬関連の次元での効率的なスコア設計は依然として困難であり、産業環境で生成モデルを導入する際のボトルネックとなっています。たとえば、データ駆動型および物理ベースのワークフローでは、高スループットの結合親和性予測が不正確になることがよくあります。代替の高精度オラクルは存在しますが、その計算要件によりスケーラビリティが制限されます。さらに、高品質の注釈付きデータにアクセスできないことも、高精度で管理しやすい AI オラクルを開発する際の障害となっています。
    4. 統一された評価プロトコルの欠如: 医薬品候補の品質を評価するために使用される評価プロトコルは、良い医薬品とは何かを定義するための基準と密接に結びついています。 ML コミュニティで一般的に使用されている計算が容易な物理化学的記述子には疑問があり、パフォーマンスを完全に反映していないことは確かです。生成分子設計と仮想スクリーニングの間の厳密な比較も、あまり一般的ではありません。
    5. 大規模な調査とベンチマークの欠如: 多くの ML 手法が開発されていますが、多くの重要なタスクにおけるさまざまなモデル タイプで公正なベンチマーク結果が得られていません。たとえば、利用可能なデータの一部のみがトレーニングに使用され、モデルのスケーラビリティの理解が制限されていました。最近のベンチマークは、計算評価プロトコルの標準化に重要な貢献をしています。
    6. 解釈可能性の欠如: 解釈可能性は、分子生成モデルにおいて重要ではありますが、十分に研究されていない領域です。たとえば、生成または最適化プロセスで分子がどのように構築されるかについての洞察により、医薬品化学者が解釈できる化学規則が得られます。これは、医薬品化学者にアイデアを提出するために生成モデルがよく使用され、合成障壁によりすべての生成デザインをテストすることができないため、小分子の分野では特に重要です。

    チャンス

    1. 低分子設計を超えた応用: ここで説明する方法は、多糖類、タンパク質 (特に抗体)、核酸、結晶構造、ポリマーなどの他の複雑な構造材料の設計に広範に応用できる可能性があります。
    2. 大規模な言語モデルは、科学文献を含む膨大な量の利用可能なトレーニング データによって可能になる、テキストに基づいた発見とエージェントとしての意思決定を通じて、分子設計に革命をもたらす可能性を実証します。さらに、分子構造に合わせてカスタマイズまたは微調整されたモデルは、研究者に自然言語処理における確立された進歩を活用する追加の機会を提供します。
    3. 創薬の後期段階: 分子設計/最適化は創薬の初期段階を占めます。しかし、有効性が限定的であること、ADME/T (吸収、分布、代謝、排泄、毒性) 特性が不十分であること、および安全性の問題による後期失敗は、医薬品開発パイプラインにおける課題となっています。限定的ではありますが、臨床データを設計パイプラインに統合することは、下流の成功率を向上させるための有望な方向性です。
    4. 重点モデルの目的: 創薬パイプラインは、製薬会社が長年の経験と学んだ厳しい教訓の結果です。 ML 研究者は、純粋な ab initio モデル (特に深い表現機能が不足している場合) を設計するのではなく、現実世界の制約に合わせて、複数年にわたるプロセスにわたって特定のステップでの改善に焦点を当てたモデルを設計する必要があります。
    5. 自動ラボ: ML 用に設計された分子にフィードバックを提供するためのハイスループット実験のニーズが高まっているため、設計、製造、テスト、分析のサイクルをスピードアップするための自動ラボにますます注目が集まっています。

    著者: Du Yuanqi、コーネル大学コンピューター サイエンス学部博士課程 2 年生 彼の主な研究対象には、幾何学的な深層学習、確率モデル、サンプリング、検索、最適化問題、解釈可能性、およびこの分野での応用が含まれます。具体的な情報については、https://yuanqidu.github.io/をご覧ください。

以上がAI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。