ホームページ  >  記事  >  テクノロジー周辺機器  >  NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

WBOY
WBOY転載
2024-01-14 20:00:05664ブラウズ

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

著者 | Liu Shengchao

編集者 | Kaixia

2021 年から、ビッグ言語とマルチモダリティの組み合わせが機械学習研究を席巻コミュニティ 。

大規模なモデルとマルチモーダルなアプリケーションの開発により、これらの技術を創薬に応用できるでしょうか?そして、これらの自然言語によるテキスト記述は、この困難な問題に新たな視点をもたらすことができるでしょうか?答えは「はい」であり、私たちはそれについて楽観的です

最近、カナダのモントリオール学習アルゴリズム研究所 (Mila)、NVIDIA Research、イリノイ大学アーバナシャンペーン校 (UIUC)、プリンストン大学、カリフォルニア工科大学同大学の研究チームは、比較学習戦略を通じて分子の化学構造とテキスト記述を共同で学習し、マルチモーダルな分子構造テキストモデル MoleculeSTM を提案しています。

この研究は「マルチモーダル分子構造 – テキストベースの検索および編集のためのテキストモデル」というタイトルで、2023 年 12 月 18 日に「Nature Machine Intelligence」に掲載されました。

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

論文リンク: https://www.nature.com/articles/s42256-023-00759-6 を書き直す必要があります

その中で、 Liu Shengchao 博士が筆頭著者で、NVIDIA Research の Anima Anandkumar 教授が責任著者です。 Nie Weili、Wang Chengpeng、Lu Jiarui、Qiao Zhuoran、Liu Ling、Tang Jian、Xiao Chaowei が共著者です。

このプロジェクトは、2022 年 3 月に NVIDIA Research に入社した Liu Shengchao 博士が、Nie Weili 教師、Tang Jian 教師、Xiao Chaowei 教師、Anima Anandkumar 教師の指導の下で実施しました。

Liu Shengchao 博士は次のように述べています。「私たちの動機は、LLM と創薬の予備調査を実施し、最終的に MoleculeSTM を提案することでした。」テキストは分子編集をガイドするように設計されています。

MoleculeSTM の核となる考え方は非常にシンプルかつ直接的です。つまり、分子の記述は内部化学構造と外部機能記述の 2 つのカテゴリに分類できます。ここでは、対照的な事前トレーニング方法を使用して、これら 2 種類の情報を調整して接続します。具体的な図を以下の図に示しますNVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

#図: MoleculeSTM フローチャート。

MoleculeSTM のこのアライメントには非常に優れた特性があります。化学空間で解決するのが難しいタスクがある場合、それらを自然言語空間に転送できます。そして、自然言語タスクは、その特性により比較的簡単に解決できるでしょう。これに基づいて、下流のさまざまなタスクを設計し、その有効性を検証しました。以下では、いくつかの洞察について詳しく説明します。 NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

自然言語モデルと大規模言語モデルの特徴

MoleculeSTM では、初めて問題を提起します。自然言語のオープンボキャブラリーと組み合わせ特性を活用します

オープンボキャブラリーとは、現在の人間の知識をすべて自然言語で表現できることを意味し、将来出現する新しい知識も表現できます。現代語で. 要約したり要約したりするためにいくつかの言語が使用されます。たとえば、新しいタンパク質が出現した場合、その機能を自然言語で説明できるようにしたいと考えています。

複合性とは、自然言語において、複雑な概念が複数の単純な概念によって共同して表現できることを意味します。これは、複数属性の編集などのタスクに非常に役立ちます。化学空間で同時に複数の特性を満たすように分子を編集するのは非常に困難ですが、複数の特性を自然言語で非常に簡単に表現できます。

  • 私たちの最近の研究 ChatDrug (https://arxiv.org/abs/2305.18090) では、自然言語モデルと大規模言語モデルの間の会話特性を調査しました。これは、Friends can go and見てみる
  • 機能由来のタスク設計とは、製品やシステムの特性に基づいてタスクを計画し配置する設計のことを指します

既存言語の場合 - イメージの場合タスクは、画像やテキストの生成など、アート関連のタスクとして見ることができます。つまり、結果はさまざまであり、不確実です。ただし、科学的発見とは、特定の機能を持つ小分子の生成など、比較的明確な結果が得られる科学的な問題を指します。これはタスク設計に大きな課題をもたらします

MoleculeSTM (付録 B) では、2 つのガイドラインを提案しました:

  • 私たちが考慮する最初のタスクは、計算とシミュレーションを実行して結果を取得できるようにすることです。将来的には、ウェットラボ検証結果が考慮される予定ですが、これは現在の作業の範囲内ではありません。
  • 第二に、あいまいな結果を持つ問題のみを考慮します。具体的な例としては、特定の分子を水溶性または浸透性にすることが挙げられます。分子内の特定の位置に特定の官能基を追加するなど、明確な結果が得られる問題もありますが、そのようなタスクは医薬品や化学の専門家にとってよりシンプルでわかりやすいと考えられます。したがって、将来的に概念実証タスクとして使用することはできますが、主要なタスクの対象にはなりません。

これに基づいて、3 つの大きなカテゴリのタスクを設計しました:

  1. ゼロショット構造化テキスト検索、
  2. ゼロショット テキストベースの分子編集、および

分子物性予測。

次のセクションでは 2 番目のタスクに焦点を当てます

分子編集の定性的結果は次のように言い換えられます:

これはこのタスクは、分子と自然言語記述 (追加の属性など) を同時に入力し、複合言語テキストで記述された新しい分子を出力することを期待することです。これはテキストガイドによるリードの最適化です。

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース具体的な方法は、すでにトレーニング済みの分子生成モデルと事前トレーニング済みの MoleculeSTM を使用して 2 つの潜在空間 (潜在空間) の位置合わせを学習し、それによって潜在空間補間を実行し、デコードしてターゲットを生成することです。分子。プロセス図は次のとおりです。

書き直す必要がある内容は次のとおりです: ゼロサンプルのテキストガイドによる分子編集の 2 段階のプロセス図
  • ここではいくつかのグループを示します。定性的な結果は次のように言い換えられます: (残りの下流​​タスクの結果の詳細は元の論文に記載されています)。主に 4 種類の分子編集タスクを検討します。
  • 単一属性編集: 水溶性、浸透性、水素結合ドナーとアクセプターの数などの単一属性を編集します。
  • 複合属性編集: 水溶性や水素結合供与体の数など、複数の属性を同時に編集します。
  • 薬物類似性エディター: (付録 D.5) は、入力分子と標的分子薬物をより近くに表示します。
  • 特許取得済み医薬品の近隣探索: 特許取得済み医薬品の場合、製造中の医薬品も一緒に報告されることがよくあります。ここでは、中間薬物を自然言語記述と組み合わせて、最終的な標的薬物を生成できるかどうかを確認しています。

結合親和性エディター: 入力分子と標的の間の結合親和性を高めることを目的として、いくつかの ChEMBL アッセイを標的として選択しました。 NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

#結果表示: ゼロサンプルのテキストガイドによる分子編集。 (注: これは原文を中国語に直訳したものです。)######さらに興味深いのは最後のタイプのタスクで、MoleculeSTM が実際にターゲットタンパク質のテキスト記述に基づいてマッチングを実行できることがわかりました。 . リガンドのリード化合物の最適化。 (注: ここでのタンパク質の構造情報は評価後にのみ判明します。) ###

以上がNVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。