ホームページ > 記事 > テクノロジー周辺機器 > NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース
著者 | Liu Shengchao
編集者 | Kaixia
2021 年から、ビッグ言語とマルチモダリティの組み合わせが機械学習研究を席巻コミュニティ 。
大規模なモデルとマルチモーダルなアプリケーションの開発により、これらの技術を創薬に応用できるでしょうか?そして、これらの自然言語によるテキスト記述は、この困難な問題に新たな視点をもたらすことができるでしょうか?答えは「はい」であり、私たちはそれについて楽観的です
最近、カナダのモントリオール学習アルゴリズム研究所 (Mila)、NVIDIA Research、イリノイ大学アーバナシャンペーン校 (UIUC)、プリンストン大学、カリフォルニア工科大学同大学の研究チームは、比較学習戦略を通じて分子の化学構造とテキスト記述を共同で学習し、マルチモーダルな分子構造テキストモデル MoleculeSTM を提案しています。
この研究は「マルチモーダル分子構造 – テキストベースの検索および編集のためのテキストモデル」というタイトルで、2023 年 12 月 18 日に「Nature Machine Intelligence」に掲載されました。
論文リンク: https://www.nature.com/articles/s42256-023-00759-6 を書き直す必要があります
その中で、 Liu Shengchao 博士が筆頭著者で、NVIDIA Research の Anima Anandkumar 教授が責任著者です。 Nie Weili、Wang Chengpeng、Lu Jiarui、Qiao Zhuoran、Liu Ling、Tang Jian、Xiao Chaowei が共著者です。
このプロジェクトは、2022 年 3 月に NVIDIA Research に入社した Liu Shengchao 博士が、Nie Weili 教師、Tang Jian 教師、Xiao Chaowei 教師、Anima Anandkumar 教師の指導の下で実施しました。
Liu Shengchao 博士は次のように述べています。「私たちの動機は、LLM と創薬の予備調査を実施し、最終的に MoleculeSTM を提案することでした。」テキストは分子編集をガイドするように設計されています。
MoleculeSTM の核となる考え方は非常にシンプルかつ直接的です。つまり、分子の記述は内部化学構造と外部機能記述の 2 つのカテゴリに分類できます。ここでは、対照的な事前トレーニング方法を使用して、これら 2 種類の情報を調整して接続します。具体的な図を以下の図に示します
#図: MoleculeSTM フローチャート。
MoleculeSTM のこのアライメントには非常に優れた特性があります。化学空間で解決するのが難しいタスクがある場合、それらを自然言語空間に転送できます。そして、自然言語タスクは、その特性により比較的簡単に解決できるでしょう。これに基づいて、下流のさまざまなタスクを設計し、その有効性を検証しました。以下では、いくつかの洞察について詳しく説明します。
自然言語モデルと大規模言語モデルの特徴
MoleculeSTM では、初めて問題を提起します。自然言語のオープンボキャブラリーと組み合わせ特性を活用しますオープンボキャブラリーとは、現在の人間の知識をすべて自然言語で表現できることを意味し、将来出現する新しい知識も表現できます。現代語で. 要約したり要約したりするためにいくつかの言語が使用されます。たとえば、新しいタンパク質が出現した場合、その機能を自然言語で説明できるようにしたいと考えています。
複合性とは、自然言語において、複雑な概念が複数の単純な概念によって共同して表現できることを意味します。これは、複数属性の編集などのタスクに非常に役立ちます。化学空間で同時に複数の特性を満たすように分子を編集するのは非常に困難ですが、複数の特性を自然言語で非常に簡単に表現できます。
MoleculeSTM (付録 B) では、2 つのガイドラインを提案しました:
これに基づいて、3 つの大きなカテゴリのタスクを設計しました:
分子物性予測。
次のセクションでは 2 番目のタスクに焦点を当てます
分子編集の定性的結果は次のように言い換えられます:
これはこのタスクは、分子と自然言語記述 (追加の属性など) を同時に入力し、複合言語テキストで記述された新しい分子を出力することを期待することです。これはテキストガイドによるリードの最適化です。具体的な方法は、すでにトレーニング済みの分子生成モデルと事前トレーニング済みの MoleculeSTM を使用して 2 つの潜在空間 (潜在空間) の位置合わせを学習し、それによって潜在空間補間を実行し、デコードしてターゲットを生成することです。分子。プロセス図は次のとおりです。
書き直す必要がある内容は次のとおりです: ゼロサンプルのテキストガイドによる分子編集の 2 段階のプロセス図結合親和性エディター: 入力分子と標的の間の結合親和性を高めることを目的として、いくつかの ChEMBL アッセイを標的として選択しました。
#結果表示: ゼロサンプルのテキストガイドによる分子編集。 (注: これは原文を中国語に直訳したものです。)######さらに興味深いのは最後のタイプのタスクで、MoleculeSTM が実際にターゲットタンパク質のテキスト記述に基づいてマッチングを実行できることがわかりました。 . リガンドのリード化合物の最適化。 (注: ここでのタンパク質の構造情報は評価後にのみ判明します。) ###以上がNVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。