首頁 >科技週邊 >人工智慧 >NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

WBOY
WBOY轉載
2024-01-14 20:00:05742瀏覽

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

作者 | 劉聖超

編輯 | 凱霞

從2021年開始,大語言和多模態的結合席捲了機器學習研究界。

隨著大模型和多模態應用的發展,我們是否可以將這些技術應用於藥物發現?而且,這些自然語言的文字描述是否能為這個具有挑戰性的問題帶來新的視野呢?答案是肯定的,我們對此持樂觀態度

近日,加拿大蒙特婁學習演算法研究院(Mila)、NVIDIA Research、伊利諾大學厄巴納-香檳分校(UIUC)、普林斯頓大學和加州理工學院的研究團隊,透過對比學習策略共同學習分子的化學結構和文本描述,提出了多模態分子結構-文本模型MoleculeSTM。

研究以為題《Multi-modal molecule structure–text model for text-based retrieval and editing》為題,於 2023 年 12 月 18 日發表在《Nature Machine Intelligence》上。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

論文連結:https://www.nature.com/articles/s42256-023-00759-6需要重寫

#其中劉聖超博士為第一作者,NVIDIA Research 的Anima Anandkumar 教授為通訊作者。聶維梨、王程鵬、盧家睿、喬卓然、劉玲、唐建、蕭超瑋為共同作者。

該計畫是劉聖超博士在2022年3月加入 NVIDIA Research 之後,在聶維梨老師、唐建老師、肖超瑋老師和 Anima Anandkumar 老師的指導下進行的。

劉聖超博士表示:「我們的動機是對LLM和藥物發現進行初步的探索,最後提出了MoleculeSTM。」

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

用於對接的文本是為了引導分子編輯而設計的

MoleculeSTM的核心思路非常簡單直接,即分子的描述可分為內部化學結構和外部功能描述兩大類。而我們在這裡採用了對比預訓練的方法,將這兩種類型的信息進行對齊和聯繫。具體示意如下圖所示

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

圖示:MoleculeSTM的流程圖。

而MoleculeSTM的這個alignment有一個非常好的性質:當有一些任務在化學空間比較難以解決的時候,我們可以將其transfer到自然語言(natural language)空間。而且自然語言的任務會相對更容易解決,由於它的特性。並且基於此我們設計了種類豐富的下游任務來驗證其有效性。下面我們圍繞著幾個insight詳細討論。

自然語言和大語言模型的特性

在MoleculeSTM中,我們首次提出了一個問題。我們利用了自然語言的開放詞彙和組合性特徵

  • Open vocabulary的意思是我們可以把現在人類知識都用自然語言表示,所以對於將來新出現的知識,也能用現有的語言進行歸納和總結。例如出現某種新的蛋白質,我們希望可以對它的功能進行自然語言描述。
  • Compositionality的意思是在自然語言中,一個複雜的概念可以用幾個簡單的概念來進行聯合表達。這個對於類似多屬性編輯的任務有很大的幫助:在化學空間要編輯分子同時符合多個特性非常困難,但是我們可以非常簡單地用自然語言表達出多種特性。

在我們最近的工作中ChatDrug (https://arxiv.org/abs/2305.18090),我們探討了自然語言和大型語言模型之間的對話特性,對此感興趣的朋友可以去看看

特性引出的任務設計指的是根據產品或系統的特性來規劃和排程任務的設計

對於現有的language- image任務來說,它們可以被視為與藝術相關的任務,例如生成圖片或文字。也就是說,它們的結果是多樣且不確定的。然而,科學發現是科學問題,通常具有比較明確的結果,例如產生具有特定功能的小分子。這在任務設計上帶來了更大的挑戰

在MoleculeSTM中 (Appendix B),我們提出了兩個準則:

  • 首先我們考慮的任務是能夠進行計算模擬得到結果。將來會考慮能夠有wet-lab驗證的結果,但這並不在目前這個工作的考量範疇內。
  • 其次我們只考慮有著模糊性結果的問題。具體例子例如讓某個分子的水溶性或穿透性變強。而有一些問題有明確結果,例如在分子的某個位置加入某一個官能基,我們認為這類任務對於藥物、化學專家來說更簡單直接。所以它可以將來當作某一個proof-of-concept任務,但是並不會成為主要的任務目標。

由此我們設計了三個大類任務:

  1. Zero-shot 結構文本檢索;
  2. Zero-shot 基於文本的分子編輯;
  3. 分子性質預測。

我們會在接下來的部分重點介紹第二個任務

分子編輯的定性結果重新表述如下:

##這個任務就是同時輸入一個分子和自然語言描述(例如額外的屬性),然後希望能夠輸出複合語言文字所描述的新的分子。這就是文字編輯優化(text-guided lead optimization)。

具體的方法就是利用已經訓練好的分子生成模型和我們預先訓練好的MoleculeSTM,透過學習二者的潛在空間(latent space)的alignment,從而進行latent space interpolation,再經過解碼生成目標分子。流程示意圖如下。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

需要重寫的內容是:零樣本文字引導的分子編輯的兩階段流程示意圖

這裡我們展示了幾組分子編輯的定性結果重新表述如下:(其餘下游任務的結果細節可以參考原論文)。主要我們考慮四類分子編輯任務:

    單一屬性編輯:對單一屬性進行編輯,例如水溶性、穿透性、氫鍵施主與受主個數。
  • 複合屬性編輯:同時對多個屬性進行編輯,例如水溶性和氫鍵施主個數。
  • 藥物相似性編輯:(Appendix D.5)是讓輸入分子與目標分子藥物長得更接近。
  • 專利藥物的鄰居搜尋:對於已經申請到專利的藥物,往往會把中間過程的藥物一起報道。我們這裡就是那中間藥物配合自然語言描述,看是否能夠產生最終的目標藥物。
  • binding affinity編輯:我們選擇幾個ChEMBL assay作為靶點,目標是讓輸入分子和標靶有更高的結合親和力。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

結果顯示:零樣本文字引導的分子編輯。 (Note: This is a direct translation of the original sentence into Chinese.)

更有意思的是最後一類任務,我們發現MoleculeSTM的確能夠在緊緊依靠對於靶蛋白的文字描述,而進行配體的配體先導化合物優化。 (註:這裡的蛋白質結構資訊都是在evaluation是才會知道。)

以上是NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除