NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 14, 2024 pm 08:00 PM

理論文字模型

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

作者 | 劉聖超

編輯 | 凱霞

從2021年開始，大語言和多模態的結合席捲了機器學習研究界。

隨著大模型和多模態應用的發展，我們是否可以將這些技術應用於藥物發現？而且，這些自然語言的文字描述是否能為這個具有挑戰性的問題帶來新的視野呢？答案是肯定的，我們對此持樂觀態度

近日，加拿大蒙特婁學習演算法研究院（Mila）、NVIDIA Research、伊利諾大學厄巴納－香檳分校（UIUC）、普林斯頓大學和加州理工學院的研究團隊，透過對比學習策略共同學習分子的化學結構和文本描述，提出了多模態分子結構-文本模型MoleculeSTM。

研究以為題《Multi-modal molecule structure–text model for text-based retrieval and editing》為題，於 2023 年 12 月 18 日發表在《Nature Machine Intelligence》上。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

論文連結：https://www.nature.com/articles/s42256-023-00759-6需要重寫

#其中劉聖超博士為第一作者，NVIDIA Research 的Anima Anandkumar 教授為通訊作者。聶維梨、王程鵬、盧家睿、喬卓然、劉玲、唐建、蕭超瑋為共同作者。

該計畫是劉聖超博士在2022年3月加入 NVIDIA Research 之後，在聶維梨老師、唐建老師、肖超瑋老師和 Anima Anandkumar 老師的指導下進行的。

劉聖超博士表示：「我們的動機是對LLM和藥物發現進行初步的探索，最後提出了MoleculeSTM。」

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

用於對接的文本是為了引導分子編輯而設計的

MoleculeSTM的核心思路非常簡單直接，即分子的描述可分為內部化學結構和外部功能描述兩大類。而我們在這裡採用了對比預訓練的方法，將這兩種類型的信息進行對齊和聯繫。具體示意如下圖所示

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

圖示：MoleculeSTM的流程圖。

而MoleculeSTM的這個alignment有一個非常好的性質：當有一些任務在化學空間比較難以解決的時候，我們可以將其transfer到自然語言（natural language）空間。而且自然語言的任務會相對更容易解決，由於它的特性。並且基於此我們設計了種類豐富的下游任務來驗證其有效性。下面我們圍繞著幾個insight詳細討論。

自然語言和大語言模型的特性

在MoleculeSTM中，我們首次提出了一個問題。我們利用了自然語言的開放詞彙和組合性特徵

Open vocabulary的意思是我們可以把現在人類知識都用自然語言表示，所以對於將來新出現的知識，也能用現有的語言進行歸納和總結。例如出現某種新的蛋白質，我們希望可以對它的功能進行自然語言描述。
Compositionality的意思是在自然語言中，一個複雜的概念可以用幾個簡單的概念來進行聯合表達。這個對於類似多屬性編輯的任務有很大的幫助：在化學空間要編輯分子同時符合多個特性非常困難，但是我們可以非常簡單地用自然語言表達出多種特性。

在我們最近的工作中ChatDrug (https://arxiv.org/abs/2305.18090)，我們探討了自然語言和大型語言模型之間的對話特性，對此感興趣的朋友可以去看看

特性引出的任務設計指的是根據產品或系統的特性來規劃和排程任務的設計

對於現有的language- image任務來說，它們可以被視為與藝術相關的任務，例如生成圖片或文字。也就是說，它們的結果是多樣且不確定的。然而，科學發現是科學問題，通常具有比較明確的結果，例如產生具有特定功能的小分子。這在任務設計上帶來了更大的挑戰

在MoleculeSTM中 (Appendix B)，我們提出了兩個準則：

首先我們考慮的任務是能夠進行計算模擬得到結果。將來會考慮能夠有wet-lab驗證的結果，但這並不在目前這個工作的考量範疇內。
其次我們只考慮有著模糊性結果的問題。具體例子例如讓某個分子的水溶性或穿透性變強。而有一些問題有明確結果，例如在分子的某個位置加入某一個官能基，我們認為這類任務對於藥物、化學專家來說更簡單直接。所以它可以將來當作某一個proof-of-concept任務，但是並不會成為主要的任務目標。

由此我們設計了三個大類任務：

Zero-shot 結構文本檢索；
Zero-shot 基於文本的分子編輯;
分子性質預測。

我們會在接下來的部分重點介紹第二個任務

分子編輯的定性結果重新表述如下：

##這個任務就是同時輸入一個分子和自然語言描述(例如額外的屬性)，然後希望能夠輸出複合語言文字所描述的新的分子。這就是文字編輯優化（text-guided lead optimization）。

具體的方法就是利用已經訓練好的分子生成模型和我們預先訓練好的MoleculeSTM，透過學習二者的潛在空間（latent space）的alignment，從而進行latent space interpolation，再經過解碼生成目標分子。流程示意圖如下。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

需要重寫的內容是：零樣本文字引導的分子編輯的兩階段流程示意圖

這裡我們展示了幾組分子編輯的定性結果重新表述如下：(其餘下游任務的結果細節可以參考原論文)。主要我們考慮四類分子編輯任務：

複合屬性編輯：同時對多個屬性進行編輯，例如水溶性和氫鍵施主個數。
藥物相似性編輯：(Appendix D.5)是讓輸入分子與目標分子藥物長得更接近。
專利藥物的鄰居搜尋：對於已經申請到專利的藥物，往往會把中間過程的藥物一起報道。我們這裡就是那中間藥物配合自然語言描述，看是否能夠產生最終的目標藥物。
binding affinity編輯：我們選擇幾個ChEMBL assay作為靶點，目標是讓輸入分子和標靶有更高的結合親和力。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

結果顯示：零樣本文字引導的分子編輯。 (Note: This is a direct translation of the original sentence into Chinese.)

更有意思的是最後一類任務，我們發現MoleculeSTM的確能夠在緊緊依靠對於靶蛋白的文字描述，而進行配體的配體先導化合物優化。（註：這裡的蛋白質結構資訊都是在evaluation是才會知道。）

以上是NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35