搜尋
首頁科技週邊人工智慧NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

作者 | 劉聖超

編輯 | 凱霞

從2021年開始,大語言和多模態的結合席捲了機器學習研究界。

隨著大模型和多模態應用的發展,我們是否可以將這些技術應用於藥物發現?而且,這些自然語言的文字描述是否能為這個具有挑戰性的問題帶來新的視野呢?答案是肯定的,我們對此持樂觀態度

近日,加拿大蒙特婁學習演算法研究院(Mila)、NVIDIA Research、伊利諾大學厄巴納-香檳分校(UIUC)、普林斯頓大學和加州理工學院的研究團隊,透過對比學習策略共同學習分子的化學結構和文本描述,提出了多模態分子結構-文本模型MoleculeSTM。

研究以為題《Multi-modal molecule structure–text model for text-based retrieval and editing》為題,於 2023 年 12 月 18 日發表在《Nature Machine Intelligence》上。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

論文連結:https://www.nature.com/articles/s42256-023-00759-6需要重寫

#其中劉聖超博士為第一作者,NVIDIA Research 的Anima Anandkumar 教授為通訊作者。聶維梨、王程鵬、盧家睿、喬卓然、劉玲、唐建、蕭超瑋為共同作者。

該計畫是劉聖超博士在2022年3月加入 NVIDIA Research 之後,在聶維梨老師、唐建老師、肖超瑋老師和 Anima Anandkumar 老師的指導下進行的。

劉聖超博士表示:「我們的動機是對LLM和藥物發現進行初步的探索,最後提出了MoleculeSTM。」

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

用於對接的文本是為了引導分子編輯而設計的

MoleculeSTM的核心思路非常簡單直接,即分子的描述可分為內部化學結構和外部功能描述兩大類。而我們在這裡採用了對比預訓練的方法,將這兩種類型的信息進行對齊和聯繫。具體示意如下圖所示

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

圖示:MoleculeSTM的流程圖。

而MoleculeSTM的這個alignment有一個非常好的性質:當有一些任務在化學空間比較難以解決的時候,我們可以將其transfer到自然語言(natural language)空間。而且自然語言的任務會相對更容易解決,由於它的特性。並且基於此我們設計了種類豐富的下游任務來驗證其有效性。下面我們圍繞著幾個insight詳細討論。

自然語言和大語言模型的特性

在MoleculeSTM中,我們首次提出了一個問題。我們利用了自然語言的開放詞彙和組合性特徵

  • Open vocabulary的意思是我們可以把現在人類知識都用自然語言表示,所以對於將來新出現的知識,也能用現有的語言進行歸納和總結。例如出現某種新的蛋白質,我們希望可以對它的功能進行自然語言描述。
  • Compositionality的意思是在自然語言中,一個複雜的概念可以用幾個簡單的概念來進行聯合表達。這個對於類似多屬性編輯的任務有很大的幫助:在化學空間要編輯分子同時符合多個特性非常困難,但是我們可以非常簡單地用自然語言表達出多種特性。

在我們最近的工作中ChatDrug (https://arxiv.org/abs/2305.18090),我們探討了自然語言和大型語言模型之間的對話特性,對此感興趣的朋友可以去看看

特性引出的任務設計指的是根據產品或系統的特性來規劃和排程任務的設計

對於現有的language- image任務來說,它們可以被視為與藝術相關的任務,例如生成圖片或文字。也就是說,它們的結果是多樣且不確定的。然而,科學發現是科學問題,通常具有比較明確的結果,例如產生具有特定功能的小分子。這在任務設計上帶來了更大的挑戰

在MoleculeSTM中 (Appendix B),我們提出了兩個準則:

  • 首先我們考慮的任務是能夠進行計算模擬得到結果。將來會考慮能夠有wet-lab驗證的結果,但這並不在目前這個工作的考量範疇內。
  • 其次我們只考慮有著模糊性結果的問題。具體例子例如讓某個分子的水溶性或穿透性變強。而有一些問題有明確結果,例如在分子的某個位置加入某一個官能基,我們認為這類任務對於藥物、化學專家來說更簡單直接。所以它可以將來當作某一個proof-of-concept任務,但是並不會成為主要的任務目標。

由此我們設計了三個大類任務:

  1. Zero-shot 結構文本檢索;
  2. Zero-shot 基於文本的分子編輯;
  3. 分子性質預測。

我們會在接下來的部分重點介紹第二個任務

分子編輯的定性結果重新表述如下:

##這個任務就是同時輸入一個分子和自然語言描述(例如額外的屬性),然後希望能夠輸出複合語言文字所描述的新的分子。這就是文字編輯優化(text-guided lead optimization)。

具體的方法就是利用已經訓練好的分子生成模型和我們預先訓練好的MoleculeSTM,透過學習二者的潛在空間(latent space)的alignment,從而進行latent space interpolation,再經過解碼生成目標分子。流程示意圖如下。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

需要重寫的內容是:零樣本文字引導的分子編輯的兩階段流程示意圖

這裡我們展示了幾組分子編輯的定性結果重新表述如下:(其餘下游任務的結果細節可以參考原論文)。主要我們考慮四類分子編輯任務:

    單一屬性編輯:對單一屬性進行編輯,例如水溶性、穿透性、氫鍵施主與受主個數。
  • 複合屬性編輯:同時對多個屬性進行編輯,例如水溶性和氫鍵施主個數。
  • 藥物相似性編輯:(Appendix D.5)是讓輸入分子與目標分子藥物長得更接近。
  • 專利藥物的鄰居搜尋:對於已經申請到專利的藥物,往往會把中間過程的藥物一起報道。我們這裡就是那中間藥物配合自然語言描述,看是否能夠產生最終的目標藥物。
  • binding affinity編輯:我們選擇幾個ChEMBL assay作為靶點,目標是讓輸入分子和標靶有更高的結合親和力。

NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型

結果顯示:零樣本文字引導的分子編輯。 (Note: This is a direct translation of the original sentence into Chinese.)

更有意思的是最後一類任務,我們發現MoleculeSTM的確能夠在緊緊依靠對於靶蛋白的文字描述,而進行配體的配體先導化合物優化。 (註:這裡的蛋白質結構資訊都是在evaluation是才會知道。)

以上是NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器