作者 | 劉聖超
編輯 | 凱霞
從2021年開始,大語言和多模態的結合席捲了機器學習研究界。
隨著大模型和多模態應用的發展,我們是否可以將這些技術應用於藥物發現?而且,這些自然語言的文字描述是否能為這個具有挑戰性的問題帶來新的視野呢?答案是肯定的,我們對此持樂觀態度
近日,加拿大蒙特婁學習演算法研究院(Mila)、NVIDIA Research、伊利諾大學厄巴納-香檳分校(UIUC)、普林斯頓大學和加州理工學院的研究團隊,透過對比學習策略共同學習分子的化學結構和文本描述,提出了多模態分子結構-文本模型MoleculeSTM。
研究以為題《Multi-modal molecule structure–text model for text-based retrieval and editing》為題,於 2023 年 12 月 18 日發表在《Nature Machine Intelligence》上。
論文連結:https://www.nature.com/articles/s42256-023-00759-6需要重寫
#其中劉聖超博士為第一作者,NVIDIA Research 的Anima Anandkumar 教授為通訊作者。聶維梨、王程鵬、盧家睿、喬卓然、劉玲、唐建、蕭超瑋為共同作者。
該計畫是劉聖超博士在2022年3月加入 NVIDIA Research 之後,在聶維梨老師、唐建老師、肖超瑋老師和 Anima Anandkumar 老師的指導下進行的。
劉聖超博士表示:「我們的動機是對LLM和藥物發現進行初步的探索,最後提出了MoleculeSTM。」
用於對接的文本是為了引導分子編輯而設計的
MoleculeSTM的核心思路非常簡單直接,即分子的描述可分為內部化學結構和外部功能描述兩大類。而我們在這裡採用了對比預訓練的方法,將這兩種類型的信息進行對齊和聯繫。具體示意如下圖所示
圖示:MoleculeSTM的流程圖。
而MoleculeSTM的這個alignment有一個非常好的性質:當有一些任務在化學空間比較難以解決的時候,我們可以將其transfer到自然語言(natural language)空間。而且自然語言的任務會相對更容易解決,由於它的特性。並且基於此我們設計了種類豐富的下游任務來驗證其有效性。下面我們圍繞著幾個insight詳細討論。
自然語言和大語言模型的特性
在MoleculeSTM中,我們首次提出了一個問題。我們利用了自然語言的開放詞彙和組合性特徵
- Open vocabulary的意思是我們可以把現在人類知識都用自然語言表示,所以對於將來新出現的知識,也能用現有的語言進行歸納和總結。例如出現某種新的蛋白質,我們希望可以對它的功能進行自然語言描述。
- Compositionality的意思是在自然語言中,一個複雜的概念可以用幾個簡單的概念來進行聯合表達。這個對於類似多屬性編輯的任務有很大的幫助:在化學空間要編輯分子同時符合多個特性非常困難,但是我們可以非常簡單地用自然語言表達出多種特性。
在我們最近的工作中ChatDrug (https://arxiv.org/abs/2305.18090),我們探討了自然語言和大型語言模型之間的對話特性,對此感興趣的朋友可以去看看
特性引出的任務設計指的是根據產品或系統的特性來規劃和排程任務的設計
對於現有的language- image任務來說,它們可以被視為與藝術相關的任務,例如生成圖片或文字。也就是說,它們的結果是多樣且不確定的。然而,科學發現是科學問題,通常具有比較明確的結果,例如產生具有特定功能的小分子。這在任務設計上帶來了更大的挑戰
在MoleculeSTM中 (Appendix B),我們提出了兩個準則:
- 首先我們考慮的任務是能夠進行計算模擬得到結果。將來會考慮能夠有wet-lab驗證的結果,但這並不在目前這個工作的考量範疇內。
- 其次我們只考慮有著模糊性結果的問題。具體例子例如讓某個分子的水溶性或穿透性變強。而有一些問題有明確結果,例如在分子的某個位置加入某一個官能基,我們認為這類任務對於藥物、化學專家來說更簡單直接。所以它可以將來當作某一個proof-of-concept任務,但是並不會成為主要的任務目標。
由此我們設計了三個大類任務:
- Zero-shot 結構文本檢索;
- Zero-shot 基於文本的分子編輯;
- 分子性質預測。
我們會在接下來的部分重點介紹第二個任務
分子編輯的定性結果重新表述如下:
##這個任務就是同時輸入一個分子和自然語言描述(例如額外的屬性),然後希望能夠輸出複合語言文字所描述的新的分子。這就是文字編輯優化(text-guided lead optimization)。 具體的方法就是利用已經訓練好的分子生成模型和我們預先訓練好的MoleculeSTM,透過學習二者的潛在空間(latent space)的alignment,從而進行latent space interpolation,再經過解碼生成目標分子。流程示意圖如下。- 單一屬性編輯:對單一屬性進行編輯,例如水溶性、穿透性、氫鍵施主與受主個數。
- 複合屬性編輯:同時對多個屬性進行編輯,例如水溶性和氫鍵施主個數。
- 藥物相似性編輯:(Appendix D.5)是讓輸入分子與目標分子藥物長得更接近。
- 專利藥物的鄰居搜尋:對於已經申請到專利的藥物,往往會把中間過程的藥物一起報道。我們這裡就是那中間藥物配合自然語言描述,看是否能夠產生最終的目標藥物。
- binding affinity編輯:我們選擇幾個ChEMBL assay作為靶點,目標是讓輸入分子和標靶有更高的結合親和力。
以上是NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),