作者 | 喬治亞理工學院王浩瑞
編輯 | ScienceAI
分子發現作為最佳化問題,因其最佳化目標可能不可微分而帶來顯著的計算挑戰。演化演算法(EAs)常用於優化分子發現中的黑箱目標,透過隨機突變和交叉來遍歷化學空間,但這會導致大量昂貴的目標評估。
在這項工作中,佐治亞理工學院、多倫多大學和康奈爾大學研究者合作提出了分子語言增強進化優化(MOLLEO),透過將擁有化學知識的預訓練大語言模型(LLMs)整合到進化演算法中,顯著改善了演化演算法的分子最佳化能力。
研究以《Efficient Evolutionary Search Over Chemical Space with Large Language Models》為題,於 6 月 23 日發佈在預印平台 arXix 上。
論文連結:https://arxiv.org/abs/2406.16976
分子發現的巨大計算挑戰
分子發現的巨大計算挑戰
由於問題的重要性,分子優化受到了極大的關注,包括已經發展測試的超過20多種分子設計演算法(其中遺傳演算法和強化學習等組合優化的方法領先於其他生成模型和連續最佳化演算法),詳見最近
Nature子刊的綜述文章
。其中效果最佳之一的方法為演化演算法(EAs),這些演算法的特點是不需要梯度評估,因此非常適合用於分子發現中的黑箱目標最佳化。 然而,這些演算法的一個主要缺點是它們隨機生成候選結構而不利用任務特定的信息,從而導致需要大量的目標函數評估。因為評估屬性的昂貴,分子最佳化除了找到最佳期待屬性的分子結構,同時也要最小化目標函數評估次數(也等於提高搜尋效率)。最近,LLM在多項與化學相關的任務中表現出了一些基本能力,如預測分子屬性、檢索最優分子、自動化化學實驗和產生具有目標屬性的分子。由於LLM在包含廣泛任務的大規模文本語料庫上進行了訓練,它們展示了通用的語言理解能力和基本的化學知識,使其成為化學發現任務的有趣工具。
然而,許多基於LLM的方法依賴於上下文學習(in-context learning)和提示工程,這在設計具有嚴格數值目標的分子時可能會出現問題,因為LLM可能難以滿足精確的數值約束或優化特定的數值目標。此外,單純依賴LLM提示的方法可能會產生物理基礎較差的分子,或產生無法解碼為化學結構的無效SMILES字串。分子語言增強進化優化
在本研究中,我們提出了分子語言增強進化優化(MOLLEO),該方法將LLM整合到EA中以提高生成候選物的品質並加速優化過程。 MOLLEO利用LLM作為遺傳操作符,透過交叉或變異生成新的候選物。我們首次展示如何將LLM整合到EA框架中以進行分子生成。 在研究中,我們考慮了三個不同能力強度的語言模型:GPT-4、BioT5和MoleculeSTM。我們將每個LLM整合到不同的交叉和變異程序中,並透過消融研究證明了我們的設計選擇。 🎜🎜我們透過多個黑箱優化任務的實驗證明了MOLLEO的優越性能,包括單目標和多目標最佳化。對於所有任務,包括更具挑戰性的蛋白質-配體對接,MOLLEO均優於基線EA和其他25個強基線方法。此外,我們也展示了MOLLEO在ZINC 250K資料庫中的最佳JNK3抑制劑分子上進一步優化的能力。 🎜🎜我們的MOLLEO框架基於一種簡單的進化演算法,Graph-GA演算法,並透過在遺傳操作中整合化學感知的LLM來增強其功能。 🎜我們首先概述了問題陳述,強調在黑箱優化中最小化昂貴目標評估的必要性。 MOLLEO利用LLM(如GPT-4、BioT5和MoleculeSTM)在目標描述的指導下產生新的候選分子。
具體而言,在交叉步驟中,我們不是隨機結合兩個父分子,而是使用LLM產生最大化目標適應度函數的分子。在變異步驟中,操作符根據目標描述對目前族群中最適應的成員進行變異。然而,我們注意到LLM並不總是產生適應度高於輸入分子的候選物,因此我們構建了選擇壓力,基於結構相似性過濾編輯過的分子。
實驗結果
我們在18個任務上評估了MOLLEO。任務選自PMO和TDC基準測試和資料庫,可以分為以下幾類:
為了評估我們的方法,我們按照PMO基準測試的方法,綜合考慮了目標值和計算預算,報告了前k個平均屬性值與目標函數調用次數的曲線下面積(AUC top-k)。
作為對比基準,我們使用了PMO基準測試中的頂級模型,包括基於強化學習的REINVENT、基礎進化演算法Graph-GA和高斯過程貝葉斯優化GP BO。
圖示:單一目標任務的Top-10 AUC。 (資料來源:論文)
我們在PMO的12項任務中進行了單目標最佳化實驗,結果上表所示,我們報告了每項任務的AUC top-10 得分以及各模型的總體排名。結果表明,使用任意一個大型語言模型(LLM)作為遺傳操作符,都能提高效能,超過預設的Graph-GA和其他所有基線模型。
GPT-4在12項任務中有9項表現優於所有模型,展示了其作為一個通用大語言模型在分子生成中的有效性與前景。 BioT5在所有測試模型中取得了第二好的結果,總分接近GPT-4,顯示在領域知識上訓練與微調的小模型在MOLLEO中也有很好的應用前景。
MOLSTM是基於CLIP模型在分子的自然語言描述和分子的化學式上微調的小模型,我們在進化演算法中在相同的自然語言描述上使用梯度下降演算法來產生不同的新分子,它的表現也優於其他的基準方法。
圖示:JNK3抑制隨迭代次數增加而出現的群體適應度。 (資料來源:論文)
為了驗證將LLM整合到EA框架中的有效性,我們展示了初始隨機分子池在JNK3任務上的得分分佈。隨後,我們對池中的所有分子進行了一輪編輯,並繪製了編輯後分子的JNK3得分分佈。
結果表明,經過LLM編輯後的分佈都略微向更高的得分方向偏移,這表明LLM確實提供了有用的修改。然而,總體目標得分仍然較低,因此單步編輯並不足夠,在這裡使用演化演算法進行迭代優化是必要的。
圖示:與DRD3、EGFR或腺苷A2A受體蛋白對接時前10個分子的平均對接分數。 (資料來源:論文)
除了PMO中的12個單目標優化任務外,我們還在更具挑戰性的蛋白質-配體對接任務中測試了MOLLEO,這些任務比單目標任務更接近現實世界中的分子生成場景。上圖是MOLLEO和Graph-GA的前十個最佳分子的平均對接評分與目標函數呼叫次數的關係圖。
結果表明,在所有三種蛋白質中,我們的方法產生的分子的對接評分幾乎都優於基線模型,並且收斂速度更快。在我們使用的三種語言模型中,BioT5表現最佳。在現實中,更好的對接評分和更快的收斂速度可以減少篩選分子所需的生物檢測次數,使這個過程在成本和時間上都更有效。
圖示:多目標任務的求和和超體積分數。 (資料來源:論文)
圖示:Graph-GA和MOLLEO在多目標任務上的帕累托最適視覺化。 (資料來源:論文)
對於多目標最佳化,我們考慮了兩個指標:所有最佳化目標的得分總和的AUC top-10和帕累托最優集的超體積。我們展示了多目標優化在三個任務中的結果。任務1和任務2受到藥物發現目標的啟發,旨在同時優化三個目標:最大化分子的QED、最小化其合成可及性(SA)評分(意味著更容易合成)以及最大化其對JNK3 (任務1)或GSK3β(任務2)的結合評分。任務3更具挑戰性,因為它需要同時優化五個目標:最大化QED和JNK3結合評分,以及最小化GSK3β結合評分、DRD2結合評分和SA評分。
我們發現,在所有三個任務中,MOLLEO(GPT-4)在超體積和總和方面都始終優於基線的Graph-GA。在圖中,我們視覺化了任務1和任務2中我們的方法和Graph-GA的帕累托最優集(在目標空間中)。當在引入多個目標時,開源的語言模型的效能下降。我們推測這種效能下降可能源自於它們無法捕捉大量資訊密集的上下文。
圖示:使用ZINC 250K中最佳的分子初始化MOLLEO。 (資料來源:論文)
演化演算法的最終目標是改進初始分子池的性質並發現新分子,為了探索MOLLEO探索新分子的能力,我們用ZINC 250K中的最佳分子初始化分子池,然後使用MOLLEO和Graph-GA進行最佳化。在JNK3任務上的實驗結果顯示,我們的演算法始終能優於基線模型Graph-GA,並且能夠改進現有資料集中找到的最佳分子。
此外,我們也注意到BioT5的訓練集是ZINC20資料庫(包含14億化合物),MoleculeSTM的訓練集是PubChem資料庫(約25萬個分子)。我們檢查了每個模型在JNK3任務中產生的最終分子是否出現在對應的資料集中。結果發現,生成的分子與資料集中並沒有重疊。這顯示模型能夠產生新的、未在訓練集中出現的分子。
可應用於藥物發現、材料、生物分子設計
分子發現和設計是一個具有眾多實際應用的豐富領域,許多應用超出了當前研究的範圍,但與我們提出的框架仍然相關。 MOLLEO將LLM與EA演算法結合,透過純文字的結合方式提供了靈活的演算法框架,在未來MOLLEO可以應用於藥物發現、昂貴的電腦模擬以及材料或大型生物分子的設計等場景。
未來工作我們將進一步關注如何提高生成分子的質量,包括其目標值和發現速度。隨著LLM的不斷進步,我們預計MOLLEO框架的性能也將繼續提升,使之成為生成化學應用中的一個有前景的工具。
以上是擊敗25個分子設計演算法,喬治亞理工學院、多倫多大學、康乃爾提出大語言模型MOLLEO的詳細內容。更多資訊請關注PHP中文網其他相關文章!