編輯 | KX
生成式深度學習正在重塑藥物設計。化學語言模型 (CLM) 以分子串的形式生成分子,對此過程特別重要。
近日,來自荷蘭埃因霍芬理工大學(Eindhoven University of Technology)的研究人員將一種最新的深度學習架構(S4)引入從頭藥物設計中。
結構化狀態空間序列(Structured State Space Sequence,S4)模型在學習序列的全局屬性方面表現卓越,那麼 S4 能否推進從頭設計的化學語言建模?
為了給出答案,研究人員系統地在一系列藥物發現任務上對 S4 與最先進的 CLM 進行了基準測試,例如生物活性化合物的鑑定以及類藥物分子和天然產物的設計。 S4 在學習複雜分子特性的同時,也具有探索多種支架的優越能力。
最後,當前瞻性地應用於激酶抑制劑時,S4 設計的 10 個分子中有 8 個被分子動力學模擬預測為高活性。
總而言之,S4 在化學語言建模中極具潛力,尤其是在捕捉生物活性和複雜分子性質方面。這是首次將狀態空間模型應用於分子任務。
相關研究以「Chemical language modeling with structured state space sequence models」為題,於 7 月 22 日發佈在《Nature Communications》上。
論文連結:https://www.nature.com/articles/s41467-024-50469-9
從頭開始設計具有所需特性的分子是一個「大海撈針」的問題。化學宇宙包含多達 10^60 個小分子,在相當大的程度上仍處於未知狀態。
生成式深度學習無需手工設計規則即可生產所需的分子,從而以省時、低成本的方式探索化學宇宙。特別是,CLM 已經產生了經過實驗驗證的生物活性設計,並作為強大的分子發生器脫穎而出。
CLM 採用為序列處理開發的演算法來學習「化學語言」,即如何產生化學有效(語法)並具有所需特性(語義)的分子。這是透過將分子結構表示為字串符號來實現的,例如簡化分子輸入行輸入系統 (SMILES) 等。然後,這些分子字串用於模型訓練,並隨後以文字形式產生分子。
圖示:化學語言建模的結構化狀態空間序列(S4)模型的關鍵概念。 (資料來源:論文)
CLM 架構:
- 長短期記憶(LSTM) 模型
- Transformer 架構
結構化狀態空間序列模型(S4):
- 快速發展的新成員
- 在音訊、影像和文字產生中表現優異
-
具有「雙重性質」:
- 在整個輸入序列上進行訓練以學習複雜的全局屬性
- 一次產生一個字串元素
應用:
- 研究者將S4 應用於SMILES 字串上的化學語言建模
-
針對與藥物設計相關的各種任務進行基準測試:
類藥物分子和天然產物設計:
- 研究人員對S4 進行基準測試,與最先進的CLM 比較
- 例如類藥物分子和天然產物的設計
- 首先,分析了S4 設計從ChEMBL 資料庫中提取的類藥物小分子(SMILES 長度低於100 個tokens)的能力
1. 所有 CLM 均產生了超過 91% 的有效分子、91% 的獨特分子和 81% 的新分子。
- S4 透過產生比基準更多的新分子(大約4000 到12,000 多個)來設計最有效、最獨特和最新穎的分子,並顯示出良好的學習SMILES 字串「化學語法」的能力。
- 與現有的從頭設計方法相比,S4 的潛力在 MOSES 基準上得到了進一步證實,其中 S4 始終位列表現最好的深度學習方法之列。
- S4 也針對比類藥物分子更具挑戰性的分子實體進行了進一步測試。
- 為此,研究人員評估了其設計天然產物 (NPs) 的能力。
- 與合成小分子相比,NPs 往往具有更複雜的分子結構和環系統,以及更大比例的 sp3 雜化碳原子和手性中心。
- 這些特徵對應於平均更長的 SMILES 序列,具有更多的長程依賴性,並使天然產物成為 CLM 的具有挑戰性的測試案例。
所有 CLM 都可以設計天然產物,但與類藥物分子相比,其表現較低。 S4 設計的有效分子數量最多,比 S4 多出約 6000 到 12,000 個分子(好 7-13%),而 LSTM 的新穎性最高,比 S4 多出約 2000 個分子(2%)。
最後,也分析了增加 SMILES 長度時 CLM 架構的訓練和生成速度,以測試它們在設計更大分子(如天然產物)時的實際適用性。分析強調,由於其雙重性,S4 在訓練過程中與 GPT 一樣快(兩者都比 LSTM 快約 1.3 倍),並且在生成方面最快。這進一步主張引入 S4 作為分子設計的有效方法,與 GPT 和 LSTM 相比,「兼具兩全其美」。
前瞻性從頭設計
研究人員使用 S4 進行了一項前瞻性電腦模擬研究,重點是設計絲裂原活化蛋白激酶 1 (MAPK1) 的抑制劑,這是腫瘤治療的相關標靶。然後透過分子動力學 (MD) 評估設計的假定生物活性。 圖示:使用 S4 進行假定 MAPK1 抑制劑的前瞻性從頭設計。 (資料來源:論文)S4 模型經過微調,然後使用微調模型的最後五個 epochs 產生 256K 個分子。透過對數似然得分和與訓練集的支架相似性對設計進行排序和篩選,10 個得分最高的分子使用 MD 模擬進行進一步表徵。
透過 MD 預測,10 個設計中有 8 個對預期目標具有生物活性,並且預測親和力與最接近的微調分子相當或更高,這些結果進一步證實了 S4 用於從頭藥物設計的潛力。
分子 S4 的機會總之,本研究率先將狀態空間模型引入化學語言建模,重點在於結構化狀態空間 (S4)。 S4 獨特的雙重性質,包括訓練中的捲積和循環生成,使其特別適合從 SMILES 字串開始的從頭設計。
研究人員在各種藥物發現任務上與GPT 和LSTM 進行了系統比較,揭示了S4 的優勢:雖然循環生成(LSTM 和S4) 在學習化學語法和探索各種支架方面更勝一籌,但對整個SMILES 序列進行整體學習(GPT 和S4) 在捕捉某些複雜特性(如生物活性)方面表現出色。
S4 具有雙重性質,「兼具兩全其美」:它在設計有效且多樣化的分子方面與LSTM 表現相當或更好,並且在捕捉複雜分子性質方面系統性地優於基準,同時保持計算效率。
S4 在 MAPK1 抑制中的應用已透過 MD 模擬得到驗證,這進一步展示了其設計強效生物活性分子的潛力。未來,研究人員將前瞻性地將 S4 與濕實驗室實驗結合,以增強其在該領域的影響。
S4 在分子科學領域還有許多方面有待探索,例如其在更長序列(例如大環肽和蛋白質序列)和其他分子任務(例如有機反應規劃和基於結構的藥物設計)中的潛力。
未來,S4 在分子發現中的應用將持續增加,並有可能取代 LSTM 和 GPT 等廣泛應用的化學語言模型。
以上是「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模的詳細內容。更多資訊請關注PHP中文網其他相關文章!