首頁 >科技週邊 >人工智慧 >分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架

分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架

PHPz
PHPz原創
2024-07-11 16:12:59586瀏覽

分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架

編輯 | KX

分子描述符的應用與挑戰

分子描述符廣泛應用於分子建模。然而,在 AI 輔助分子發現領域,缺乏自然適用、完整且原始的分子表徵,影響模型性能和可解釋性。

t-SMILES 框架的提出

基於片段的多尺度分子表徵框架 t-SMILES 解決分子表徵問題。此框架使用 SMILES 類型的字串描述分子,支援序列模型作為生成模型。

t-SMILES 的程式碼演算法

t-SMILES 有三種程式碼演算法:TSSA、TSDY 和 TSID。

實驗結果

實驗表明,t-SMILES 模型生成分子具有 100% 理論有效性和高新穎性,優於基於 SOTA SMILES 的模型。

此外,t-SMILES 模型避免過擬合,在標記的低資源資料集上保持相似性,同時實現更高新穎性。

發表訊息

研究以「t-SMILES: a fragment-based molecular representation framework for de novo ligand design」為題,於 6 月 11 日發表在《》上。

分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架論文連結:https://www.nature.com/articles/s41467-024-49388-6

基於 SMILES 的分子表徵法研究

分子的有效表徵是影響人工智慧模型效能的關鍵因素。

圖神經網路(GNN)因其能產生 100% 有效的分子而流行,但其表達能力受限。

簡化分子線性輸入規範(SMILES)作為一種線性表示法,易產生化學無效字串。 DeepSMILES 和 SELFIES 作為替代方案雖有所改進,但仍有問題。

此外,研究表明語言模型 (LM) 在學習大型複雜分子方面可能優於大多數 GNN。最近,基於 Transformers 的 LM 已經展示了它們生成與人類書寫極為相似的文本的能力。

受這些想法啟發,研究者選擇SMILES 作為片段描述的起始選擇,並結合先進的自然語言處理技術來處理基於片段的分子建模任務,這可以融合圖模型更注重分子拓撲結構和LM 的強大學習能力的優勢。

產生 100% 有效的新分子,優於 SOTA

因此,湖南大學團隊提出了一種基於碎片化分子的新型分子描述框架 t-SMILES(基於樹的 SMILES)。該框架包含三種 t-SMILES 編碼演算法:TSSA(具有共享原子的 t-SMILES),TSDY(具有虛擬原子但不具有 ID 的 t-SMILES)和 TSID(具有 ID 和虛擬原子的 t-SMILES)。

分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架

圖示:t-SMILES 演算法概述(資料來源:論文)

新提出的 t-SMILES 框架

    生成無環分子樹(AMT),表示碎片化的分子。
  1. 將 AMT 轉換為全二元樹(FBT)。
  2. 對 FBT 進行廣度優先遍歷得到 t-SMILES 字串。

與 SMILES 相比

t-SMILES 僅引入了兩個新符號“&”和“^”,編碼多尺度和分層的分子拓撲。

t-SMILES 演算法

提供了一個可擴展且適應性強的框架,理論上能夠支持廣泛的子結構方案。

基於 t-SMILES 的模型

能夠在處理詳細子結構資訊的同時學習高階拓撲結構資訊。

多程式碼系統

t-SMILES 演算法可以建立一個用於分子描述的多程式碼系統,其中:

    經典的 SMILES 可整合作為 t-SMILES 的特例(TS_Vanilla)。
  • 多個描述可以協作以提高綜合性能。
  • 分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架圖示:TSSA 代碼、SMILES 和 SELFIES 的 tokens 分佈。 (資料來源:論文)

首先,研究人員透過深入研究其獨特的特徵來系統化評估 t-SMILES。隨後,使用 TSSA 和 TSDY 對兩個標記的低資源資料集 JNK332 和 AID170633 進行了實驗。

研究重點是 t-SMILES 及其替代品的局限性,這些局限性是透過利用標準、資料增強和預訓練微調模型來實現的。使用 TSDY、TSSA 和 TSID 並行評估了 ChEMBL 上的 20 個目標導向任務。也對 ChEMBL、Zinc 和 QM9 進行了徹底的實驗,透過使用類似的設定來比較 t-SMILES 及其替代品。此外,比較了各種基於片段的基線模型和 SOTA GNN 模型。

最後,進行了消融研究,以確認基於帶重建的 SMILES 的生成模型的有效性。為了評估 t-SMILES 演算法的適應性和靈活性,使用了四種先前發表的碎片演算法來分解分子,包括 JTVAE、BRICS、MMPA 和 Scaffold。不同實驗採用了三種指標:分佈學習基準、目標導向基準和物理化學性質的 Wasserstein 距離指標。

詳細的對比實驗表明,t-SMILES 模型產生的新分子 100% 理論有效,優於基於 SOTA SMILES 的模型。與 SMILES、DSMILES 和 SELFIES 相比,t-SMILES 的整體解決方案可以避免過擬合問題,並顯著提高低資源資料集上的平衡性能,無論是使用資料增強還是預訓練然後微調的模型。

分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架

圖示:使用 GPT 在 ZINC 上進行的分佈學習基準測試的結果。 (資料來源:論文)

此外,t-SMILES 模型能夠熟練地捕捉分子的物理化學性質,確保產生的分子與訓練分子分佈保持相似性。與現有的基於片段和基於圖的基線模型相比,這顯著提高了效能。特別是,具有目標導向重建演算法的 t-SMILES 模型在目標導向的任務中比 SMILES、DSMILES、SELFIES 和 SOTA CReM 表現出明顯的優勢。

局限性和有待改進之處

  • LLM 可以理解格式良好的英語語法。因此,是否可以學習 t-SMILES 的樹狀結構,以及 LM 如何超越表面的統計相關性來學習分子的化學知識仍有待深入探索。
  • 該研究專注於將碎片分子編碼為序列,因此僅使用已發布的碎片演算法作為範例來創建「化學詞」。未來的研究可以利用 t-SMILES 來探索其他碎片演算法,更深入地解讀化學句子和意義,這實際上比 NLP 更具挑戰性。
  • 雖然 t-SMILES 旨在提高分子描述的性能並規避 SMILES 的局限性,但該研究並未對更複雜的分子進行實驗。這將是未來研究的主題。
  • 最後,這是將碎片分子編碼為 SMILES 類型字串的一個有希望的開端。進一步的研究可以探索分子重建和最佳化的高階演算法、改進的生成模型和演化技術。此外,研究可以集中在屬性、逆合成和反應預測任務。

註:封面來自網路

以上是分子100%有效,從頭設計配體,湖南大學提出以片段為基礎的分子表徵框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn