首頁 >科技週邊 >人工智慧 >準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創
2024-08-06 19:34:021154瀏覽

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

編輯 | KX

逆合成是藥物發現和有機合成中的一項關鍵任務,AI 越來越多地用於加快這一過程。

現有 AI 方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。

受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前體化合物。並提出了基於編輯的逆合成模型 EditRetro,該模型可以實現高品質和多樣化的預測。

大量實驗表明,模型在標準基準數據集 USPTO-50 K 上取得了出色的性能,top-1 準確率達到 60.8%。

結果表明,EditRetro 表現出良好的泛化能力和穩健性,凸顯了其在 AI 驅動的化學合成規劃領域的潛力。

相關研究以「Retrosynthesis prediction with an iterative string editing model」為題,於 7 月 30 日發佈在《Nature Communications》上。

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

論文連結:https://www.nature.com/articles/s41467-024-50617-1

分子合成路徑設計是有機合成的一項重要任務,對生物醫學、製藥和材料工業等各領域都具有重要意義。

逆合成分析是開發合成路線最廣泛使用的方法。它包括使用已建立的反應將分子迭代分解為更簡單、更易於合成的前體。

近年來,AI 驅動的逆合成促進了對更複雜分子的探索,大大減少了設計合成實驗所需的時間和精力。單步逆合成預測是逆合成規劃的重要組成部分,目前已有幾種基於深度學習的方法,且效果優異。這些方法大致可分為三類:基於模板的方法、無模板的方法和半基於模板的方法。

在此,研究人員專注於無模板逆合成預測。提出將問題重新定義為分子字串編輯任務,並提出基於編輯的逆合成模型 EditRetro,可以實現高品質和多樣化的預測。

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

圖示:所提出的基於分子串的逆合成的 EditRetro 方法的示意圖。 (資料來源:論文)

該研究的核心概念是,透過使用 Levenshtein 操作的迭代編輯過程來產生反應物字串。該方法從基於編輯的序列生成模型的最新進展中汲取靈感。具體來說,採用了 EDITOR 中的操作,EDITOR 是一種基於編輯的 Transformer,專為神經機器翻譯而設計。

EditRetro 概述

EditRetro 模型包含三種編輯操作,即序列重新定位、佔位符插入和標記插入,以產生反應物字串。它由一個 Transformer 模型實現,該模型由一個編碼器和三個解碼器組成,兩者都由堆疊的 Transformer 區塊組成。

  • 重新定位解碼器:重新定位操作包括基本的 token 編輯操作,例如保留、刪除和重新排序。它可以與識別反應中心的過程進行比較,包括重新排序和刪除原子或基團以獲得合成子。
  • 佔位符解碼器:佔位符插入策略(分類器)預測要在相鄰 token 之間插入的佔位符數量。它在確定反應物的結構方面起著至關重要的作用,類似於識別從序列重新定位階段獲得的中間合成子中添加原子或基團的位置。
  • Token 解碼器:token 插入策略(分類器),負責為每個佔位符產生候選 token。這對於確定可用於合成目標產品的實際反應物至關重要。該過程可以看作是合成子完成的類似過程,結合佔位符插入操作。

EditRetro 模型透過其非自迴歸解碼器提高了生成效率。儘管結合了額外的解碼器來迭代預測編輯操作,但 EditRetro 在每個解碼器內並行執行編輯操作(即非自回歸生成)。

當給定一個目標分子時,編碼器將其字串作為輸入並產生相應的隱藏表示,然後將其用作解碼器交叉注意模組的輸入。類似地,解碼器也在第一次迭代時將產品字串作為輸入。在每次解碼迭代期間,三個解碼器依序執行。

優於基線、生成準確反應物

研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明,该方法在预测准确度方面优于其他基线,包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明,EditRetro 取得了优越的性能,top-1 精确匹配准确率达到 60.8%。

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

此外,在更大的 USPTO-FULL 数据集上,其中 top-1 精确匹配准确率达到 52.2%,证明了其在更多样化和更具挑战性的化学反应中是有效的。

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。

此外,EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强,有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样,从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径,从而提高了预测的准确性和多样性。这两种策略共同作用,提高了预测的准确性和多样性。

进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性,包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性,证明了它能够处理不同类型的化学转化。

在多步合成规划中的实用性

特别是,EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。

为了评估 EditRetro 在合成规划中的实用性,通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估:非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

图示:EditRetro 的多步逆合成预测。(来源:论文)

所有四个示例都产生了与文献中报道的途径非常一致的逆合成途径,大多数预测排名在前两位。在考虑的 16 个单独步骤中,有 10 个步骤的预测准确率为 1。这些结果证明了 EditRetro 在实际逆合成预测中的实际潜力。

通过提供有价值的见解并促进高效合成路线的设计,该方法有望在逆合成规划领域得到实际应用。

以上是準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn