搜尋
首頁科技週邊人工智慧準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

編輯 | 紫羅蘭

可合成分子的化學空間是非常廣闊的。有效地探索這個領域需要依賴計算篩選技術,例如深度學習,以便快速地發現各種有趣的化合物。

將分子結構轉換為數字表示形式,並開發相應演算法來產生新的分子結構是進行化學發現的關鍵。

最近,英國格拉斯哥大學的研究團隊提出了一種基於電子密度訓練的機器學習模型,用於產生主客體binders。這種模型能夠以簡化分子線性輸入規格(SMILES)格式讀取數據,準確率高達98%,從而實現對分子在二維空間的全面描述。

透過變分自編碼器產生主客體系統的電子密度和靜電勢的三維表示,然後透過梯度下降優化客體的生成。最後,利用Transformer將客體轉化為SMILES,實現了對客體結構的有效表示和轉換。

模型成功地應用於已建立的分子主體系統,葫蘆脲和金屬有機籠,結果發現了9 個先前驗證的CB[6] 客體和7 個未報告的客體,並發現了4 個未報告的 准确率 >98%,基於電子密度的GPT用於化學研究,登Nature 子刊客體。

研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》為題,於 2024 年 3 月 8 日發表在《Nature Computational Science》上。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

論文連結:https://www.nature.com/articles/ s43588-024-00602-x

目前主客體化學研究費力且昂貴

字串,例如SMILES,分子以「單字」表示,例如「C1C=C1 」(環丙烯),是最廣泛的分子數字表示形式之一。使用最先進的自然語言處理,這些表示法與 AI 技術直接相容,例如循環神經網路或 Transformer 模型。

將分子表示為 3D 體積(volume)的優點是可以應用最新的 AI 技術,例如捲積神經網路。到目前為止,3D 體積作為分子描述符的大多數應用都集中在預測特性或從頭藥物設計。然而,由於缺乏有效的方法將這些體積與清晰的分子結構相關聯,目前使用 3D 體積作為分子描述符受到阻礙。

在過去的40 年裡,由於分子containers(中空有機分子或中空超分子結構)傾向於透過將分子與空腔中的體相隔離來改變分子的化學和物理性質,因此主客體系統得到了越來越多的研究。主客體系統有廣泛的應用,從催化到生物醫學工程、材料科學和反應分子的穩定性。

葫蘆脲(CB[n])和金屬有機籠是最成功的分子 containers 設計之一。儘管主客體化學已經取得了顯著的成就,但現有系統中未報導的客體的發現或新的主客體系統的優化,仍然是一個費力且昂貴的迭代過程,阻礙了科學進步的步伐。

一種基於電子密度訓練的機器學習模型

在此,研究證明,將主體分子表示為3D 體積(即,以靜電勢修飾的電子密度)可以透過電腦輔助發現該主體的客體,而無需了解主體的化學結構之外的主客體系統。

在這個過程中,研究人員建立了一個 Transformer 模型,可以透過訓練將 3D 體積分子描述子有效地轉換為 SMILES 表示,從而產生專業化學家可用的分子結構。

研究還發現,透過用靜電勢資料修飾分子的電子密度,可以將分子有效地表示為3D 體積,這兩個特徵足以透過使用自回歸採樣方案來優化3D 描述符之間的體積形狀和電荷相互作用來發現主體的客體分子。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊
圖示:使用Transformer 模型將電子密度轉換為SMILES 表示,然後透過梯度下降優化目標主體的客體。(來源:論文)

Transformer 模型完美地預測了其SMILES 表示,準確度為98.125%。單一token 的預測準確率為99.114%。Transformer 的解碼器也可以被隔離為純生成模型,如GPT。

工作流程概述

#

電腦輔助發現葫蘆脲 CB[6] 和金屬有機籠 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的實驗驗證客體需要一個雙層工作流程。首先,設計了一個電腦工作流程來為這兩個主體產生潛在客體分子的虛擬庫。然後建立了體外工作流程,其中包括由化學專家從這些虛擬庫中選擇最有希望的客體候選物進行實驗測試。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

圖示:透過電子密度體積表示發現新型客體分子。(來源:論文)

CB[6] 和準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 客體分子的電腦生成是透過上圖所示的工作流程實現的,該工作流程包括以下步驟:

(1)3D 電子密度體積訓練集源自公開的QM9 資料集中的分子。然後,透過使用變分自編碼器(VAE)對這個3D 電子密度體積訓練集進行建模,創建了一個

“分子生成器”,從而允許產生超出QM9 資料集派生的3D 電子密度體積。此 VAE 分子產生器的工作原理是將 3D 電子密度體積編碼到一維 (1D) 潛在空間中,然後透過從該 1D 潛在空間解碼來產生與分子相對應的 3D 電子密度體積。有趣的是,這種方法只能產生化學上合理的分子。

(2)VAE 分子生成器和梯度下降優化演算法用於為給定的主體分子生成客體分子庫(以 3D 電子密度體積的形式)。客體分子是透過最小化主體和客體電子密度之間的重疊,同時優化它們的靜電相互作用而產生的。

(3)由於人類操作員將3D 電子密度體積轉換為化學可解釋的結構可能具有挑戰性,因此訓練了Transformer 模型將這些體積轉換為SMILES 表示,以一種更容易被專業化學家理解的格式捕捉描述分子所需的所有必要資訊。在透過電腦模擬產生 CB[6] 和 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 的潛在客體分子後,建立了體外工作流程來對最有希望的候選分子進行實驗測試。

下面描述了所使用的實驗過程。

(1) 由於其電腦工作流程產生的 CB[6] 和  準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的客體由化學專家進行分類以進行實驗測試。有希望進行測試的客體是根據其與 CB[6] 或 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 的已知客體的結構相似性、專業化學家的直覺及其商業可用性來選擇的。

(2)採用直接准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊滴定法測定CB[6] 或 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的親和力。值得注意的是,在電腦中產生的客體包含先前已知與主體(或密切相關)結合的分子和無視專家直覺的分子的混合物。

兩個常見主客體系統的實驗驗證

研究人員透過實驗驗證了其工作流程,為兩個兩個常見的主客體系統:葫蘆脲(CB[n])和金屬有機籠,成了文獻驗證和未報告的客體。

演算法為CB[6] 產生了9 個先前已知的客體。也確定了CB[6] 的7 個潛在新客體,化學專家認為值得進行實驗測試。CB[6] 對這些新客體的親和力透過在HCO2H/H2O 1:1v/v 中直接準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊滴定來評估。

在所有7 種情況下,都觀察到主客體系統的一組訊號,顯示該系統在NMR 時間尺度上進行快速交換。絡合後,客體分子的脂肪鏈共振向上場移動,顯示它們被封裝在CB[6] 腔內。發現准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊 與CB[6] 的締合常數遵循先前建立的趨勢,範圍從13.5 M^−1 到5,470 M^−1。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

圖示:CB[6] 的優化和先前已知的客體以及準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 的最佳化客體。(資料來源:論文)

對於準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 ,最佳化演算法僅產生未知的客體分子,四種潛在的未報告客體與[Pd214](BArF)4 之間的結合強度透過CD2Cl2 中的直接準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 滴定進行測試。在所有四種情況中,客體對[Pd214](BArF)4 的親和力與先前報告的CD2Cl2 中「小型中性客體」的親和力較低範圍一致(Ka 從44 M^-1 到529 M^−1)。

雖然研究重點是使用 SMILES 表示法來表示分子,但也測試了其他類似的格式,例如自引用嵌入字串 (SELFIES)。

儘管QM9 資料集包含大小完美的分子,可以成為CB[6] 等主體的客體,但該研究遇到的一個限制是金屬有機籠準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 具有更大的空腔,需要更大的客體分子。在未來的研究中,將使用包含更大分子的資料集,例如 GDB-17 資料集。

之後,「我們的目標是將新配體的選擇嵌入到生成過程中,在自動化合成平台(例如Chemputer 機器人)上自主合成分子,關閉優化和測試之間的循環,創建一個網路-物理閉環系統。」

以上是準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具