MolE:分子圖學習的 Transformer 模型
介紹 MolE,一種基於 Transformer 的分子圖學習模型。 MolE 透過提供原子標識符和圖連接作為輸入標記來直接使用分子圖。原子標識符是透過將不同的原子屬性散列成單一整數來計算的,並且圖連接性以拓撲距離矩陣的形式給出。 MolE 使用 Transformer 作為其基礎架構,該架構之前也已應用於圖。 Transformer 的表現很大程度上歸功於自註意力機制的廣泛使用。在標準轉換器中,輸入標記嵌入到查詢、鍵和值 (Q,K,Vin {R}^{Ntimes d}),用於計算自註意力為:
MolE 是專為分子圖設計的 Transformer 模型。它透過分別提供原子標識符和圖連接作為輸入標記和相對位置資訊來直接處理圖。原子標識符是透過將不同的原子屬性散列成單一整數來計算的。特別是,這個哈希包含以下資訊:
- 相鄰重原子的數量,
- 相鄰氫原子的數量,
- 化合價減去所連接的氫的數量,
- 原子電荷,
-原子質量,
- 附加債券類型,
- 和戒指會員資格。
原子標識符(也稱為半徑 0 的原子環境)是使用 RDKit 中實現的 Morgan 演算法計算的。
除了標記之外,MolE 還以圖連接資訊作為輸入,這是一個重要的歸納偏差,因為它編碼了分子圖中原子的相對位置。在這種情況下,圖的連通性以拓撲距離矩陣 d 的形式給出,其中 dij 對應於將原子 i 與原子 j 分開的鍵上的最短路徑的長度。
MolE 使用 Transformer 作為其基礎架構,之前也已應用於圖。 Transformer 的表現很大程度上歸功於自註意力機制的廣泛使用。在標準轉換器中,輸入標記嵌入到查詢、鍵和值 (Q,K,Vin {R}^{Ntimes d}),用於計算自註意力:
其中({H}_{0}in {R}^{Ntimes d})是自註意力後的輸出隱藏向量,(d)是隱藏空間的維度。
為了透過變壓器的每一層顯式地攜帶位置訊息,MolE 使用 DeBERTa 的解纏結自註意力:
其中({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) 是上下文查詢、包含令牌資訊的鍵和值(用於標準自註意力),({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d})是位置編碼相對值的查詢與鍵(i{{{rm{th}}}}) 原子相對於(j{{{rm{th}}}}) 原子的位置。使用解纏結注意力使得 MolE 相對於輸入原子的順序保持不變。
如前所述,自監督預訓練可以有效地將資訊從大型無標籤資料集轉移到帶有標籤的較小資料集。在這裡,我們提出了一個兩步驟預訓練策略。第一步是採用自我監督的方法來學習化學結構表示。為此,我們使用類似BERT 的方法,其中每個原子以15% 的機率被隨機屏蔽,其中80% 的選定標記被掩碼標記替換,10% 被詞彙表中的隨機標記替換,並且10%沒有改變。與 BERT 不同,預測任務不是預測被屏蔽 token 的身份,而是預測半徑為 2 的相應原子環境(或功能原子環境),即與被屏蔽原子相隔兩個或更少鍵的所有原子。重要的是要記住,我們對輸入(半徑 0)和標籤(半徑 2)使用了不同的標記化策略,並且輸入標記不包含相鄰原子的重疊數據,以避免資訊外洩。這激勵模型聚合來自鄰近原子的訊息,同時學習局部分子特徵。 MolE 透過分類任務進行學習,其中半徑為2 的每個原子環境都有一個預定義的標籤,這與上下文預測方法相反,上下文預測方法的任務是將半徑為4 的原子環境的嵌入與上下文原子的嵌入(即超出範圍的周圍原子)相匹配。半徑 4) 透過負採樣。第二步使用帶有大型標記資料集的圖級監督預訓練。正如 Hu 等人所提出的,結合節點級和圖級預訓練有助於學習局部和全局特徵,從而提高最終的預測性能。有關預訓練步驟的更多詳細信息,請參閱“方法”部分。
MolE 使用來自ZINC 和ExCAPE-DB 的約8.42 億分子的超大型資料庫進行預訓練,採用自監督方案(帶有輔助損失),然後使用約456K 分子進行監督預訓練(參見方法部分更多細節)。我們透過在一組下游任務上微調 MolE 來評估分子嵌入的品質。在本例中,我們使用治療數據共享 (TDC) 基準中包含的一組 22 個 ADMET 任務。該基準由資料集上的9 個回歸任務和13 個二元分類任務組成,資料集範圍從數百個(例如,具有475 種化合物的DILI)到數千個化合物(例如約13,000 種化合物的CYP抑制任務)。使用此基準測試的優點是
以上是MolE:分子圖學習的 Transformer 模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在唐納德·特朗普(Donald Trump)徵收的巨大關稅並為中國(China)放寬時,我們都看過比特幣的下降。

加密市場目前正在顯示積極的跡象。總市場價值2.6萬億美元,上漲0.36%。比特幣的交易價格不到83,000美元,增長了2.27%,而Cardano Ada的交易價格為0.6268美元,增長了1.79%。

Fartcoin一直是模因硬幣領域的出色表演者之一,其價格在過去30天中飆升了近250%。

Grayscale Investments已發布了第二季度2025年第2季度的“正在考慮的資產”列表,重點介紹了一批新的AltCoins,這些銷售量可能會在未來的加密投資產品中列出。

SEC積極尋求Uniswap(Uni)和Coinbase等主要參與者的建議,加密貨幣監管的世界正在升溫。

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver Mac版
視覺化網頁開發工具

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),