搜尋
首頁科技週邊人工智慧介紹全球首個基於自監督學習的分子影像生成框架ImageMol

分子是維持物質化學穩定性的最小單位。分子的研究,是藥學、材料學、生物學、化學等眾多科學領域的基礎性問題。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

分子的表徵學習(Molecular Representation Learning)是近年來非常熱門的方向,目前可分為諸多門派:

  • 計算藥學家說:分子可以表示為一串指紋,或描述符,如上海藥物所提出的AttentiveFP,是這方面的傑出代表。
  • NLPer 說:分子可以表示為 SMILES(序列),然後當作自然語言處理,如百度的 X-Mol,是這方面的傑出代表。
  • 圖神經網路研究者說:分子可以表示為一個圖(Graph),也就是鄰接矩陣,然後使用圖神經網路處理,如騰訊的GROVER, MIT 的DMPNN, CMU 的MOLCLR 等方法,都是這方面的傑出代表。

但是,目前的表徵方法仍有一些限制。例如,序列表徵缺乏分子的顯式結構訊息,現有圖神經網路的表達能力仍有諸多限制(中科院計算所沈華偉老師對此有論述,見沈老師報告「圖神經網路的表達能力」)。

有趣的是,在高中化學學習分子的時候,我們看到的是分子的圖像,化學家在設計分子時,也是對照分子圖像進行觀察和思考。一個自然的想法油然而生:「為什麼不直接用分子圖像來表徵分子呢?」如果可以直接用圖像來表徵分子,那麼CV(電腦視覺)裡面的十八般武藝,不都可以用來研究分子嗎?

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

說乾就乾,CV 裡面的模型那麼多,拿過來學習分子唄?打住,還有一個重要的問題──數據!特別是帶標籤的數據!在 CV 領域,數據標註這件事似乎並不困難。對於圖像辨識或情感分類這些 CV 和 NLP 的經典問題來說,一個人平均能標註 800 條數據。但是在分子領域,只能透過濕實驗和臨床實驗的方式來評估分子性質,因此標籤的數據非常稀缺。

基於此,來自湖南大學的研究者提出了全球首個分子圖像的無監督學習框架 ImageMol,利用大規模無標籤分子圖像數據進行無監督預訓練,為分子性質與藥物標靶理解提供了新範式,證明了分子影像在智慧藥物研發領域具有巨大的潛力。成果以 “Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework” 為題發表於國際頂尖期刊《Nature Machine Intelligence》。這次電腦視覺與分子領域交叉取得的成功展示了利用電腦視覺技術理解分子性質與藥物標靶機制的巨大潛力,並為分子領域的研究提供了新的機會。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

論文連結:https://www.nature.com/articles/s42256-022-00557-6.pdf

ImageMol 模型結構

ImageMol 的整體架構如下圖所示,總共分為三個部分:

介紹全球首個基於自監督學習的分子影像生成框架ImageMol


(1) 設計一個分子編碼器ResNet18(淺藍色),能夠從約1000 萬張分子圖像中提取潛在特徵(a) 。

(2)考慮分子影像中的化學知識和結構訊息,利用五個預訓練策略(MG3C、MRD、JPP、MCL、MIR)來優化分子編碼器的潛在表示 (b) 。具體來說為:

① MG3C(Muti-granularity chemical clusters classification 多粒度化學簇分類):其中的結構分類器Structure classifier(深藍色)用於預測分子影像中的化學結構資訊;

② MRD(Molecular rationality discrimination 分子合理性判別器):其中的合理性分類器Rationality classifier(綠色),它用來區分合理與不合理的分子;

③ JPP(Jigsaw puzzle predicition 拼圖預測):其中的拼圖分類器Jigsaw classifier(淺灰色)用於預測分子的合理排列;

④ MCL(MASK-based contrastive learning 基於MASK 的對比學習):其中的對比分類器Contrastive classifier(深灰色)用於最大化原始圖像和mask 圖像之間的相似性;

⑤ MIR(Molecular image reconstruction 分子影像重建):其中的生成器Generator(黃色)用於將潛在特徵恢復分子影像,判別器Discriminator(紫色)用於區分真實影像和生成器生成的假的分子圖像。

(3)在下游任務中對預處理的分子編碼器進行微調,以進一步提高模型效能 (c) 。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

基準評估

作者首先使用8 種藥物發現的基準資料集來評估ImageMol 的性能,並且使用兩種最受歡迎的拆分策略(scaffold split 與random scaffold split)來評估ImageMol 在所有基準資料集上的效能。在分類任務中,利用受試者工作特性(Receiver Operating Characteristic, ROC)曲線以及曲線下的面積(Area Under Curve, AUC)來評估,從實驗結果可以看出,ImageMol 均能得到較高的AUC 值(圖a) 。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

ImageMol 與預測分子影像的經典卷積神經網路框架Chemception 在HIV 和Tox21 的檢測結果對比(圖b) ,ImageMol 的AUC值較高。本文進一步評估了 ImageMol 在預測五種主要代謝酶(CYP1A2, CYP2C9, CYP2C19, CYP2D6 和 CYP3A4)藥物代謝方面的表現。圖c 顯示,ImageMol 在五種主要藥物代謝酶的抑制劑與非抑制劑的預測中,與三種最先進的基於分子圖像的表示模型(Chemception46、ADMET-CNN12 和QSAR-CNN47)相比,獲得了更高的AUC 值(範圍從0.799 到0.893)。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

本文進一步將ImageMol 的性能與三種最先進的分子表示模型進行了比較,如圖d、e 所示。 ImageMol 與使用隨機骨架劃分的基於指紋的模型(如 AttentiveFP)、基於序列的模型(如 TF_Robust)和基於圖的模型(如 N-GRAM、GROVER 和 MPG)相比具有更好的性能。此外,與傳統的基於 MACCS 的方法和基於 FP4 的方法相比,ImageMol 在 CYP1A2,CYP2C9,CYP2C19,CYP2D6 和 CYP3A4 上實現了更高的 AUC 值(圖 f)。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

#

ImageMol 與基於序列的模型(包括RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF 和CHEM-BERT)和基於圖表的模型(包括MolCLRGIN、MolCLRGCN 和GROVER)相比,g 所示,ImageMol 在CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4 上實現了更好的AUC 性能。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

在上述 ImageMol 與其他先進的模型比較中,可以看出 ImageMol 的優越性。

自新冠疫情爆發以來,我們迫切需要為新冠疫情制定有效的治療策略。因此,作者在該方面對 ImageMol 做了相應的評估。

對13 個SARS-CoV-2 標靶進行預測

ImageMol 對現今關注的SARS-CoV-2 進行了預測實驗,在13 個SARS -CoV-2 生物測定資料集中,ImageMol 實現了72.6% 至83.7% 的高AUC 值。圖a 揭示了透過ImageMol 鑑定的潛在特徵,它在13 個靶點(target)或終點(endpoints)活性和無活性的抗SARS-CoV-2 上很好的聚集,且AUC 值均比另一種模型Jure's GNN 要高12% 以上  ,體現出該模型的高精度和很強的泛化性。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

辨識抗SARS-CoV-2 抑制劑

對藥物分子研究關乎最直接的實驗來了,利用ImageMol直接辨識抑制劑分子!透過ImageMol 框架下3CL 蛋白酶(已被證實是治療COVID-19 的有希望的治療發展靶點)抑製劑與非抑製劑數據集的分子圖像表示,該研究發現3CL 抑製劑和非抑製劑在t- SNE 圖中很好分離,如下圖b 。

另外,ImageMol 鑑定出16 種已知3CL 蛋白酶抑制劑中的10 種,並將這10 種藥物視覺化到圖中的包埋空間(成功率62.5%) ,顯示在抗SARS-CoV-2 藥物發現中具有較高的泛化能力。使用HEY293 測定來預測抗SARS-CoV-2 可再利用藥物時,ImageMol 成功預測了70 種藥物中的42 種(成功率為60%),這表明ImageMol 在推斷HEY293 測定中的潛在候選藥物方面也具有很高的推廣性。下圖 c 展示了 ImageMol 在 DrugBank 資料集上發現 3CL 潛在抑制劑的藥物。圖 d 展示了 ImageMol 發現的 3CL 抑制劑的分子結構。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

注意力視覺化

ImageMol 可以從分子影像表示法中獲得化學資訊的先驗知識,包括= O 鍵、 -OH 鍵、-NH3 鍵和苯環。圖 b 和 c 為 ImageMol 的 Grad-CAM 視覺化的 12 個範例分子。這表示 ImageMol 同時準確地對全局 (b) 和局部 (c) 結構資訊進行注意捕獲,這些結果使研究人員能夠在視覺上直觀地理解分子結構是如何影響性質和靶點。

介紹全球首個基於自監督學習的分子影像生成框架ImageMol

#

以上是介紹全球首個基於自監督學習的分子影像生成框架ImageMol的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。