搜尋
首頁科技週邊人工智慧預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

編輯| X

氣體分離在工業生產和環境保護中扮演關鍵角色,金屬有機框架(MOF)憑藉其獨特性能,在氣體分離領域展現出巨大潛力。

傳統的模擬方法,例如分子動力學,雖然複雜且計算量要求高,但在模擬系統行為方面具有很高的準確性。與之相比,基於特徵工程的機器學習方法在處理複雜系統時表現更出色,然而由於標記資料的稀缺性,很容易導致過度擬合的問題。此外,這些機器學習方法通常是為了解決單一任務而設計的,缺乏對多任務學習的支援。因此,在選擇合適的方法時,需要權衡精確性、資料要求和任務複雜性等因素,以找到最適合特定問題的解決方案。

為了回應這些挑戰,由清華大學、加州大學、中山大學、蘇州大學、深勢科技和北京科學智能研究院(AI for Science Institute,Beijing,AISI) 組成的多機構團隊,合作提出了Uni-MOF,一種用於大規模三維MOF 表示學習的創新框架,專為多用途氣體預測而設計。 Uni-MOF 既適合科學研究又適合實際應用。

Uni-MOF可視為MOF材料的多功能氣體吸附預測器,在模擬數據方面展現出卓越的預測準確性,標誌著機器學習在氣體吸附研究中的重要應用。

研究以「A comprehensive transformer-based approach for high-accuracy gas adsorption predictions in metal-organic frameworks」為題,於 2024 年 3 月 1 日發佈在《Nature Communications》上。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

論文連結:https://www.nature.com/articles/s41467-024-46276-x

##需要一個統一的吸附框架

金屬有機框架(MOF)因其可調節的結構特性和化學成分被廣泛應用於氣體分離等領域。

雖然 MOF 在氣體吸附方面的潛力很大,但要準確預測其吸附容量仍然是一個挑戰。

分子動力學、蒙特卡羅(MC)等計算方法,計算成本高且實施複雜,限制了它們在大規模、多氣體和高通量計算。此外,氣體吸附的操作條件範圍廣,使預測變得更加複雜。

圖神經網路和 Transformers 已被證明可以成功預測 MOF 屬性。

儘管現有的預測吸附特性的模型具有高性能和強大的預測能力,但它們通常是為單一任務而設計的,特別是預測特定條件下特定氣體的吸附吸收率。然而,這些單一任務預測的可用資料集通常是有限的,從而阻礙了模型的通用性。

另一方面,來自不同溫度和壓力環境下的各種吸附氣體的標記資料的組合可以創建適合整個工作條件下訓練的大量資料集。增加的資料量還可以增強模型的泛化能力,並改善其實際工業用途。因此,需要一個統一的吸附框架來推進這些模型。

此外,針對大規模未標記 MOF 結構整合表示學習,或預訓練,可以進一步提高模型效能和表示能力。

Uni-MOF 框架:既適合科學研究又適合實際應用

受此啟發,研究團隊提出Uni-MOF 框架作為多用途解決方案,使用結構表示學習來預測不同條件下MOF 的氣體吸附。

與其他基於Transformer 的模型(例如MOFormer 和MOFTransformer)相比,Uni-MOF 作為基於Transformer 的框架,不僅可以在預訓練中識別和恢復奈米多孔材料的三維結構,從而大大提高了奈米多孔材料的穩健性。而且微調任務也進一步考慮了溫度、壓力和不同氣體分子等操作條件,這使得 Uni-MOF 既適合科學研究又適合實際應用。

Uni-MOF 作為MOF 材料的綜合氣體吸附估計器,只需要MOF 的晶體資訊檔案(CIF) 以及相關氣體、溫度和壓力參數,就可以在廣泛的操作條件下預測奈米多孔材料的氣體吸附特性。 Uni-MOF 框架易於使用並允許模組選擇。

此外,透過將各種跨系統吸收標記資料與大量未標記結構資料的表示學習相結合,有效解決了過度擬合的問題。這彌補了高品質數據和數據不足的不足,最終提高了氣體吸附預測的準確性。

Uni-MOF 框架实现了原子级别的材料识别精度,而集成模型使 Uni-MOF 更适用于工程问题。毫无疑问,实现真正统一的模型是材料领域未来的方向,而不仅仅是专注于专业领域。Uni-MOF 是机器学习在气体吸附领域的开创性实践。

Uni-MOF 框架概述

Uni-MOF 框架包括三维纳米多孔晶体的预训练和下游应用中多任务预测的微调。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

图 1:Uni-MOF 框架的示意图。(来源:论文)

三维晶体材料的预训练显著增强了下游任务的预测性能,特别是对于大规模未标记数据。

为了解决训练数据集监督不充分的问题,研究人员收集了大量的 MOF 结构数据集,并使用 ToBaCCo.3.0 生成了超过 300,000 个 MOF。基于材料基因组策略和准反应组装算法 (QReaxAA) 的 COF 的高通量构建是可行的,从而建立一个全面的 COF 库。通过材料的空间构型,Uni-MOF 能够很好地学习材料的结构特性,最重要的是化学键信息。

为了使 Uni-MOF 能够学习更多样化的材料,从而提高对更广泛材料的泛化能力,在预训练过程中通过虚拟和实验方式引入了 MOF 和 COF。与 BERT 和 Uni-Mol 中的掩蔽标记任务类似,Uni-MOF 采用掩蔽原子的预测任务,从而促进预训练模型深入了解材料空间结构。

为了增强预训练的稳健性并推广学习到的表示,研究人员向 MOF 的原始坐标引入了噪声。在预训练阶段,设计了两个任务。(1)从噪声数据中重建原始三维位置,(2)预测屏蔽原子。这些任务可以增强模型的稳健性并提高下游预测性能。

除了多样化的空间构型之外,一套全面的材料属性数据点对于模型训练也至关重要。为了丰富数据集,研究人员建立了自定义数据生成流程(如图 1b 所示)。

Uni-MOF 的微调基于通过预训练获取的表示的提取,以及使用自制工作流程生成和收集大量数据集。在微调过程中,使用 MOF 和 COF 各种吸附条件下的约 3,000,000 个标记数据点来训练模型,从而能够准确预测吸附容量。

凭借跨系统目标数据的多样化数据库,经过微调的 Uni-MOF 可以预测 MOF 在任意状态下的多系统吸附特性。因此,Uni-MOF 是一个统一且易于使用的框架,用于预测 MOF 吸附剂的吸附性能。

最重要的是,Uni-MOF 无需额外的人工来识别人类定义的结构特征。相反,MOF 的 CIF 以及相关气体、温度和压力参数就足够了。自监督学习策略和丰富的数据库确保 Uni-MOF 能够预测纳米多孔材料在各种操作参数下的气体吸附特性,从而使其成为一种熟练的 MOF 材料气体吸附估计器。

预测精度高达 0.98,可跨系统预测

该研究对包含超过 631,000 个 MOF 和 COF 的数据库进行了自监督学习,预测精度高达 0.98。这表明基于三维预训练的表示学习框架有效地学习了 MOF 的复杂结构信息,同时避免了过拟合。

应用 Uni-MOF 对三大数据库(hMOF_MOFX-DB,CoRE_MOFX-DB 和 CoRE_MAP_DB)的气体吸附性能进行了预测,在数据充足的数据库中取得了高达 0.98 的预测精度。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

图 2:Uni-MOF 在大规模数据库中的整体性能。(来源:论文)

在数据集充分采样的情况下,Uni-MOF 不仅保持了 0.83 以上的预测精度,而且仅通过预测低压下的吸附,就能准确选择高压下的高性能吸附剂,与实验筛选结果一致。因此,Uni-MOF 代表了材料科学领域在机器学习技术应用方面的重大突破。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

图 3:基于低压预测和高压实验值的吸附等温线,每条曲线代表 Langmuir 拟合。(来源:论文)

此外,与单系统任务相比,Uni-MOF 框架在跨系统数据集上表现出优越的性能,可以准确预测未知气体的吸附特性,预测精度高达 0.85,展示了其强大的预测能力和通用性。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 4:Uni-MOF 跨系統預測案例。 (資料來源:論文)

研究表明,預先訓練的自監督學習策略可以有效提高 Uni-MOF 的穩健性和下游預測表現。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 5:Uni-MOF 和 Uni-MOF 無預訓練比較。 (資料來源:論文)

透過對三維結構進行廣泛的預訓練,Uni-MOF 有效地學習了 MOF 的結構特徵,實現了 hMOF 的 0.99 的高決定係數。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 6:結構特徵預測與分析。 (資料來源:論文)

此外,t-SNE(t 分佈隨機鄰域嵌入)分析證實,微調階段可以進一步學習結構特徵,並且可以很好地識別具有不同吸附物行為的結構,這顯示學習的表示與氣體吸附目標之間有強烈的相關性。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 7:hMOF 和 CoRE_MOF 資料集中 MOF 結構表示的視覺化,低維嵌入透過 t-SNE 方法計算。 (資料來源:論文)

總之,Uni-MOF 框架作為MOF 材料的多功能預測平台,充當MOF 的氣體吸附估計器,在預測不同操作條件下的氣體吸附方面具有很高的精度,在材料科學領域具有廣泛的應用前景。

以上是預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
五个时间序列预测的深度学习模型对比总结五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Aug 26, 2023 pm 09:01 PM

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

背景与前景控制更加精细,编辑更加快捷:BEVControl的两阶段方法背景与前景控制更加精细,编辑更加快捷:BEVControl的两阶段方法Sep 07, 2023 pm 11:21 PM

本文将介绍一种通过BEVSketch布局来精确生成多视角街景图片的方法在自动驾驶领域,图像合成被广泛应用于提升下游感知任务的性能在计算机视觉领域,提升感知模型性能的一个长期存在的研究难题是通过合成图像来实现。在以视觉为中心的自动驾驶系统中,使用多视角摄像头,这个问题变得更加突出,因为有些长尾场景是永远无法收集到的根据图1(a)所示,现有的生成方法将语义分割风格的BEV结构输入生成网络,并输出合理的多视角图像。在仅根据场景级指标进行评估时,现有方法似乎能合成照片般逼真的街景图像。然而,一旦放大,我

谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具