首頁  >  文章  >  科技週邊  >  預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

王林
王林轉載
2024-03-05 19:28:20925瀏覽

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

編輯| X

氣體分離在工業生產和環境保護中扮演關鍵角色,金屬有機框架(MOF)憑藉其獨特性能,在氣體分離領域展現出巨大潛力。

傳統的模擬方法,例如分子動力學,雖然複雜且計算量要求高,但在模擬系統行為方面具有很高的準確性。與之相比,基於特徵工程的機器學習方法在處理複雜系統時表現更出色,然而由於標記資料的稀缺性,很容易導致過度擬合的問題。此外,這些機器學習方法通常是為了解決單一任務而設計的,缺乏對多任務學習的支援。因此,在選擇合適的方法時,需要權衡精確性、資料要求和任務複雜性等因素,以找到最適合特定問題的解決方案。

為了回應這些挑戰,由清華大學、加州大學、中山大學、蘇州大學、深勢科技和北京科學智能研究院(AI for Science Institute,Beijing,AISI) 組成的多機構團隊,合作提出了Uni-MOF,一種用於大規模三維MOF 表示學習的創新框架,專為多用途氣體預測而設計。 Uni-MOF 既適合科學研究又適合實際應用。

Uni-MOF可視為MOF材料的多功能氣體吸附預測器,在模擬數據方面展現出卓越的預測準確性,標誌著機器學習在氣體吸附研究中的重要應用。

研究以「A comprehensive transformer-based approach for high-accuracy gas adsorption predictions in metal-organic frameworks」為題,於 2024 年 3 月 1 日發佈在《Nature Communications》上。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

論文連結:https://www.nature.com/articles/s41467-024-46276-x

##需要一個統一的吸附框架

金屬有機框架(MOF)因其可調節的結構特性和化學成分被廣泛應用於氣體分離等領域。

雖然 MOF 在氣體吸附方面的潛力很大,但要準確預測其吸附容量仍然是一個挑戰。

分子動力學、蒙特卡羅(MC)等計算方法,計算成本高且實施複雜,限制了它們在大規模、多氣體和高通量計算。此外,氣體吸附的操作條件範圍廣,使預測變得更加複雜。

圖神經網路和 Transformers 已被證明可以成功預測 MOF 屬性。

儘管現有的預測吸附特性的模型具有高性能和強大的預測能力,但它們通常是為單一任務而設計的,特別是預測特定條件下特定氣體的吸附吸收率。然而,這些單一任務預測的可用資料集通常是有限的,從而阻礙了模型的通用性。

另一方面,來自不同溫度和壓力環境下的各種吸附氣體的標記資料的組合可以創建適合整個工作條件下訓練的大量資料集。增加的資料量還可以增強模型的泛化能力,並改善其實際工業用途。因此,需要一個統一的吸附框架來推進這些模型。

此外,針對大規模未標記 MOF 結構整合表示學習,或預訓練,可以進一步提高模型效能和表示能力。

Uni-MOF 框架:既適合科學研究又適合實際應用

受此啟發,研究團隊提出Uni-MOF 框架作為多用途解決方案,使用結構表示學習來預測不同條件下MOF 的氣體吸附。

與其他基於Transformer 的模型(例如MOFormer 和MOFTransformer)相比,Uni-MOF 作為基於Transformer 的框架,不僅可以在預訓練中識別和恢復奈米多孔材料的三維結構,從而大大提高了奈米多孔材料的穩健性。而且微調任務也進一步考慮了溫度、壓力和不同氣體分子等操作條件,這使得 Uni-MOF 既適合科學研究又適合實際應用。

Uni-MOF 作為MOF 材料的綜合氣體吸附估計器,只需要MOF 的晶體資訊檔案(CIF) 以及相關氣體、溫度和壓力參數,就可以在廣泛的操作條件下預測奈米多孔材料的氣體吸附特性。 Uni-MOF 框架易於使用並允許模組選擇。

此外,透過將各種跨系統吸收標記資料與大量未標記結構資料的表示學習相結合,有效解決了過度擬合的問題。這彌補了高品質數據和數據不足的不足,最終提高了氣體吸附預測的準確性。

Uni-MOF 框架实现了原子级别的材料识别精度,而集成模型使 Uni-MOF 更适用于工程问题。毫无疑问,实现真正统一的模型是材料领域未来的方向,而不仅仅是专注于专业领域。Uni-MOF 是机器学习在气体吸附领域的开创性实践。

Uni-MOF 框架概述

Uni-MOF 框架包括三维纳米多孔晶体的预训练和下游应用中多任务预测的微调。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

图 1:Uni-MOF 框架的示意图。(来源:论文)

三维晶体材料的预训练显著增强了下游任务的预测性能,特别是对于大规模未标记数据。

为了解决训练数据集监督不充分的问题,研究人员收集了大量的 MOF 结构数据集,并使用 ToBaCCo.3.0 生成了超过 300,000 个 MOF。基于材料基因组策略和准反应组装算法 (QReaxAA) 的 COF 的高通量构建是可行的,从而建立一个全面的 COF 库。通过材料的空间构型,Uni-MOF 能够很好地学习材料的结构特性,最重要的是化学键信息。

为了使 Uni-MOF 能够学习更多样化的材料,从而提高对更广泛材料的泛化能力,在预训练过程中通过虚拟和实验方式引入了 MOF 和 COF。与 BERT 和 Uni-Mol 中的掩蔽标记任务类似,Uni-MOF 采用掩蔽原子的预测任务,从而促进预训练模型深入了解材料空间结构。

为了增强预训练的稳健性并推广学习到的表示,研究人员向 MOF 的原始坐标引入了噪声。在预训练阶段,设计了两个任务。(1)从噪声数据中重建原始三维位置,(2)预测屏蔽原子。这些任务可以增强模型的稳健性并提高下游预测性能。

除了多样化的空间构型之外,一套全面的材料属性数据点对于模型训练也至关重要。为了丰富数据集,研究人员建立了自定义数据生成流程(如图 1b 所示)。

Uni-MOF 的微调基于通过预训练获取的表示的提取,以及使用自制工作流程生成和收集大量数据集。在微调过程中,使用 MOF 和 COF 各种吸附条件下的约 3,000,000 个标记数据点来训练模型,从而能够准确预测吸附容量。

凭借跨系统目标数据的多样化数据库,经过微调的 Uni-MOF 可以预测 MOF 在任意状态下的多系统吸附特性。因此,Uni-MOF 是一个统一且易于使用的框架,用于预测 MOF 吸附剂的吸附性能。

最重要的是,Uni-MOF 无需额外的人工来识别人类定义的结构特征。相反,MOF 的 CIF 以及相关气体、温度和压力参数就足够了。自监督学习策略和丰富的数据库确保 Uni-MOF 能够预测纳米多孔材料在各种操作参数下的气体吸附特性,从而使其成为一种熟练的 MOF 材料气体吸附估计器。

预测精度高达 0.98,可跨系统预测

该研究对包含超过 631,000 个 MOF 和 COF 的数据库进行了自监督学习,预测精度高达 0.98。这表明基于三维预训练的表示学习框架有效地学习了 MOF 的复杂结构信息,同时避免了过拟合。

应用 Uni-MOF 对三大数据库(hMOF_MOFX-DB,CoRE_MOFX-DB 和 CoRE_MAP_DB)的气体吸附性能进行了预测,在数据充足的数据库中取得了高达 0.98 的预测精度。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

图 2:Uni-MOF 在大规模数据库中的整体性能。(来源:论文)

在数据集充分采样的情况下,Uni-MOF 不仅保持了 0.83 以上的预测精度,而且仅通过预测低压下的吸附,就能准确选择高压下的高性能吸附剂,与实验筛选结果一致。因此,Uni-MOF 代表了材料科学领域在机器学习技术应用方面的重大突破。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

图 3:基于低压预测和高压实验值的吸附等温线,每条曲线代表 Langmuir 拟合。(来源:论文)

此外,与单系统任务相比,Uni-MOF 框架在跨系统数据集上表现出优越的性能,可以准确预测未知气体的吸附特性,预测精度高达 0.85,展示了其强大的预测能力和通用性。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 4:Uni-MOF 跨系統預測案例。 (資料來源:論文)

研究表明,預先訓練的自監督學習策略可以有效提高 Uni-MOF 的穩健性和下游預測表現。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 5:Uni-MOF 和 Uni-MOF 無預訓練比較。 (資料來源:論文)

透過對三維結構進行廣泛的預訓練,Uni-MOF 有效地學習了 MOF 的結構特徵,實現了 hMOF 的 0.99 的高決定係數。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 6:結構特徵預測與分析。 (資料來源:論文)

此外,t-SNE(t 分佈隨機鄰域嵌入)分析證實,微調階段可以進一步學習結構特徵,並且可以很好地識別具有不同吸附物行為的結構,這顯示學習的表示與氣體吸附目標之間有強烈的相關性。

預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架

圖 7:hMOF 和 CoRE_MOF 資料集中 MOF 結構表示的視覺化,低維嵌入透過 t-SNE 方法計算。 (資料來源:論文)

總之,Uni-MOF 框架作為MOF 材料的多功能預測平台,充當MOF 的氣體吸附估計器,在預測不同操作條件下的氣體吸附方面具有很高的精度,在材料科學領域具有廣泛的應用前景。

以上是預測精度高達0.98,清華、深勢科技等提出基於Transformer的MOF材料多功能預測框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除