搜索
首页科技周边人工智能预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

编辑 | X

气体分离在工业生产和环境保护中扮演着关键角色,金属有机框架(MOF)凭借其独特性能,在气体分离领域展现出巨大潜力。

传统的模拟方法,比如分子动力学,虽然复杂且计算量要求高,但在模拟系统行为方面具有很高的准确性。与之相比,基于特征工程的机器学习方法在处理复杂系统时表现更出色,然而由于标记数据的稀缺性,很容易导致过度拟合的问题。此外,这些机器学习方法通常是为了解决单一任务而设计的,缺乏对多任务学习的支持。因此,在选择合适的方法时,需要权衡精确性、数据要求和任务复杂性等因素,以找到最适合特定问题的解决方案。

为了应对这些挑战,由清华大学、加州大学、中山大学、苏州大学、深势科技和北京科学智能研究院(AI for Science Institute,Beijing,AISI) 组成的多机构团队,合作提出了 Uni-MOF,一种用于大规模三维 MOF 表示学习的创新框架,专为多用途气体预测而设计。Uni-MOF 既适合科学研究又适合实际应用。

Uni-MOF可被视为MOF材料的多功能气体吸附预测器,在模拟数据方面展现出卓越的预测准确性,标志着机器学习在气体吸附研究中的重要应用。

该研究以「A comprehensive transformer-based approach for high-accuracy gas adsorption predictions in metal-organic frameworks」为题,于 2024 年 3 月 1 日发布在《Nature Communications》上。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

论文链接:https://www.nature.com/articles/s41467-024-46276-x

需要一个统一的吸附框架

金属有机框架(MOF)因其可调节的结构特性和化学成分被广泛应用于气体分离等领域。

虽然 MOF 在气体吸附方面的潜力很大,但准确预测其吸附容量仍然是一个挑战。

分子动力学、蒙特卡罗(MC)等计算方法,计算成本高且实施复杂,限制了它们在大规模、多气体和高通量计算。此外,气体吸附的操作条件范围广,使预测变得更加复杂。

图神经网络和 Transformers 已被证明可以成功预测 MOF 属性。

尽管现有的预测吸附特性的模型具有高性能和强大的预测能力,但它们通常是为单一任务而设计的,特别是预测特定条件下特定气体的吸附吸收率。然而,这些单一任务预测的可用数据集通常是有限的,从而阻碍了模型的通用性。

另一方面,来自不同温度和压力环境下的各种吸附气体的标记数据的组合可以创建适合整个工作条件下训练的大量数据集。增加的数据量还可以增强模型的泛化能力,并改善其实际工业用途。因此,需要一个统一的吸附框架来推进这些模型。

此外,针对大规模未标记 MOF 结构集成表示学习,或预训练,可以进一步提高模型性能和表示能力。

Uni-MOF 框架:既适合科学研究又适合实际应用

受此启发,研究团队提出 Uni-MOF 框架作为一种多用途解决方案,使用结构表示学习来预测不同条件下 MOF 的气体吸附。

与其他基于 Transformer 的模型(例如 MOFormer 和 MOFTransformer)相比,Uni-MOF 作为基于 Transformer 的框架,不仅可以在预训练中识别和恢复纳米多孔材料的三维结构,从而大大提高了纳米多孔材料的稳健性。而且微调任务还进一步考虑了温度、压力和不同气体分子等操作条件,这使得 Uni-MOF 既适合科学研究又适合实际应用。

Uni-MOF 作为 MOF 材料的综合气体吸附估计器,仅需要 MOF 的晶体信息文件 (CIF) 以及相关气体、温度和压力参数,就可以在广泛的操作条件下预测纳米多孔材料的气体吸附特性。Uni-MOF 框架易于使用并允许模块选择。

此外,通过将各种跨系统吸收标记数据与大量未标记结构数据的表示学习相结合,有效解决了过度拟合的问题。这弥补了高质量数据和数据不足的不足,最终提高了气体吸附预测的准确性。

Uni-MOF 框架实现了原子级别的材料识别精度,而集成模型使 Uni-MOF 更适用于工程问题。毫无疑问,实现真正统一的模型是材料领域未来的方向,而不仅仅是专注于专业领域。 Uni-MOF 是机器学习在气体吸附领域的开创性实践。

Uni-MOF 框架概述

Uni-MOF 框架包括三维纳米多孔晶体的预训练和下游应用中多任务预测的微调。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 1:Uni-MOF 框架的示意图。 (来源:论文)

三维晶体材料的预训练显着增强了下游任务的预测性能,特别是对于大规模未标记数据。

为了解决训练数据集监督不充分的问题,研究人员收集了大量的 MOF 结构数据集,并使用 ToBaCCo.3.0 生成了超过 300,000 个 MOF。基于材料基因组策略和准反应组装算法 (QReaxAA) 的 COF 的高通量构建是可行的,从而建立一个全面的 COF 库。通过材料的空间构型,Uni-MOF 能够很好地学习材料的结构特性,最重要的是化学键信息。

为了使 Uni-MOF 能够学习更多样化的材料,从而提高对更广泛材料的泛化能力,在预训练过程中通过虚拟和实验方式引入了 MOF 和 COF。与 BERT 和 Uni-Mol 中的掩蔽标记任务类似,Uni-MOF 采用掩蔽原子的预测任务,从而促进预训练模型深入了解材料空间结构。

为了增强预训练的稳健性并推广学习到的表示,研究人员向 MOF 的原始坐标引入了噪声。在预训练阶段,设计了两个任务。 (1)从噪声数据中重建原始三维位置,(2)预测屏蔽原子。这些任务可以增强模型的稳健性并提高下游预测性能。

除了多样化的空间构型之外,一套全面的材料属性数据点对于模型训练也至关重要。为了丰富数据集,研究人员建立了自定义数据生成流程(如图 1b 所示)。

Uni-MOF 的微调基于通过预训练获取的表示的提取,以及使用自制工作流程生成和收集大量数据集。在微调过程中,使用 MOF 和 COF 各种吸附条件下的约 3,000,000 个标记数据点来训练模型,从而能够准确预测吸附容量。

凭借跨系统目标数据的多样化数据库,经过微调的 Uni-MOF 可以预测 MOF 在任意状态下的多系统吸附特性。因此,Uni-MOF 是一个统一且易于使用的框架,用于预测 MOF 吸附剂的吸附性能。

最重要的是,Uni-MOF 无需额外的人工来识别人类定义的结构特征。相反,MOF 的 CIF 以及相关气体、温度和压力参数就足够了。自监督学习策略和丰富的数据库确保 Uni-MOF 能够预测纳米多孔材料在各种操作参数下的气体吸附特性,从而使其成为一种熟练的 MOF 材料气体吸附估计器。

预测精度高达 0.98,可跨系统预测

该研究对包含超过 631,000 个 MOF 和 COF 的数据库进行了自监督学习,预测精度高达 0.98。这表明基于三维预训练的表示学习框架有效地学习了 MOF 的复杂结构信息,同时避免了过拟合。

应用 Uni-MOF 对三大数据库(hMOF_MOFX-DB,CoRE_MOFX-DB 和 CoRE_MAP_DB)的气体吸附性能进行了预测,在数据充足的数据库中取得了高达 0.98 的预测精度。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 2:Uni-MOF 在大规模数据库中的整体性能。 (来源:论文)

在数据集充分采样的情况下,Uni-MOF 不仅保持了0.83 以上的预测精度,而且仅通过预测低压下的吸附,就能准确选择高压下的高性能吸附剂,与实验筛选结果一致。因此,Uni-MOF 代表了材料科学领域在机器学习技术应用方面的重大突破。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 3:基于低压预测和高压实验值的吸附等温线,每条曲线代表 Langmuir 拟合。 (来源:论文)

此外,与单系统任务相比,Uni-MOF 框架在跨系统数据集上表现出优越的性能,可以准确预测未知气体的吸附特性,预测精度高达0.85,展示了其强大的预测能力和通用性。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 4:Uni-MOF 跨系统预测案例。(来源:论文)

研究表明,预训练的自监督学习策略可以有效提高 Uni-MOF 的稳健性和下游预测性能。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 5:Uni-MOF 和 Uni-MOF 无预训练比较。(来源:论文)

通过对三维结构进行广泛的预训练,Uni-MOF 有效地学习了 MOF 的结构特征,实现了 hMOF 的 0.99 的高决定系数。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 6:结构特征预测与分析。(来源:论文)

此外,t-SNE(t 分布随机邻域嵌入)分析证实,微调阶段可以进一步学习结构特征,并且可以很好地识别具有不同吸附物行为的结构,这表明学习的表示与气体吸附目标之间存在很强的相关性。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 7:hMOF 和 CoRE_MOF 数据集中 MOF 结构表示的可视化,低维嵌入通过 t-SNE 方法计算。(来源:论文)

总之,Uni-MOF 框架作为 MOF 材料的多功能预测平台,充当 MOF 的气体吸附估计器,在预测不同操作条件下的气体吸附方面具有很高的精度,在材料科学领域具有广泛的应用前景。

以上是预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石Apr 22, 2025 am 11:48 AM

自2008年以来,我一直倡导这辆共享乘车面包车,即后来被称为“ Robotjitney”,后来是“ Vansit”,这是城市运输的未来。 我预见这些车辆是21世纪的下一代过境解决方案Surpas

Sam俱乐部在AI上押注以消除收据检查并增强零售Sam俱乐部在AI上押注以消除收据检查并增强零售Apr 22, 2025 am 11:29 AM

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

Nvidia的AI Omniverse在GTC 2025扩展Nvidia的AI Omniverse在GTC 2025扩展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

下一波《 Genai:与Kirk Borne博士的观点》 -Analytics Vidhya下一波《 Genai:与Kirk Borne博士的观点》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

AI适合跑步者和运动员:我们取得了出色的进步AI适合跑步者和运动员:我们取得了出色的进步Apr 22, 2025 am 11:12 AM

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型Apr 22, 2025 am 11:10 AM

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

新的Google照片更新使任何具有Ultra HDR质量的照片流行新的Google照片更新使任何具有Ultra HDR质量的照片流行Apr 22, 2025 am 11:09 AM

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。