搜索
首页web3.0MolE:分子图学习的 Transformer 模型

MolE:分子图学习的 Transformer 模型

Nov 12, 2024 pm 09:22 PM
Molecular graphs foundation model disentangled attention

介绍 MolE,一种基于 Transformer 的分子图学习模型。 MolE 通过提供原子标识符和图连接作为输入标记来直接使用分子图。原子标识符是通过将不同的原子属性散列成单个整数来计算的,并且图连接性以拓扑距离矩阵的形式给出。 MolE 使用 Transformer 作为其基础架构,该架构之前也已应用于图。 Transformer 的性能很大程度上归功于自注意力机制的广泛使用。在标准转换器中,输入标记嵌入到查询、键和值中 (Q,K,Vin {R}^{Ntimes d}),用于计算自注意力为:

MolE:分子图学习的 Transformer 模型

MolE 是专门为分子图设计的 Transformer 模型。它通过分别提供原子标识符和图连接作为输入标记和相对位置信息来直接处理图。原子标识符是通过将不同的原子属性散列成单个整数来计算的。特别是,这个哈希包含以下信息:

- 相邻重原子的数量,

- 相邻氢原子的数量,

- 化合价减去所连接的氢的数量,

- 原子电荷,

-原子质量,

- 附加债券类型,

- 和戒指会员资格。

原子标识符(也称为半径 0 的原子环境)是使用 RDKit 中实现的 Morgan 算法计算的。

除了标记之外,MolE 还以图连接信息作为输入,这是一个重要的归纳偏差,因为它编码了分子图中原子的相对位置。在这种情况下,图的连通性以拓扑距离矩阵 d 的形式给出,其中 dij 对应于将原子 i 与原子 j 分开的键上的最短路径的长度。

MolE 使用 Transformer 作为其基础架构,之前也已应用于图。 Transformer 的性能很大程度上归功于自注意力机制的广泛使用。在标准转换器中,输入标记嵌入到查询、键和值中 (Q,K,Vin {R}^{Ntimes d}),用于计算自注意力:

其中({H}_{0}in {R}^{Ntimes d})是自注意力后的输出隐藏向量,(d)是隐藏空间的维度。

为了通过变压器的每一层显式地携带位置信息,MolE 使用 DeBERTa 的解缠结自注意力:

其中 ({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) 是上下文查询、包含令牌信息的键和值 (用于标准自注意力),({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d})是位置编码 (i{{{rm{th}}}}) 原子相对于 (j{{{rm{th}}}}) 原子的相对位置的查询和键。使用解缠结注意力使得 MolE 相对于输入原子的顺序保持不变。

如前所述,自监督预训练可以有效地将信息从大型无标签数据集转移到带有标签的较小数据集。在这里,我们提出了一个两步预训练策略。第一步是采用自我监督的方法来学习化学结构表示。为此,我们使用类似 BERT 的方法,其中每个原子以 15% 的概率被随机屏蔽,其中 80% 的选定标记被掩码标记替换,10% 被词汇表中的随机标记替换,并且10%没有改变。与 BERT 不同,预测任务不是预测被屏蔽 token 的身份,而是预测半径为 2 的相应原子环境(或功能原子环境),即与被屏蔽原子相隔两个或更少键的所有原子。重要的是要记住,我们对输入(半径 0)和标签(半径 2)使用了不同的标记化策略,并且输入标记不包含相邻原子的重叠数据,以避免信息泄漏。这激励模型聚合来自邻近原子的信息,同时学习局部分子特征。 MolE 通过分类任务进行学习,其中半径为 2 的每个原子环境都有一个预定义的标签,这与上下文预测方法相反,上下文预测方法的任务是将半径为 4 的原子环境的嵌入与上下文原子的嵌入(即超出范围的周围原子)相匹配。半径 4) 通过负采样。第二步使用带有大型标记数据集的图级监督预训练。正如 Hu 等人提出的,结合节点级和图级预训练有助于学习局部和全局特征,从而提高最终的预测性能。有关预训练步骤的更多详细信息,请参阅“方法”部分。

MolE 使用来自 ZINC 和 ExCAPE-DB 的约 8.42 亿分子的超大型数据库进行预训练,采用自监督方案(带有辅助损失),然后使用约 456K 分子进行监督预训练(参见方法部分更多细节)。我们通过在一组下游任务上微调 MolE 来评估分子嵌入的质量。在本例中,我们使用治疗数据共享 (TDC) 基准中包含的一组 22 个 ADMET 任务。该基准由数据集上的 9 个回归任务和 13 个二元分类任务组成,数据集范围从数百个(例如,具有 475 种化合物的 DILI)到数千个化合物(例如约 13,000 种化合物的 CYP 抑制任务)。使用此基准测试的优点是

以上是MolE:分子图学习的 Transformer 模型的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
以太坊的价格为$ 4,00,作为技术指标闪烁的诺言以太坊的价格为$ 4,00,作为技术指标闪烁的诺言Apr 14, 2025 am 11:28 AM

加密货币分析师Javon Marks预测,在接下来的几周内,以太坊价格进行了延长的集会。

OM Mantra加密货币坠毁90%,据称团队倾倒了90%的令牌供应OM Mantra加密货币坠毁90%,据称团队倾倒了90%的令牌供应Apr 14, 2025 am 11:26 AM

在对投资者的毁灭性打击中,OM咒语加密货币在过去24小时内倒塌了约90%,价格下降到0.58美元。

BlockDag用2380%的预售ROI削减了噪音BlockDag用2380%的预售ROI削减了噪音Apr 14, 2025 am 11:24 AM

价格波动和政策压力在加密货币中并不新鲜,但是时不时地,一个项目削减了数字太大而忽略的噪音。

4个可以从适度的500美元投资中赚取500,000美元的加密货币4个可以从适度的500美元投资中赚取500,000美元的加密货币Apr 14, 2025 am 11:22 AM

尤其是在公牛奔跑期间,令人兴奋的加密货币领域使微小的投资能够带来改变生活的利润。

比特币(BTC)分析师钉上了2021年市场崩溃比特币(BTC)分析师钉上了2021年市场崩溃Apr 14, 2025 am 11:20 AM

伪分析师Dave The Wave在社交媒体平台上告诉他的149,300个关注者X,比特币看起来正处于印刷逆向头和露肩模式的早期阶段

Remittix(RTX)推销其承诺接管XRP和XLM Payfi市场,并具有开创性的预售Remittix(RTX)推销其承诺接管XRP和XLM Payfi市场,并具有开创性的预售Apr 14, 2025 am 11:18 AM

Payfi市场在加密货币领域表现出了自己的承诺。从XRP到XLM,Remittix(RTX)现在正在接管市场

Mutuum Finance(MUTM)代币预售吸引了承诺在2025年获得40倍收益的投资者Mutuum Finance(MUTM)代币预售吸引了承诺在2025年获得40倍收益的投资者Apr 14, 2025 am 11:16 AM

Mutuum Finance(Doge)和Pepe(Pepe)引起了人们的关注,预测表明2025年的潜在增加5倍

$ OM的价格最近急剧下降(从大约6美元到1美元)的急剧下降归因于其标记学的重大变化$ OM的价格最近急剧下降(从大约6美元到1美元)的急剧下降归因于其标记学的重大变化Apr 14, 2025 am 11:14 AM

为了支持Mantra Chain Mainnet的发布,该项目推出了一种新的令牌组模型,其中包括:

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具