MolE:分子图学习的 Transformer 模型
介绍 MolE,一种基于 Transformer 的分子图学习模型。 MolE 通过提供原子标识符和图连接作为输入标记来直接使用分子图。原子标识符是通过将不同的原子属性散列成单个整数来计算的,并且图连接性以拓扑距离矩阵的形式给出。 MolE 使用 Transformer 作为其基础架构,该架构之前也已应用于图。 Transformer 的性能很大程度上归功于自注意力机制的广泛使用。在标准转换器中,输入标记嵌入到查询、键和值中 (Q,K,Vin {R}^{Ntimes d}),用于计算自注意力为:
MolE 是专门为分子图设计的 Transformer 模型。它通过分别提供原子标识符和图连接作为输入标记和相对位置信息来直接处理图。原子标识符是通过将不同的原子属性散列成单个整数来计算的。特别是,这个哈希包含以下信息:
- 相邻重原子的数量,
- 相邻氢原子的数量,
- 化合价减去所连接的氢的数量,
- 原子电荷,
-原子质量,
- 附加债券类型,
- 和戒指会员资格。
原子标识符(也称为半径 0 的原子环境)是使用 RDKit 中实现的 Morgan 算法计算的。
除了标记之外,MolE 还以图连接信息作为输入,这是一个重要的归纳偏差,因为它编码了分子图中原子的相对位置。在这种情况下,图的连通性以拓扑距离矩阵 d 的形式给出,其中 dij 对应于将原子 i 与原子 j 分开的键上的最短路径的长度。
MolE 使用 Transformer 作为其基础架构,之前也已应用于图。 Transformer 的性能很大程度上归功于自注意力机制的广泛使用。在标准转换器中,输入标记嵌入到查询、键和值中 (Q,K,Vin {R}^{Ntimes d}),用于计算自注意力:
其中({H}_{0}in {R}^{Ntimes d})是自注意力后的输出隐藏向量,(d)是隐藏空间的维度。
为了通过变压器的每一层显式地携带位置信息,MolE 使用 DeBERTa 的解缠结自注意力:
其中 ({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) 是上下文查询、包含令牌信息的键和值 (用于标准自注意力),({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d})是位置编码 (i{{{rm{th}}}}) 原子相对于 (j{{{rm{th}}}}) 原子的相对位置的查询和键。使用解缠结注意力使得 MolE 相对于输入原子的顺序保持不变。
如前所述,自监督预训练可以有效地将信息从大型无标签数据集转移到带有标签的较小数据集。在这里,我们提出了一个两步预训练策略。第一步是采用自我监督的方法来学习化学结构表示。为此,我们使用类似 BERT 的方法,其中每个原子以 15% 的概率被随机屏蔽,其中 80% 的选定标记被掩码标记替换,10% 被词汇表中的随机标记替换,并且10%没有改变。与 BERT 不同,预测任务不是预测被屏蔽 token 的身份,而是预测半径为 2 的相应原子环境(或功能原子环境),即与被屏蔽原子相隔两个或更少键的所有原子。重要的是要记住,我们对输入(半径 0)和标签(半径 2)使用了不同的标记化策略,并且输入标记不包含相邻原子的重叠数据,以避免信息泄漏。这激励模型聚合来自邻近原子的信息,同时学习局部分子特征。 MolE 通过分类任务进行学习,其中半径为 2 的每个原子环境都有一个预定义的标签,这与上下文预测方法相反,上下文预测方法的任务是将半径为 4 的原子环境的嵌入与上下文原子的嵌入(即超出范围的周围原子)相匹配。半径 4) 通过负采样。第二步使用带有大型标记数据集的图级监督预训练。正如 Hu 等人提出的,结合节点级和图级预训练有助于学习局部和全局特征,从而提高最终的预测性能。有关预训练步骤的更多详细信息,请参阅“方法”部分。
MolE 使用来自 ZINC 和 ExCAPE-DB 的约 8.42 亿分子的超大型数据库进行预训练,采用自监督方案(带有辅助损失),然后使用约 456K 分子进行监督预训练(参见方法部分更多细节)。我们通过在一组下游任务上微调 MolE 来评估分子嵌入的质量。在本例中,我们使用治疗数据共享 (TDC) 基准中包含的一组 22 个 ADMET 任务。该基准由数据集上的 9 个回归任务和 13 个二元分类任务组成,数据集范围从数百个(例如,具有 475 种化合物的 DILI)到数千个化合物(例如约 13,000 种化合物的 CYP 抑制任务)。使用此基准测试的优点是
以上是MolE:分子图学习的 Transformer 模型的详细内容。更多信息请关注PHP中文网其他相关文章!

Solana(Sol)的价格现在上涨了40%。在撰写本文时,硬币的长/短比率达到了30天的峰值为1.06,这表明对长位置的需求大大增加。

比特币领导出埃及记,但是XRP和Ondo之类的山寨币管理了适度的收益。

据称与美国总统唐纳德·特朗普(Donald Trump)有联系的公司World Liberty Financial将SEI代币添加到其投资组合中,在数字资产市场上采取了另一项大胆的举动。

加拿大授权使资产管理公司包括3IQ数字资产管理和目的投资以及CI全球资产管理和Evalle Funds Group,以开始此计划。

Dogecoin Cloud挖掘是指云采矿服务提供商通过检查Dogecoin区块链上的交易来奖励新的Dogecoins的过程。

Cardano和Solana作为可扩展性和创新的领导者在加密货币世界中建立了良好的声誉

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
视觉化网页开发工具

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中