MolE:分子图学习的 Transformer 模型
介绍 MolE,一种基于 Transformer 的分子图学习模型。 MolE 通过提供原子标识符和图连接作为输入标记来直接使用分子图。原子标识符是通过将不同的原子属性散列成单个整数来计算的,并且图连接性以拓扑距离矩阵的形式给出。 MolE 使用 Transformer 作为其基础架构,该架构之前也已应用于图。 Transformer 的性能很大程度上归功于自注意力机制的广泛使用。在标准转换器中,输入标记嵌入到查询、键和值中 (Q,K,Vin {R}^{Ntimes d}),用于计算自注意力为:
MolE 是专门为分子图设计的 Transformer 模型。它通过分别提供原子标识符和图连接作为输入标记和相对位置信息来直接处理图。原子标识符是通过将不同的原子属性散列成单个整数来计算的。特别是,这个哈希包含以下信息:
- 相邻重原子的数量,
- 相邻氢原子的数量,
- 化合价减去所连接的氢的数量,
- 原子电荷,
-原子质量,
- 附加债券类型,
- 和戒指会员资格。
原子标识符(也称为半径 0 的原子环境)是使用 RDKit 中实现的 Morgan 算法计算的。
除了标记之外,MolE 还以图连接信息作为输入,这是一个重要的归纳偏差,因为它编码了分子图中原子的相对位置。在这种情况下,图的连通性以拓扑距离矩阵 d 的形式给出,其中 dij 对应于将原子 i 与原子 j 分开的键上的最短路径的长度。
MolE 使用 Transformer 作为其基础架构,之前也已应用于图。 Transformer 的性能很大程度上归功于自注意力机制的广泛使用。在标准转换器中,输入标记嵌入到查询、键和值中 (Q,K,Vin {R}^{Ntimes d}),用于计算自注意力:
其中({H}_{0}in {R}^{Ntimes d})是自注意力后的输出隐藏向量,(d)是隐藏空间的维度。
为了通过变压器的每一层显式地携带位置信息,MolE 使用 DeBERTa 的解缠结自注意力:
其中 ({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) 是上下文查询、包含令牌信息的键和值 (用于标准自注意力),({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d})是位置编码 (i{{{rm{th}}}}) 原子相对于 (j{{{rm{th}}}}) 原子的相对位置的查询和键。使用解缠结注意力使得 MolE 相对于输入原子的顺序保持不变。
如前所述,自监督预训练可以有效地将信息从大型无标签数据集转移到带有标签的较小数据集。在这里,我们提出了一个两步预训练策略。第一步是采用自我监督的方法来学习化学结构表示。为此,我们使用类似 BERT 的方法,其中每个原子以 15% 的概率被随机屏蔽,其中 80% 的选定标记被掩码标记替换,10% 被词汇表中的随机标记替换,并且10%没有改变。与 BERT 不同,预测任务不是预测被屏蔽 token 的身份,而是预测半径为 2 的相应原子环境(或功能原子环境),即与被屏蔽原子相隔两个或更少键的所有原子。重要的是要记住,我们对输入(半径 0)和标签(半径 2)使用了不同的标记化策略,并且输入标记不包含相邻原子的重叠数据,以避免信息泄漏。这激励模型聚合来自邻近原子的信息,同时学习局部分子特征。 MolE 通过分类任务进行学习,其中半径为 2 的每个原子环境都有一个预定义的标签,这与上下文预测方法相反,上下文预测方法的任务是将半径为 4 的原子环境的嵌入与上下文原子的嵌入(即超出范围的周围原子)相匹配。半径 4) 通过负采样。第二步使用带有大型标记数据集的图级监督预训练。正如 Hu 等人提出的,结合节点级和图级预训练有助于学习局部和全局特征,从而提高最终的预测性能。有关预训练步骤的更多详细信息,请参阅“方法”部分。
MolE 使用来自 ZINC 和 ExCAPE-DB 的约 8.42 亿分子的超大型数据库进行预训练,采用自监督方案(带有辅助损失),然后使用约 456K 分子进行监督预训练(参见方法部分更多细节)。我们通过在一组下游任务上微调 MolE 来评估分子嵌入的质量。在本例中,我们使用治疗数据共享 (TDC) 基准中包含的一组 22 个 ADMET 任务。该基准由数据集上的 9 个回归任务和 13 个二元分类任务组成,数据集范围从数百个(例如,具有 475 种化合物的 DILI)到数千个化合物(例如约 13,000 种化合物的 CYP 抑制任务)。使用此基准测试的优点是
以上是MolE:分子图学习的 Transformer 模型的详细内容。更多信息请关注PHP中文网其他相关文章!

Tether的金牌代币Xaut发布了其第一个正式证明,证实了它得到了超过246500盎司的黄金的支持

Sens。AdamSchiff(D-CA)和Elizabeth Warren(D-MA)说,晚餐证明特朗普可能正在从事“付费腐败”。

加密讨论再次使用Dogecoin(Doge),Binance Coin(BNB)和Blockdag(BDAG)采用不同的路径。总督价格停留在0.17美元以下

在不断变化的加密货币世界中,投资者一直在寻找下一个大机会。 XRP长期以来一直是最喜欢的

Tether在包括USDT在内的几个领先的加密货币稳定股背后的公司宣布,它持有7.7亿美元的实体黄金制品储备,支持其Tether Gold(XAUT)Stablecoin。

电报创始人帕维尔·杜罗夫(Pavel Durov)的回报率和4亿美元的生态系统筹资浪潮后,吨币获得了4%的收益。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

SublimeText3 Linux新版
SublimeText3 Linux最新版

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Atom编辑器mac版下载
最流行的的开源编辑器