首页 >科技周边 >人工智能 >糖蛋白组学新方法，复旦开发基于Transformer和GNN的混合端到端框架，登Nature子刊

糖蛋白组学新方法，复旦开发基于Transformer和GNN的混合端到端框架，登Nature子刊

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2024-08-06 08:31:22515浏览

编辑 | 萝卜皮

蛋白质糖基化是糖基对蛋白质进行的一种翻译后修饰，在细胞的多种生理和病理功能中起着重要作用。

糖蛋白质组学是在蛋白质组范围内研究蛋白质糖基化，利用液相色谱与串联质谱 (MS/MS) 联用技术获取糖基化位点、糖基化水平和糖结构的组合信息。

然而，由于结构决定离子的出现有限，目前糖蛋白质组学的数据库搜索方法通常难以确定聚糖结构。虽然光谱搜索方法可以利用碎片强度来促进糖肽的结构鉴定，但是光谱库构建的困难阻碍了它们的应用。

在最新的研究中，复旦大学的研究人员提出了 DeepGP，一种基于 Transformer 和图神经网络的混合深度学习框架，用于预测糖肽的 MS/MS 光谱和保留时间（RT）。

两个图神经网络模块分别用于捕获分支糖结构和预测糖离子强度。此外，还实施了预训练策略以缓解糖蛋白质组学数据的不足。

该研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」为题，于 2024 年 7 月 30 日发布在《Nature Machine Intelligence》。

糖蛋白组学新方法，复旦开发基于Transformer和GNN的混合端到端框架，登Nature子刊

蛋白质翻译后修饰（PTMs）显著增加了蛋白质组的复杂性。糖基化作为最重要的 PTMs 之一，影响超过 50% 的哺乳动物蛋白质，在许多生理和病理过程中起关键作用。

糖基化过程中，糖分子附着在特定氨基酸残基的侧链上，产生结构异质性，导致糖肽异构体的多样性，增加了识别难度。

液相色谱串联质谱（LC-MS/MS）是主要技术，通过碎片离子和分子量结合 RT 来鉴定糖肽。单靠质荷比（m/z）不足以确定糖结构，因此科学家采用光谱匹配方法提高识别灵敏度。然而，构建糖肽 MS/MS 光谱库成本高昂且复杂。

近年来，深度学习在肽 MS/MS 光谱预测方面取得进展。不过，当前糖肽组学数据集的数量相对较少，缺乏标准化的生成糖肽质谱数据的协议，这限制了用于深度学习模型训练的合适数据的可用性。

为此，复旦大学的研究人员提出了 DeepGP，这是一种基于深度学习的混合端到端框架，用于完整的 N-糖肽 MS/MS 光谱和 RT 预测。深度学习框架由预训练的 Transformer 模块和两个图神经网络 (GNN) 模块组成。

糖蛋白组学新方法，复旦开发基于Transformer和GNN的混合端到端框架，登Nature子刊

图示：模型架构和糖肽 MS/MS 光谱预测。

DeepGP 模型

预训练策略缓解糖蛋白质组学数据不足

DeepGP 使用大量无标注的自然语言数据进行预训练，类似于 BERT 等模型。预训练使模型在正式训练前具备知识基础，从而增强应对小规模标注数据的性能。

多个生物数据集上的测试

研究人员使用小鼠和人类样本数据集，证明了 DeepGP 在 MS/MS 和 RT 预测方面的高精度。

糖蛋白组学新方法，复旦开发基于Transformer和GNN的混合端到端框架，登Nature子刊

图示：DeepGP 结合 pGlyco3（一种糖肽搜索方法）进行糖肽鉴定。（来源：论文）

DeepGP 在合成和生物数据集上的全面基准测试验证了其区分相似聚糖的有效性。DeepGP 与数据库搜索相结合可以提高糖肽检测灵敏度。

论文链接：
https://www.nature.com/articles/s42256-024-00875-x

以上是糖蛋白组学新方法，复旦开发基于Transformer和GNN的混合端到端框架，登Nature子刊的详细内容。更多信息请关注PHP中文网其他相关文章！

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

查看更多