首頁  >  文章  >  科技週邊  >  糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊

糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊

WBOY
WBOY原創
2024-08-06 08:31:22429瀏覽

糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊

編輯 | 蘿蔔皮

蛋白質糖基化是糖基對蛋白質進行的一種翻譯後修飾,在細胞的多種生理和病理功能中起著重要作用。

糖蛋白質體學是在蛋白質體範圍內研究蛋白質糖基化,利用液相層析與串聯質譜(MS/MS) 聯用技術獲取糖基化位點、糖基化水平和糖結構的組合信息。

然而,由於結構決定離子的出現有限,目前糖蛋白質體學的資料庫搜尋方法通常難以確定聚醣結構。雖然光譜搜尋方法可以利用碎片強度來促進糖肽的結構鑑定,但是光譜庫建構的困難阻礙了它們的應用。

在最新的研究中,復旦大學的研究人員提出了 DeepGP,一種基於 Transformer 和圖神經網路的混合深度學習框架,用於預測糖肽的 MS/MS 光譜和保留時間(RT)。

兩個圖神經網路模組分別用於捕捉分支糖結構和預測醣離子強度。此外,也實施了預訓練策略以緩解糖蛋白質體學資料的不足。

研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」為題,於 2024 年 7 月 30 日發佈在《Nature Machine Intelligence》。

糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊

蛋白質翻譯後修飾(PTMs)顯著增加了蛋白質組的複雜性。糖基化作為最重要的 PTMs 之一,影響超過 50% 的哺乳動物蛋白質,在許多生理和病理過程中起關鍵作用。

糖基化過程中,糖分子附著在特定胺基酸殘基的側鏈上,產生結構異質性,導致糖肽異構體的多樣性,增加了辨識難度。

液相層析串聯質譜(LC-MS/MS)是主要技術,透過碎片離子和分子量結合 RT 來鑑定糖肽。單靠質荷比(m/z)不足以確定糖結構,因此科學家採用光譜匹配方法來提高識別靈敏度。然而,建構糖肽 MS/MS 光譜庫成本高且複雜。

近年來,深度學習在勝肽 MS/MS 光譜預測方面取得進展。不過,目前糖肽組學資料集的數量相對較少,缺乏標準化的生成糖肽質譜資料的協議,這限制了用於深度學習模型訓練的合適資料的可用性。

為此,復旦大學的研究人員提出了 DeepGP,這是一種基於深度學習的混合端到端框架,用於完整的 N-糖肽 MS/MS 光譜和 RT 預測。深度學習框架由預先訓練的 Transformer 模組和兩個圖神經網路 (GNN) 模組組成。

糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊

圖示:模型架構和糖肽 MS/MS 光譜預測。

DeepGP 模型

  • 接受糖肽作為輸入
  • 編碼糖肽特徵:

    1. 糖結構
    2. 氨基酸胺基酸序列
    3. 糖結構透過GNN 嵌入,將糖肽轉化為圖:
    4. 節點:單醣
  • 圖示:基於DeepGP 在合成資料集上對相似聚醣組成進行區分。 (資料來源:論文)

      兩個GNN 模組捕獲糖結構及預測糖離子強度
    • 研究人員評估了三種GNN 架構,包括圖卷積網絡(GCN)、圖同構網絡(GIN) 和圖注意網絡(GAT),用於糖嵌入和B/Y 離子強度預測。

      GCN 利用卷積操作來取得節點表示,並實施訊息傳遞協定來聚合相鄰節點的表示;GIN 在圖同構測試中表現優異;GAT 結合注意機制,使模型能夠專注於輸入的最相關部分。 糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊實驗結果表明,GCN 在糖嵌入任務中表現最佳,而 GIN 在 B/Y 離子強度預測任務中表現優異,因此 GCN 和 GIN 被選用於相應分析。

    圖示:DeepGP 在 MS/MS 預測的表現。 (資料來源:論文)




    預訓練策略緩解糖蛋白質組學資料不足糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊

    DeepGP 使用大量無標註的自然語言資料進行預訓練,類似於 BERT 等模型。預訓練使模型在正式訓練前具備知識基礎,進而增強應對小規模標註資料的效能。

多個生物資料集上的測試

The researchers demonstrated DeepGP’s high accuracy in MS/MS and RT predictions using mouse and human sample datasets.

糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊

Illustration: DeepGP combined with pGlyco3 (a glycopeptide search method) for glycopeptide identification. (Source: Paper)

Comprehensive benchmarking of DeepGP on synthetic and biological datasets validates its effectiveness in distinguishing similar glycans. DeepGP combined with database searches improves glycopeptide detection sensitivity.

Paper link:
https://www.nature.com/articles/s42256-024-00875-x

以上是糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn