首頁 >科技週邊 >人工智慧 >SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊

SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊

王林
王林原創
2024-08-12 16:06:201123瀏覽

SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊

編輯 | 蘿蔔皮

基於質譜的蛋白質組學面臨的一項基本挑戰是識別產生每個串聯質譜(MS/MS)的勝肽。依賴已知勝肽序列資料庫的方法無法檢測意外勝肽,在某些情況下可能不切實際或無法應用。

因此,無需先驗資訊(即從頭肽測序)就能將勝肽序列分配到 MS/MS 中的能力對於抗體定序、免疫勝肽組學和元蛋白質組學等任務非常有價值。

儘管已開發出許多方法來解決這個問題,但它仍然是一個懸而未決的挑戰,部分原因是難以對 MS/MS 的不規則資料結構進行建模。

在這裡,華盛頓大學的研究人員描述了 Casanovo,這是一種機器學習模型,它使用 Transformer 神經網路架構將 MS/MS 中的峰值序列轉換為構成生成勝肽的氨基酸序列。

該團隊根據 3000 萬個標記光譜訓練了 Casanovo 模型,並證明該模型在跨物種基準資料集上的表現優於幾種先進方法。

該團隊還開發了一個針對非酶肽進行微調的 Casanovo 版本。該工具改善了免疫肽組學和宏蛋白質組學實驗的分析,並使科學家能夠更深入地研究暗蛋白質組。

研究以「Sequence-to-sequence translation from mass spectra to peptides with a transformer model」為題,於 2024 年 7 月 31 日發佈在《Nature Communications》。

SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊

1. 質譜法是主流的蛋白質體分析技術,用於鑑定和量化複雜生物系統中的蛋白質。
  1. 串聯質譜 (MS/MS) 技術產生的數據複雜,將這些光譜轉換成蛋白質氨基酸序列具有挑戰性。
  2. 深度學習已成為從頭肽測序的首選,但其局限性包括:註釋 MS/MS 光譜數量少、難以編碼高分辨率 MS/MS 數據、複雜的神經網路和後處理步驟。
  3. Casanovo將從頭肽定序任務重新定義為機器翻譯問題,使用 Transformer 架構直接使用 MS/MS 光譜的 m/z 和強度值對,輸出預測的勝肽序列。
  4. 最新研究中,Casanovo 進行了改進,包括:

    • 擴展訓練集,使用 MassIVE-KB 光譜庫中 6.69 億光譜。
    • 嚴格的 FDR 控制,在 1% FDR 下搜尋數據,僅保留每個獨特前體的 100 個 PSM,共 3000 萬個高品質 PSM。
    • 波束搜尋解碼程序,預測每個 MS/MS 光譜的最佳勝肽。

      SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊

      ## Casanovo:使用 Transformer 架構進行從頭肽定序

圖 1: Casanovo 使用 Transformer 架構執行從頭肽定序。 (資料來源:論文)

Casanovo 的出色表現歸因於兩個方面:

  1. 擁有大量高品質訓練資料
  2. 使用Transformer 架構

序列的元素置於上下文中,因此在自然語言建模方面取得了巨大成功。與循環神經網路相比,Transformer 架構能夠學習序列元素之間的長距離依賴關係,並且可以並行化以實現高效訓練。

Casanovo 的應用

Casanovo 將質譜峰編碼為序列,利用 Transformer 架構的優勢和大型語言模型的快速發展,改進了 MS/MS 光譜的從頭肽測序。

應用場景:

古蛋白質組學

法醫學
  • 天體生物學
  • 檢測數據庫中不存在的肽
  • 作為標準數據庫搜索的後處理器
  • 抗體測序

Casanovo 尚未探索抗體定序的應用。然而,德國 BAM 的 Denis Beslic 團隊的一項研究對包括 Casanovo 在內的六種從頭測序工具在抗體測序問題上進行了系統比較。

圖示:

SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊

Novor、pNovo 3、DeepNovo、SMSNet、PointNovo 和 Casanovo 對 IgG1-Human-HC 上不同酵素的整體回想率和精確度。 相關連結:

https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false

結果:

Casanovo 在所有考虑指标上均明显优于竞争方法。值得注意的是,此比较使用了贪婪解码版本 Casanovo,并且仅对 200 万个光谱进行训练。

评估:

Casanovo 团队对 Casanovo 进行了九种物种基准测试评估。下图显示,使用 3000 万个光谱训练的更新版本 Casanovo 可以产生更好的抗体测序性能。

SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊

图示:Casanovo 在九种物种基准测试中表现优于 PointNovo、DeepNovo 和 Novor 等模型。(来源:论文)

未来,Casanovo 模型将有很多机会针对特定应用进行微调。研究人员对非酶模型的分析表明,Casanovo 的酶偏差可以通过使用相对较少的训练数据进行调整。

因此,短期内,该团队计划训练适用于各种不同裂解酶的 Casanovo 变体。Casanovo 软件使这种微调变得简单,因此任何有兴趣将模型调整到特定实验设置的用户都应该能够这样做。

从长远来看,理想的模型将光谱以及相关元数据(例如消化酶、碰撞能量和仪器类型)作为输入,并准确预测多种不同类型的实验设置。

深度学习方法在提高从头测序能力方面的潜力现已得到广泛认可。在该论文接受审查期间,至少有六种其他深度学习从头测序方法已发表,包括 GraphNovo、PepNet、Denovo-GCN、Spectralis、π-HelixNovo 和 NovoB。显然,对这一不断发展的工具领域进行全面而严格的基准比较将使该领域受益。

与此相关的是,现阶段该领域的主要瓶颈之一是缺乏严格的从头测序置信度评估方法。

在宏蛋白质组学分析中,研究人员将 Casanovo 预测与目标和相应的诱饵肽数据库进行了匹配,但这种方法忽略了从头测序将肽分配给外来谱的能力。

因此,一个悬而未决的问题是,对于给定的数据依赖型采集数据集,Casanovo 是否在检测肽的统计能力方面优于标准数据库搜索程序。

研究人员表示,通过足够大的训练集进行训练,也许可以结束数据库搜索在 DDA 串联质谱数据分析领域的统治地位。

论文链接:https://www.nature.com/articles/s41467-024-49731-x

以上是SOTA性能,華盛頓大學開發Transformer模型將質譜轉化為勝肽序列,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn