首頁 >科技週邊 >人工智慧 >基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化

基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化

王林
王林原創
2024-07-19 14:55:29670瀏覽

基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化

編輯 | 蘿蔔皮

DNA 甲基化 在各種生物過程中起著重要作用,包括細胞分化、老化和癌症發展。哺乳動物中最重要的甲基化是 5-甲基胞嘧啶,主要發生在 CpG 二核苷酸的背景下。

全基因組亞硫酸鹽定序 等定序方法可以成功檢測 5-甲基胞嘧啶 DNA 修飾。然而,它們存在讀取長度短的嚴重缺陷,可能會引入擴增偏差。

新加坡A*STAR 的研究人員開發了一種深度學習演算法Rockfish,該演算法透過使用奈米孔定序(Oxford Nanopore Sequencing,ONT) 顯著提高了讀取級5-甲基胞嘧啶檢測能力。

研究以「Rockfish: A transformer-based model for accurate 5-methylcytosine prediction from nanopore sequencing」為題,於 2024 年 7 月 3 日發佈在《Nature Communications》。

基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化

考慮到需要一種高精度的讀取級預測方法,研究人員著手使用現代架構 Transformers 開發一種新的、最先進的深度學習方法。他們的方法 Rockfish 依賴原始奈米孔訊號、核鹼基序列和比對資訊來檢測 5mC 修飾。

基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化

圖示:Rockfish 架構概述。 (資料來源:論文)

研究人員使用高品質的人類和小鼠資料集訓練模型,並在多個R9.4.1 和R10.4.1 資料集上進行測試,包括:

  1. 內部定序的R9.4.1 H1 胚胎幹細胞(H1ESc) 原生資料集
  2. R9.4.1 和R10.4.1 新生小鼠(C57BL/6 新生兒) 資料
  3. 一些公開可用的人類癌症和血液資料集
鑑於R9.4.1 和R10.4.1 NA12878 以及新生小鼠數據集均用於評估,研究人員指出了孔版本以區分它們。其餘資料集僅使用 R9.4.1 孔版本進行定序。

對Rockfish 模型進行了廣泛的評估,並與以下工具進行了比較:

R9.4.1 資料集的Megalodon Remora、Megalodon Rerio 和Nanopolish
    🜎
  • 比較內容包括:
讀段級預測

位點級預測

與WGBS 的位點級相關性
  1. 調用覆蓋率
  2. 執行時間圖
  3. 圖: -level 評估。 (資料來源:論文)
  4. 在 R.9.4.1 資料集上單鹼基準確率和 F1 度量值提高了最多 5 個百分點,在 R10.4.1 資料集上提高了最多 0.82 個百分點。
  5. 此外,Rockfish 與全基因組亞硫酸鹽測序表現出高度相關性,所需的讀取深度較低,並且在計算效率高的同時對富含CpG 的啟動子等生物學重要區域具有更高的置信度。
  6. 它在人類和小鼠樣本中的優異表現凸顯了其在研究不同生物體和疾病中的 5-甲基胞嘧啶甲基化方面的多功能性。最後,其適應性架構確保與新版本的孔和化學以及修飾類型相容。

    基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化

  7. 圖示:基於 ONT 的工具與 WGBS 之間的相關性分析。 (資料來源:論文)

儘管如此,Rockfish 目前尚無法區分 5mC 和 5hmC 甲基化,這是由於缺乏高品質的其他類型修飾的對照資料集。模型在運算效率上仍有提升空間,未來可望透過架構和工程最佳化提高效率。

基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化Rockfish 證明了從 ONT 原始訊號中提取甲基化資訊的能力,其小型模型在所有資料集上表現更優,運行時間更短,展示了額外資料和知識蒸餾的優勢。

5mC 修飾與多種生物學現象相關,如轉錄調控、疾病、衰老等,因此透過單一鹼基分辨率的檢測深入理解DNA 甲基化的作用至關重要,可能有助於疾病的早期診斷和治療策略選擇。 Rockfish 的架構使其易於擴展到檢測各種類型的 DNA 和 RNA 修飾。

論文連結:https://www.nature.com/articles/s41467-024-49847-0

以上是基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn