首頁  >  文章  >  科技週邊  >  多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

WBOY
WBOY原創
2024-06-10 22:21:12499瀏覽

多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

編輯| 蘿蔔芯

預訓練語言模型在分析核苷酸序列方面顯示出了良好的前景,但使用單一預訓練權重集在不同任務中表現出色的多功能模型仍存在挑戰。

百度大數據實驗室(Big Data Lab,BDL)和上海交通大學團隊開發了 RNAErnie,一個基於 Transformer 架構,以 RNA 為中心的預訓練模型。

研究人員用七個資料集和五個任務評估了模型,證明了 RNAErnie 在監督和無監督學習方面的優越性。

RNAErnie 超越了基線,分類準確率提高了 1.8%,交互預測準確率提高了 2.2%,結構預測 F1 得分提高了 3.3%,展現了它的穩健性和適應性。

研究以「Multi-purpose RNA language modelling with motif-aware pretraining and type-guided fine-tuning」為題,於2024 年5 月13 日發佈在《Nature Machine Intelligence》。

多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

RNA 在分子生物學的中心法則中扮演著關鍵角色,它負責將 DNA 中的遺傳訊息傳遞給蛋白質。

RNA 分子在基因表現、調控和催化等多種細胞過程中起著至關重要的作用。鑑於 RNA 在生物體系中的重要性,對 RNA 序列進行高效、準確的分析方法需求日益增長。

傳統的 RNA 序列分析依賴於如 RNA 定序和微陣列等實驗技術,但這些方法通常成本高昂、耗時且需要大量的 RNA 輸入。

為了回應這些挑戰,百度 BDL 和上海交通大學團隊開發了一種預先訓練的 RNA 語言模型:RNAErnie。

RNAErnie

該模型建立在知識整合增強表示(ERNIE)框架之上,並包含多層和多頭Transformer 區塊,每個Transformer 區塊的隱藏狀態維度為768。預訓練是使用一個廣泛的語料庫進行的,該語料庫由從 RNAcentral 精心挑選的約 2300 萬條 RNA 序列組成。

所提出的基序感知預訓練策略涉及基礎級掩蔽、子序列級掩蔽和基序級隨機掩蔽,它有效地捕獲了子序列和基序級知識,豐富了RNA序列的表示。

此外,RNAErnie 將粗粒化 RNA 類型標記為特殊詞彙表,並在預訓練期間將粗粒化 RNA 類型的標記附加在每個 RNA 序列的末端。透過這樣做,該模型有可能辨別各種 RNA 類型的獨特特徵,從而促進域適應各種下游任務。

多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

圖示:模型概述。 (資料來源:論文)

具體來說,RNAErnie 模型由 12 個 Transformer 層組成。在主題感知預訓練階段,RNAErnie 在從 RNAcentral 資料庫中提取的大約 2300 萬個序列的資料集上進行訓練,使用自我監督學習和主題感知多層次隨機遮罩。

多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

圖示:主題感知預訓練與型別引導微調策略。 (資料來源:論文)

在類型引導的微調階段,RNAErnie 首先使用輸出嵌入預測可能的粗粒度 RNA 類型,然後利用預測的類型作為輔助訊息,透過特定於任務的頭來微調模型。

這種方法使模型能夠適應各種 RNA 類型,並增強其在廣泛的 RNA 分析任務中的實用性。

更具體地說,為了適應預訓練資料集和目標域之間的分佈變化,RNAErnie 利用域適應將預訓練主幹與三種神經架構中的下游模組組合在一起:具有可訓練頭部的凍結骨幹(FBTH)、具有可訓練頭的可訓練骨幹網路(TBTH)和用於類型引導微調的堆疊(STACK)。

透過這種方式,所提出的方法可以端到端優化主幹和特定於任務的頭,或者使用從凍結主幹中提取的嵌入來微調特定於任務的頭,具體取決於下游應用。

效能評估

多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

圖示:RNAErnie 捕捉多層本體模式。 (資料來源:論文)

研究人員評估了該方法,結果顯示RNAErnie 在七個RNA 序列資料集(涵蓋超過17,000 個主要RNA 基序、20 個RNA 類型和50,000 個RNA 序列)中優於現有先進技術。

多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊

圖示:RNAErnie 使用 ArchiveII600 和 TS0 資料集在 RNA 二級結構預測任務上的表現。 (資料來源:論文)

使用 30 種主流 RNA 定序技術進行評估,證明了 RNAErnie 的泛化性和穩健性。團隊採用準確度、精確度、召回率、F1 分數、MCC 和 AUC 作為評估指標,確保 RNA 序列分析方法的公平比較。

目前,將具有增強外部知識的 Transformer 架構應用於 RNA 序列資料分析的研究很少。從頭開始的 RNAErnie 框架整合了 RNA 序列嵌入和自我監督學習策略,為下游 RNA 任務帶來卓越的表現、可解釋性和泛化潛力。

此外,RNAErnie 還可以透過修改輸出和監控訊號來適應其他任務。 RNAErnie 是公開可用的,是理解類型引導 RNA 分析和高階應用的有效工具。

限制

雖然 RNAErnie 模型在 RNA 序列分析方面有所創新,但仍面臨一些挑戰。

首先,該模型受到它可以分析的 RNA 序列大小的限制,因為長度超過 512 個核苷酸的序列會被丟棄,可能會忽略重要的結構和功能資訊。為處理較長序列而開發的分塊方法可能會導致有關遠程相互作用的資訊進一步遺失。

其次,這項研究的重點很窄,僅集中在 RNA 結構域上,沒有擴展到 RNA 蛋白質預測或結合位點識別等任務。此外,該模型在考慮 RNA 的三維結構基序(例如環和連接點)時遇到了困難,而這對於理解 RNA 功能至關重要。

更重要的是,現有的事後架構設計也有潛在的限制。

結語

儘管如此,RNAErnie 在推進 RNA 分析方面擁有巨大潛力。該模型在不同的下游任務中展示了其作為通用解決方案的多功能性和有效性。

此外,RNAErnie 採用的創新策略有望增強其他預訓練模型在 RNA 分析中的表現。這些發現使 RNAErnie 成為一項寶貴的資產,為研究人員提供了一個強大的工具來解開 RNA 相關研究的複雜性。

論文連結:https://www.nature.com/articles/s42256-024-00836-4

#

以上是多功能RNA分析,百度團隊以Transformer的RNA語言模式登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn