搜尋
首頁科技週邊人工智慧開源!港中文、MIT、復旦提出首個RNA基石模型

不同於蛋白質領域,RNA 領域的研究往往缺乏充足的標註數據,例如 3D 數據只有 1000 多個 RNA。這極大地限制了機器學習方法在 RNA 結構功能預測任務中的發展。

為了彌補標註資料的不足,本文展示了一項可為RNA 各類研究提供豐富結構功能知識的基石模型—RNA foundation model ( RNA-FM)。作為全球首個基於 23 million 的無標籤 RNA 序列透過無監督方式訓練所得的 RNA 基石模型,RNA-FM 挖掘出了 RNA 序列中蘊含的演化和結構模式。

值得注意的是,RNA-FM 只需要配比簡單的下游模型,或僅提供embedding,就能夠在許多下游任務中獲得遠超SOTA 的表現,例如在二級結構預測中可以提升20%,距離圖預測可以提升30%。大規模的實驗證明,模型具有極強的泛化性,甚至可用於 COVID-19 以及 mRNA 的調控片段。

開源!港中文、MIT、復旦提出首個RNA基石模型

  • #論文預印本:https://arxiv. org/abs/2204.00300
  • #程式碼與模型:https://github.com/ml4bio/RNA-FM
  • #Server: https://proj.cse.cuhk.edu.hk/rnafm
##引言

近年來,基於深度學習的生物計算方法在蛋白質領域取得了突破性的進展,其中最著名的里程碑當屬谷歌DeepMind 團隊研發的端到端蛋白質3D 結構預測框架AlphaFold2。然而蛋白質只是許多生物分子的一種,基因(DNA/RNA)作為蛋白質的產生源頭,其相較於後者蘊含了更多的基礎訊息,有著更重要的研究價值。

一般而言,蛋白質是由用於編碼(coding)的 RNA,也就是 mRNA,翻譯得到的產物,一段固定的 mRNA 可以翻譯為一段固定的蛋白質序列。而實際上這部分用於編碼的 RNA 只佔所有 RNA 序列的 2%,剩下的 98% 是非編碼 RNA(non-coding RNA,ncRNA)。雖然 ncRNA 不會直接 「翻譯」 成蛋白質,但是他們會折疊成具有特定功能的三級結構,在 mRNA 的翻譯過程中或是其他生物機能中起到調控的作用。因此,分析 ncRNA 的結構以及功能是比蛋白質分析更為基礎,也更為複雜的研究。

不過比起計算方法較為成熟的蛋白質領域,目前基於RNA 的結構和功能預測仍處於初期,而原本適用於蛋白質領域的計算方法也很難直接遷移到RNA 領域。限制這些計算方法的主要是 RNA 數據的標註通常獲取很難,需要耗費很多的實驗資源和時間才能完成少量數據的標註,而計算方法大多又需要大量的標註數據進行監督才能發揮高效能。雖然有標註的數據不多,但 RNA 領域其實也累積了許多無標註序列的數據。本文的方法便是利用這些無標籤的數據為各種下游任務提供額外的有效資訊。

基於這個考慮,港中文、MIT、復旦及上海人工智慧實驗室團隊提出了一個以無監督方式在23million 的無標籤純RNA 序列上訓練的基石模式RNA foundation model (RNA-FM)。雖然數據在訓練過程中沒有提供標註訊息,但是 RNA-FM 仍以無監督的方式挖掘出了這些 RNA 序列蘊含著的進化和結構模式。

如果能夠有效地將RNA-FM 應用於下游的RNA 結構和功能預測任務中,這些計算方法必將受益於RNA-FM 歸納所得到的知識,進而實現性能表現上的提升。 RNA-FM 的上游預訓練以及下游的遷移和應用架構如下圖所示。

開源!港中文、MIT、復旦提出首個RNA基石模型

 研究概覽

#為了確認預訓練的RNA-FM 是否從大量的無標籤資料中學到了「知識」 以及學到了怎樣的“知識”,文章對embedding 進行了一系列的分析

首先是直接透過UMAP 對各種特徵進行簡單聚類比較,發現來自預訓練RNA-FM 的embedding 比其他embedding 形成了具有更明顯的RNA 種類聚落。這意味著 RNA-FM 的 embedding 確實包含了用於區分 RNA 種類的結構或功能資訊。

接著,文章也利用軌跡推論(Trajectory inference)透過 RNA-FM embedding 去預測來自不同物種的 lncRNA 的演化。從下圖 streamplot 上看,預測的物種之間演化的偽時間大致與真實的物種演化資訊一致,說明 RNA-FM embedding 也包含一部分演化資訊。

值得注意的是,無論是 RNA 種類的群落資訊或是 lncRNA 的演化訊息,RNA-FM 在訓練中都沒有直接接觸過這些的標籤。 RNA-FM 完全是以自監督的方式只從純序列中發掘出了與結構、功能以及演化相關的模式

開源!港中文、MIT、復旦提出首個RNA基石模型


更多實驗結果

除了直接對RNA-FM 的embedding 進行分析,文章也嘗試將RNA-FM 引入各種各樣的下游RNA 結構預測任務,包括二級結構、接觸預測,距離預測,以及三級結構預測,都取得了明顯的提升

尤其是在二級結構預測上,文章以RNA-FM 作為主幹,僅以一個簡單的ResNet 網路作為下游模型,就在兩個公開資料集上超過了其他12 種state-of-the-art 方法,在F1score 上優於其中最好的UFold 達3-5 百分點,在與UFold 的head-to-head 比較中,RNA-FM 在絕大部分的RNA 類別上都超過UFold。如果將 RNA-FM 和 E2Efold 結合,還可以進一步帶來 5% 的表現提升。

開源!港中文、MIT、復旦提出首個RNA基石模型

  為了驗證模型的實際應用價值,文章利用RNA-FM 對COVID-19 資料進行完善的分析,包括利用RNA-FM 精確預測COVID-19 參考基因組(29870 nt)中關鍵調控元件,以及利用RNA-FM embedding 粗略預測COVID-19 主要變種的演化趨勢。 開源!港中文、MIT、復旦提出首個RNA基石模型

一般而言,分子的結構決定功能,RNA-FM 既然可以出色地完成RNA 結構預測任務,那麼是否能夠利用RNA-FM 也提升功能預測的結果呢?

因此,文章進一步嘗試將RNA-FM 引入下游的RNA 功能預測任務中,例如利用RNA-FM 的embedding 進行RNA - 蛋白質作用的預測。

實驗證明,RNA-FM embedding 的引入提升了模型的性能,並且在一些例子中竟然達到了匹配真實二級結構資訊作為輸入的預測結果。

開源!港中文、MIT、復旦提出首個RNA基石模型

為了探究基於ncRNA 訓練的RNA-FM 是否可以泛化到其他RNA 上,文章最後嘗試利用RNA -FM 基於mRNA 上的5'UTR 進行蛋白質表現的功能預測。雖然 mRNA 不屬於 ncRNA,但其上的 5‘UTR 是不翻譯但具有調控功能的區域,符合 ncRNA 的特點,且未出現在訓練資料中。

從下圖可以看到,包含 RNA-FM embedding 的模型總是優於不包含的模型。儘管在性能上的提升比較有限,但也部分說明 RNA-FM 在非 ncRNA 的數據上也具有一定的泛化性。

開源!港中文、MIT、復旦提出首個RNA基石模型

#

 結論

總的來說,文章以無標籤的RNA 序列資料預先訓練語言模型RNA-FM,並透過直接或間接的方式,在結構或功能等一系列在不同的任務上進行全面的驗證,證明了RNA-FM 確實可以有效地提升計算方法在下游任務中的表現。

RNA-FM 的出現一定程度上緩解了RNA 帶標註數據緊張的現狀,為其他研究者提供了便捷的訪問大批量的無標籤數據的接口,其將以RNA 領域基礎模型的身份,為本領域的各種各樣的研究提供強而有力的支持與幫助。

作者簡介

本文有兩位共同第一作者。陳佳陽,香港中文大學研究助理。胡智航,香港中文大學就讀博士生。

本文有兩位通訊作者。孫思琦,復旦大學智慧複雜體系實驗室和上海人工智慧實驗室青年研究員,首頁 https://intersun.github.io

李煜,香港中文大學助理教授,MIT James Collins Lab 訪問助理教授,Broad Institute of MIT and Harvard 研究科學家,哈佛大學Wyss Institute 訪問學者,Forbes 30 Under 30 Asia list–Class of 2022, Healthcare & Science。首頁:https://liyu95.com。

以上是開源!港中文、MIT、復旦提出首個RNA基石模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具