
作者| 中國科學院多元學科交叉研究團隊
編輯 | ScienceAI
被稱為20世紀人類三大科學計畫之一的人類基因組計劃,拉開了深度解析生命奧秘的序幕。由於生命過程具有多維度、高度動態的特點,傳統實驗研究手段難以系統精準地破解基因密碼的底層共性規律,亟需運用強大的計算技術來實現基因數據的表徵建模與知識發現。
目前,以大型模型為核心的人工智慧技術在電腦視覺和自然語言理解等領域引發了革命,展示了對數據和知識的深入理解能力,並有望應用於生命科學研究領域,系統地精準破解基因密碼的底層共性規律
近日,由中國科學院多學科交叉研究團隊組成的「指南針聯盟」(Xcompass Consortium)在人工智慧賦能生命科學研究方面取得了重要突破,成功建構了世界首個跨物種生命基礎大模型-GeneCompass。該模型整合了人類和小鼠超過1.26億個單細胞的轉錄組數據、融合了包括啟動子序列和基因共表達關係等四種先驗知識、基礎模型參數量達到1.3億,實現了對基因表達調控規律的全景式學習理解,同時支持細胞狀態變化預測及多種生命過程的精準分析,展現了人工智慧賦能生命科學研究的巨大潛力。
研究以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》為題,發佈在bioRxiv。
論文連結:https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
#另外,該團隊還同步發布了一個基於遷移學習的基因調控網絡生成模型, CellPolaris,該模型能夠準確識別細胞命運轉換核心因子,並具有轉錄因子擾動模擬能力。
研究以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》為題,發佈在bioRxiv上。
#GeneCompass:首個跨物種生命基礎大模型
#哺乳動物個體一般包含數萬到數十兆個細胞。儘管個體中的所有細胞都含有相同的基因序列,但是每個細胞的命運和功能卻因其獨特的時空背景而千差萬別。如此精密的生命過程是由複雜的基因表現調控系統所控制
為了增進對生命本質規律的理解,並創新各種重大疾病的診療手段,需要對生命普遍存在的基因調控機制進行深入探索。然而,傳統的研究方法通量低且局限於單一模式生物,無法揭示複雜的基因調控機制
近年來,單細胞組學技術的突破產生了大量不同類型細胞的基因表現譜數據,為解讀基因-基因交互作用提供了數據基礎。同時深度學習的發展,尤其是生成式大模型的出現,可以綜合匯總海量不同細胞狀態下的資料學習非線性調控機制,為生命科學研究帶來了前所未有的機會。
一個跨越物種的生命基礎大模型,包含了1.2億個細胞數量和1.3億個參數
目前,全世界範圍內在單一物種上已獲得的單細胞轉錄組資料規模僅為千萬個級別,難以充分支撐用於解析複雜生命過程的生命基礎大模型訓練。
該團隊收集了不同物種的單細胞轉錄組開源數據,經過篩選、清洗、均一化等預處理流程,建立了目前已知最大規模、包含小鼠和人類的超過1.26億細胞的高質量訓練資料集scCompass-126M;採用了基於Transformer自註意力機制的深度學習架構,可捕捉不同基因之間在不同細胞背景下的長程動態關聯關係,模型參數規模達1.3億。為實現針對生命過程的高解析度刻畫,GeneCompass首次將基因編號和表現量進行雙重編碼,以便能夠有效、靈敏地提取基因之間的關聯關係。這使得GeneCompass對各種特定條件,如細胞類型和擾動狀態的基因-基因交互作用提供更精準分析。
預訓練時嵌入先驗知識可有效提升模型表現
模型透過有效整合啟動子序列、已知基因調控網絡、基因家族資訊與基因共表達關係四種生物學先驗知識,加入人類註釋資訊編碼,提升了對生物資料間複雜特徵關聯關係的理解。透過訓練整合不同物種的資料資訊及先驗知識,GeneCompass有望提高傳統生物學研究的效率和精準性為尚無法突破的複雜生命科學難題帶來新的切入點。
規模效應提示模型訓練捕捉生物演化的保守規律
團隊發現,針對大規模跨物種資料進行預訓練的模型,在單一物種的子任務上符合尺度定律(scaling law):即較大規模的多物種預訓練資料能夠產生更好的預訓練表徵,並進一步提高下游任務的表現。這項發現表明,物種之間存在保守的基因調控規律,而這些規律可以被預訓練模型所學習和理解。同時,這也意味著隨著物種和資料的擴展,模型效能可望不斷提升
#多任務表現優勢展現基礎大模型強大泛化能力
作為迄今為止最大規模的、具有知識嵌入的跨物種預訓練生命基礎大模型,GeneCompass可實現多個跨物種下游任務的遷移學習,並在細胞類型註釋、定量基因擾動預測、藥物敏感性分析等方面,相比已有方法取得更優性能。這充分展示了基於多物種無標註大數據預訓練,再利用不同子任務數據進行模型微調的策略優勢,有望成為實現基因-細胞特徵相關聯的各種生物問題分析預測的通用解決方案。
細胞極化:遷移學習解碼基因調控網絡,預測細胞命運變化
利用遷移學習產生細胞特異的基因調控網絡
團隊也開發了一套基於泛化遷移學習的基因調控網絡建構AI模型,稱為CellPolaris。模型首先整理數百套匹配細胞場景下的轉錄組及染色質可及性數據,建構高品質的基因調控網絡,接著透過泛化遷移學習模型,僅使用轉錄組數據產生更多細胞場景下的基因調控網路。進而利用產生的高可信度基因調控網絡,開發了細胞命運轉換核心轉錄因子識別工具以及基於機率圖模型的轉錄因子擾動模擬工具。此模型能有效辨識細胞命運轉換核心因子,並實現轉錄因子擾動的模擬,在基因調控機制解析及致病基因發現方面均有重要應用價值。
##模擬胎盤發育過程中轉錄因子敲除對細胞命運的影響
CellPolaris模型產生的基因調控網絡,提供了豐富的分子相互作用信息,可以作為深度學習大模型的先驗知識。而深度學習大模型所產生的低維度嵌入向量,將為基因調控機制解析及致病基因發現提供重要資訊。
人工智慧
以上是中國科學院研究團隊發布了兩篇重要論文:首個跨物種生命基礎大模型問世,以及新型細胞命運預測AI模型的發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!