作者| 中國科學院多元學科交叉研究團隊
編輯 | ScienceAI
被稱為20世紀人類三大科學計畫之一的人類基因組計劃,拉開了深度解析生命奧秘的序幕。由於生命過程具有多維度、高度動態的特點,傳統實驗研究手段難以系統精準地破解基因密碼的底層共性規律,亟需運用強大的計算技術來實現基因數據的表徵建模與知識發現。
目前,以大型模型為核心的人工智慧技術在電腦視覺和自然語言理解等領域引發了革命,展示了對數據和知識的深入理解能力,並有望應用於生命科學研究領域,系統地精準破解基因密碼的底層共性規律
近日,由中國科學院多學科交叉研究團隊組成的「指南針聯盟」(Xcompass Consortium)在人工智慧賦能生命科學研究方面取得了重要突破,成功建構了世界首個跨物種生命基礎大模型-GeneCompass。該模型整合了人類和小鼠超過1.26億個單細胞的轉錄組數據、融合了包括啟動子序列和基因共表達關係等四種先驗知識、基礎模型參數量達到1.3億,實現了對基因表達調控規律的全景式學習理解,同時支持細胞狀態變化預測及多種生命過程的精準分析,展現了人工智慧賦能生命科學研究的巨大潛力。
研究以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》為題,發佈在bioRxiv。
論文連結:https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
#另外,該團隊還同步發布了一個基於遷移學習的基因調控網絡生成模型, CellPolaris,該模型能夠準確識別細胞命運轉換核心因子,並具有轉錄因子擾動模擬能力。
研究以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》為題,發佈在bioRxiv上。
#GeneCompass:首個跨物種生命基礎大模型
#哺乳動物個體一般包含數萬到數十兆個細胞。儘管個體中的所有細胞都含有相同的基因序列,但是每個細胞的命運和功能卻因其獨特的時空背景而千差萬別。如此精密的生命過程是由複雜的基因表現調控系統所控制
為了增進對生命本質規律的理解,並創新各種重大疾病的診療手段,需要對生命普遍存在的基因調控機制進行深入探索。然而,傳統的研究方法通量低且局限於單一模式生物,無法揭示複雜的基因調控機制
近年來,單細胞組學技術的突破產生了大量不同類型細胞的基因表現譜數據,為解讀基因-基因交互作用提供了數據基礎。同時深度學習的發展,尤其是生成式大模型的出現,可以綜合匯總海量不同細胞狀態下的資料學習非線性調控機制,為生命科學研究帶來了前所未有的機會。
一個跨越物種的生命基礎大模型,包含了1.2億個細胞數量和1.3億個參數
目前,全世界範圍內在單一物種上已獲得的單細胞轉錄組資料規模僅為千萬個級別,難以充分支撐用於解析複雜生命過程的生命基礎大模型訓練。
該團隊收集了不同物種的單細胞轉錄組開源數據,經過篩選、清洗、均一化等預處理流程,建立了目前已知最大規模、包含小鼠和人類的超過1.26億細胞的高質量訓練資料集scCompass-126M;採用了基於Transformer自註意力機制的深度學習架構,可捕捉不同基因之間在不同細胞背景下的長程動態關聯關係,模型參數規模達1.3億。為實現針對生命過程的高解析度刻畫,GeneCompass首次將基因編號和表現量進行雙重編碼,以便能夠有效、靈敏地提取基因之間的關聯關係。這使得GeneCompass對各種特定條件,如細胞類型和擾動狀態的基因-基因交互作用提供更精準分析。
預訓練時嵌入先驗知識可有效提升模型表現
模型透過有效整合啟動子序列、已知基因調控網絡、基因家族資訊與基因共表達關係四種生物學先驗知識,加入人類註釋資訊編碼,提升了對生物資料間複雜特徵關聯關係的理解。透過訓練整合不同物種的資料資訊及先驗知識,GeneCompass有望提高傳統生物學研究的效率和精準性為尚無法突破的複雜生命科學難題帶來新的切入點。
規模效應提示模型訓練捕捉生物演化的保守規律
團隊發現,針對大規模跨物種資料進行預訓練的模型,在單一物種的子任務上符合尺度定律(scaling law):即較大規模的多物種預訓練資料能夠產生更好的預訓練表徵,並進一步提高下游任務的表現。這項發現表明,物種之間存在保守的基因調控規律,而這些規律可以被預訓練模型所學習和理解。同時,這也意味著隨著物種和資料的擴展,模型效能可望不斷提升
#多任務表現優勢展現基礎大模型強大泛化能力
作為迄今為止最大規模的、具有知識嵌入的跨物種預訓練生命基礎大模型,GeneCompass可實現多個跨物種下游任務的遷移學習,並在細胞類型註釋、定量基因擾動預測、藥物敏感性分析等方面,相比已有方法取得更優性能。這充分展示了基於多物種無標註大數據預訓練,再利用不同子任務數據進行模型微調的策略優勢,有望成為實現基因-細胞特徵相關聯的各種生物問題分析預測的通用解決方案。
細胞極化:遷移學習解碼基因調控網絡,預測細胞命運變化
利用遷移學習產生細胞特異的基因調控網絡
團隊也開發了一套基於泛化遷移學習的基因調控網絡建構AI模型,稱為CellPolaris。模型首先整理數百套匹配細胞場景下的轉錄組及染色質可及性數據,建構高品質的基因調控網絡,接著透過泛化遷移學習模型,僅使用轉錄組數據產生更多細胞場景下的基因調控網路。進而利用產生的高可信度基因調控網絡,開發了細胞命運轉換核心轉錄因子識別工具以及基於機率圖模型的轉錄因子擾動模擬工具。此模型能有效辨識細胞命運轉換核心因子,並實現轉錄因子擾動的模擬,在基因調控機制解析及致病基因發現方面均有重要應用價值。
##模擬胎盤發育過程中轉錄因子敲除對細胞命運的影響
CellPolaris模型產生的基因調控網絡,提供了豐富的分子相互作用信息,可以作為深度學習大模型的先驗知識。而深度學習大模型所產生的低維度嵌入向量,將為基因調控機制解析及致病基因發現提供重要資訊。
人工智慧
以上是中國科學院研究團隊發布了兩篇重要論文:首個跨物種生命基礎大模型問世,以及新型細胞命運預測AI模型的發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!