
作者 | 中国科学院多学科交叉研究团队
编辑 | ScienceAI
被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度解析生命奥秘的序幕。由于生命过程具有多维度、高度动态的特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律,亟需运用强大的计算技术来实现基因数据的表征建模与知识发现。
当前,以大型模型为核心的人工智能技术在计算机视觉和自然语言理解等领域引发了革命,展示了对数据和知识的深入理解能力,有望应用于生命科学研究领域,系统地精准破解基因密码的底层共性规律
近日,由中国科学院多学科交叉研究团队组成的“指南针联盟”(Xcompass Consortium)在人工智能赋能生命科学研究方面取得了重要突破,成功构建了世界首个跨物种生命基础大模型——GeneCompass。 该模型集成了人和小鼠超过1.26亿个单细胞的转录组数据、融合了包括启动子序列和基因共表达关系等四种先验知识、基础模型参数量达到1.3亿,实现了对基因表达调控规律的全景式学习理解,同时支持细胞状态变化预测及多种生命过程的精准分析,展示了人工智能赋能生命科学研究的巨大潜力。
该研究以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》为题,发布在bioRxiv上。
论文链接:https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
另外,该团队还同步发布了一个基于迁移学习的基因调控网络生成模型, CellPolaris,该模型能够准确识别细胞命运转换核心因子,并具有转录因子扰动模拟能力。
该研究以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》为题,发布在bioRxiv上。
GeneCompass:首个跨物种生命基础大模型
哺乳动物个体一般包含数万到数十万亿个细胞。尽管个体中的所有细胞均含有相同的基因序列,但是每个细胞的命运和功能却因其独特的时空背景而千差万别。如此精密的生命过程是由复杂的基因表达调控系统所控制
为了增进对生命本质规律的理解,并创新各种重大疾病的诊疗手段,需要对生命普遍存在的基因调控机制进行深入探索。然而,传统的研究方法通量低且局限于单个模式生物,无法揭示复杂的基因调控机制
近年来,单细胞组学技术的突破产生了大量不同类型细胞的基因表达谱数据,为解读基因-基因相互作用提供了数据基础。同时深度学习的发展,尤其是生成式大模型的出现,可以综合汇总海量不同细胞状态下的数据学习非线性调控机制,为生命科学研究带来了前所未有的机遇。
一个跨越物种的生命基础大模型,包含了1.2亿个细胞数量和1.3亿个参数
目前,全世界范围内在单一物种上已获得的单细胞转录组数据规模仅为千万级别,难以充分支撑用于解析复杂生命过程的生命基础大模型训练。
该团队收集了不同物种的单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,建立了目前已知最大规模、包含小鼠和人类的超过1.26亿细胞的高质量训练数据集scCompass-126M;采用了基于Transformer自注意力机制的深度学习架构,可捕获不同基因之间在不同细胞背景下的长程动态关联关系,模型参数规模达1.3亿。为实现针对生命过程的高分辨率刻画,GeneCompass首次将基因编号和表达量进行双重编码,从而能够有效、灵敏地提取基因之间的关联关系。这使GeneCompass对各种特定条件,如细胞类型和扰动状态的基因-基因相互作用提供更加精准分析。
预训练时嵌入先验知识可有效提升模型性能
模型通过有效整合启动子序列、已知基因调控网络、基因家族信息和基因共表达关系四种生物学先验知识,加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的理解。通过训练整合不同物种的数据信息及先验知识,GeneCompass有望提高传统生物学研究的效率和精准性为尚无法突破的复杂生命科学难题带来新的切入点。
规模效应提示模型训练捕捉生物进化的保守规律
团队发现,针对大规模跨物种数据进行预训练的模型,在单一物种的子任务上符合尺度定律(scaling law):即较大规模的多物种预训练数据能够产生更好的预训练表征,并进一步提高下游任务的性能。这一发现表明,物种之间存在保守的基因调控规律,并且这些规律可以被预训练模型所学习和理解。同时,这也意味着随着物种和数据的扩展,模型性能有望不断提升
多任务性能优势展现基础大模型强大泛化能力
作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型,GeneCompass可实现多个跨物种下游任务的迁移学习,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等方面,相比已有方法取得更优性能。这充分展示了基于多物种无标注大数据预训练,再利用不同子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。
细胞极化:迁移学习解码基因调控网络,预测细胞命运变化
利用迁移学习生成细胞特异的基因调控网络
团队还开发了一套基于泛化迁移学习的基因调控网络构建AI模型,称为CellPolaris。模型首先整理数百套匹配细胞场景下的转录组及染色质可及性数据,构建高质量的基因调控网络,随后通过泛化迁移学习模型,仅使用转录组数据生成更多细胞场景下的基因调控网络。进而利用生成的高可信度基因调控网络,开发了细胞命运转换核心转录因子识别工具以及基于概率图模型的转录因子扰动模拟工具。该模型能够有效识别细胞命运转换核心因子,并实现转录因子扰动的模拟,在基因调控机制解析及致病基因发现方面均有重要应用价值。
CellPolaris模型产生的基因调控网络,提供了丰富的分子相互作用信息,可以作为深度学习大模型的先验知识。而深度学习大模型产生的低维嵌入向量,将为基因调控机制解析及致病基因发现提供重要信息。
上述两项研究由“指南针联盟”团队完成,“指南针联盟”团队目前主要由中国科学院动物研究所联合计算机网络信息中心,自动化研究所,计算技术研究所,数学与系统科学研究院等组成,联盟的目标是建立数智驱动的生命科学研究新范式,解析生命的本质规律。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
以上是中国科学院研究团队发布了两篇重要论文:首个跨物种生命基础大模型问世,以及新型细胞命运预测AI模型的发布的详细内容。更多信息请关注PHP中文网其他相关文章!

大型语言模型(LLMS)的流行激增,工具称呼功能极大地扩展了其功能,而不是简单的文本生成。 现在,LLM可以处理复杂的自动化任务,例如Dynamic UI创建和自主a

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

“历史表明,尽管技术进步推动了经济增长,但它并不能自行确保公平的收入分配或促进包容性人类发展,”乌托德秘书长Rebeca Grynspan在序言中写道。

易于使用,使用生成的AI作为您的谈判导师和陪练伙伴。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括识别和解释

在温哥华举行的TED2025会议昨天在4月11日举行了第36版。它有来自60多个国家 /地区的80个发言人,包括Sam Altman,Eric Schmidt和Palmer Luckey。泰德(Ted)的主题“人类重新构想”是量身定制的

约瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的经济学家,是诺贝尔经济奖的获得者。斯蒂格利茨认为,AI可能会使现有的不平等和合并权力恶化,并在几个主导公司的手中加剧,最终破坏了经济的经济。

图数据库:通过关系彻底改变数据管理 随着数据的扩展及其特征在各个字段中的发展,图形数据库正在作为管理互连数据的变革解决方案的出现。与传统不同

大型语言模型(LLM)路由:通过智能任务分配优化性能 LLM的快速发展的景观呈现出各种各样的模型,每个模型都具有独特的优势和劣势。 有些在创意内容gen上表现出色


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 Linux新版
SublimeText3 Linux最新版

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中