
作者 | 中国科学院多学科交叉研究团队
编辑 | ScienceAI
被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度解析生命奥秘的序幕。由于生命过程具有多维度、高度动态的特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律,亟需运用强大的计算技术来实现基因数据的表征建模与知识发现。
当前,以大型模型为核心的人工智能技术在计算机视觉和自然语言理解等领域引发了革命,展示了对数据和知识的深入理解能力,有望应用于生命科学研究领域,系统地精准破解基因密码的底层共性规律
近日,由中国科学院多学科交叉研究团队组成的“指南针联盟”(Xcompass Consortium)在人工智能赋能生命科学研究方面取得了重要突破,成功构建了世界首个跨物种生命基础大模型——GeneCompass。 该模型集成了人和小鼠超过1.26亿个单细胞的转录组数据、融合了包括启动子序列和基因共表达关系等四种先验知识、基础模型参数量达到1.3亿,实现了对基因表达调控规律的全景式学习理解,同时支持细胞状态变化预测及多种生命过程的精准分析,展示了人工智能赋能生命科学研究的巨大潜力。
该研究以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》为题,发布在bioRxiv上。
论文链接:https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
另外,该团队还同步发布了一个基于迁移学习的基因调控网络生成模型, CellPolaris,该模型能够准确识别细胞命运转换核心因子,并具有转录因子扰动模拟能力。
该研究以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》为题,发布在bioRxiv上。
GeneCompass:首个跨物种生命基础大模型
哺乳动物个体一般包含数万到数十万亿个细胞。尽管个体中的所有细胞均含有相同的基因序列,但是每个细胞的命运和功能却因其独特的时空背景而千差万别。如此精密的生命过程是由复杂的基因表达调控系统所控制
为了增进对生命本质规律的理解,并创新各种重大疾病的诊疗手段,需要对生命普遍存在的基因调控机制进行深入探索。然而,传统的研究方法通量低且局限于单个模式生物,无法揭示复杂的基因调控机制
近年来,单细胞组学技术的突破产生了大量不同类型细胞的基因表达谱数据,为解读基因-基因相互作用提供了数据基础。同时深度学习的发展,尤其是生成式大模型的出现,可以综合汇总海量不同细胞状态下的数据学习非线性调控机制,为生命科学研究带来了前所未有的机遇。
一个跨越物种的生命基础大模型,包含了1.2亿个细胞数量和1.3亿个参数
目前,全世界范围内在单一物种上已获得的单细胞转录组数据规模仅为千万级别,难以充分支撑用于解析复杂生命过程的生命基础大模型训练。
该团队收集了不同物种的单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,建立了目前已知最大规模、包含小鼠和人类的超过1.26亿细胞的高质量训练数据集scCompass-126M;采用了基于Transformer自注意力机制的深度学习架构,可捕获不同基因之间在不同细胞背景下的长程动态关联关系,模型参数规模达1.3亿。为实现针对生命过程的高分辨率刻画,GeneCompass首次将基因编号和表达量进行双重编码,从而能够有效、灵敏地提取基因之间的关联关系。这使GeneCompass对各种特定条件,如细胞类型和扰动状态的基因-基因相互作用提供更加精准分析。
预训练时嵌入先验知识可有效提升模型性能
模型通过有效整合启动子序列、已知基因调控网络、基因家族信息和基因共表达关系四种生物学先验知识,加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的理解。通过训练整合不同物种的数据信息及先验知识,GeneCompass有望提高传统生物学研究的效率和精准性为尚无法突破的复杂生命科学难题带来新的切入点。
规模效应提示模型训练捕捉生物进化的保守规律
团队发现,针对大规模跨物种数据进行预训练的模型,在单一物种的子任务上符合尺度定律(scaling law):即较大规模的多物种预训练数据能够产生更好的预训练表征,并进一步提高下游任务的性能。这一发现表明,物种之间存在保守的基因调控规律,并且这些规律可以被预训练模型所学习和理解。同时,这也意味着随着物种和数据的扩展,模型性能有望不断提升
多任务性能优势展现基础大模型强大泛化能力
作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型,GeneCompass可实现多个跨物种下游任务的迁移学习,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等方面,相比已有方法取得更优性能。这充分展示了基于多物种无标注大数据预训练,再利用不同子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。
细胞极化:迁移学习解码基因调控网络,预测细胞命运变化
利用迁移学习生成细胞特异的基因调控网络
团队还开发了一套基于泛化迁移学习的基因调控网络构建AI模型,称为CellPolaris。模型首先整理数百套匹配细胞场景下的转录组及染色质可及性数据,构建高质量的基因调控网络,随后通过泛化迁移学习模型,仅使用转录组数据生成更多细胞场景下的基因调控网络。进而利用生成的高可信度基因调控网络,开发了细胞命运转换核心转录因子识别工具以及基于概率图模型的转录因子扰动模拟工具。该模型能够有效识别细胞命运转换核心因子,并实现转录因子扰动的模拟,在基因调控机制解析及致病基因发现方面均有重要应用价值。
CellPolaris模型产生的基因调控网络,提供了丰富的分子相互作用信息,可以作为深度学习大模型的先验知识。而深度学习大模型产生的低维嵌入向量,将为基因调控机制解析及致病基因发现提供重要信息。
上述两项研究由“指南针联盟”团队完成,“指南针联盟”团队目前主要由中国科学院动物研究所联合计算机网络信息中心,自动化研究所,计算技术研究所,数学与系统科学研究院等组成,联盟的目标是建立数智驱动的生命科学研究新范式,解析生命的本质规律。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
以上是中国科学院研究团队发布了两篇重要论文:首个跨物种生命基础大模型问世,以及新型细胞命运预测AI模型的发布的详细内容。更多信息请关注PHP中文网其他相关文章!
![无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

SublimeText3汉化版
中文版,非常好用