新闻中心
中国科学院研究团队发布了两篇重要论文:首个跨物种生命基础大模型问世,以及新型细胞命运预测AI模型的发布

作者 | 中国科学院多学科交叉研究团队
编辑 | ScienceAI
被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度解析生命奥秘的序幕。由于生命过程具有多维度、高度动态的特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律,亟需运用强大的计算技术来实现基因数据的表征建模与知识发现。
当前,以大型模型为核心的人工智能技术在计算机视觉和自然语言理解等领域引发了革命,展示了对数据和知识的深入理解能力,有望应用于生命科学研究领域,系统地精准破解基因密码的底层共性规律
近日,由中国科学院多学科交叉研究团队组成的“指南针联盟”(Xcompass Consortium)在人工智能赋能生命科学研究方面取得了重要突破,成功构建了世界首个跨物种生命基础大模型——GeneCompass。 该模型集成了人和小鼠超过1.26亿个单细胞的转录组数据、融合了包括启动子序列和基因共表达关系等四种先验知识、基础模型参数量达到1.3亿,实现了对基因表达调控规律的全景式学习理解,同时支持细胞状态变化预测及多种生命过程的精准分析,展示了人工智能赋能生命科学研究的巨大潜力。
该研究以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》为题,发布在bioRxiv上。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接:https://www.biorxiv.org/content/10.1101/
2025.09.26.559542v1
另外,该团队还同步发布了一个基于迁移学习的基因调控网络生成模型, CellPolaris,该模型能够准确识别细胞命运转换核心因子,并具有转录因子扰动模拟能力。
该研究以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》为题,发布在bioRxiv上。

GeneCompass:首个跨物种生命基础大模型

哺乳动物个体一般包含数万到数十万亿个细胞。尽管个体中的所有细胞均含有相同的基因序列,但是每个细胞的命运和功能却因其独特的时空背景而千差万别。如此精密的生命过程是由复杂的基因表达调控系统所控制
为了增进对生命本质规律的理解,并创新各种重大疾病的诊疗手段,需要对生命普遍存在的基因调控机制进行深入探索。然而,传统的研究方法通量低且局限于单个模式生物,无法揭示复杂的基因调控机制
近年来,单细胞组学技术的突破产生了大量不同类型细胞的基因表达谱数据,为解读基因-基因相互作用提供了数据基础。同时深度学习的发展,尤其是生成式大模型的出现,可以综合汇总海量不同细胞状态下的数据学习非线性调控机制,为生命科学研究带来了前所未有的机遇。
一个跨越物种的生命基础大模型,包含了1.2亿个细胞数量和1.3亿个参数
目前,全世界范围内在单一物种上已获得的单细胞转录组数据规模仅为千万级别,难以充分支撑用于解析复杂生命过程的生命基础大模型训练。
Glean
Glean是一个专为企业团队设计的AI搜索和知识发现工具
210
查看详情
该团队收集了不同物种的单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,建立了目前已知最大规模、包含小鼠和人类的超过1.26亿细胞的高质量训练数据集scCompass-126M;采用了基于Transformer自注意力机制的深度学习架构,可捕获不同基因之间在不同细胞背景下的长程动态关联关系,模型参数规模达1.3亿。为实现针对生命过程的高分辨率刻画,GeneCompass首次将基因编号和表达量进行双重编码,从而能够有效、灵敏地提取基因之间的关联关系。这使GeneCompass对各种特定条件,如细胞类型和扰动状态的基因-基因相互作用提供更加精准分析。
预训练时嵌入先验知识可有效提升模型性能
模型通过有效整合启动子序列、已知基因调控网络、基因家族信息和基因共表达关系四种生物学先验知识,加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的理解。通过训练整合不同物种的数据信息及先验知识,GeneCompass有望提高传统生物学研究的效率和精准性为尚无法突破的复杂生命科学难题带来新的切入点。

规模效应提示模型训练捕捉生物进化的保守规律
团队发现,针对大规模跨物种数据进行预训练的模型,在单一物种的子任务上符合尺度定律(scaling law):即较大规模的多物种预训练数据能够产生更好的预训练表征,并进一步提高下游任务的性能。这一发现表明,物种之间存在保守的基因调控规律,并且这些规律可以被预训练模型所学习和理解。同时,这也意味着随着物种和数据的扩展,模型性能有望不断提升

多任务性能优势展现基础大模型强大泛化能力
作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型,GeneCompass可实现多个跨物种下游任务的迁移学习,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等方面,相比已有方法取得更优性能。这充分展示了基于多物种无标注大数据预训练,再利用不同子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。

细胞极化:迁移学习解码基因调控网络,预测细胞命运变化
利用迁移学习生成细胞特异的基因调控网络
团队还开发了一套基于泛化迁移学习的基因调控网络构建AI模型,称为CellPolaris。模型首先整理数百套匹配细胞场景下的转录组及染色质可及性数据,构建高质量的基因调控网络,随后通过泛化迁移学习模型,仅使用转录组数据生成更多细胞场景下的基因调控网络。进而利用生成的高可信度基因调控网络,开发了细胞命运转换核心转录因子识别工具以及基于概率图模型的转录因子扰动模拟工具。该模型能够有效识别细胞命运转换核心因子,并实现转录因子扰动的模拟,在基因调控机制解析及致病基因发现方面均有重要应用价值。
CellPolaris模型产生的基因调控网络,提供了丰富的分子相互作用信息,可以作为深度学习大模型的先验知识。而深度学习大模型产生的低维嵌入向量,将为基因调控机制解析及致病基因发现提供重要信息。
上述两项研究由“指南针联盟”团队完成,“指南针联盟”团队目前主要由中国科学院动物研究所联合计算机网络信息中心,自动化研究所,计算技术研究所,数学与系统科学研究院等组成,联盟的目标是建立数智驱动的生命科学研究新范式,解析生命的本质规律。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
以上就是中国科学院研究团队发布了两篇重要论文:首个跨物种生命基础大模型问世,以及新型细胞命运预测AI模型的发布的详细内容,更多请关注其它相关文章!
# 腾讯
# seo招聘佛山
# 陕西seo内容页优化
# 营销推广案例范文怎么写
# seo自然排名怎么设置
# 广汉市企业营销推广
# 如何完成seo转化
# 网站建设300字心得
# seo花样跳绳教学
# 网站建设排名知识分享
# 淘宝店微博推广营销方案
# 入门
# 四种
# 相互作用
# 下载量
# 发布了
# 两篇
# 首个
# 转录
# 中国科学院
# 关键词
# type
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
单片机速度怎么看
光猫power和pon常亮是什么意思
春运抢票准备什么
对应市盈率是30X是什么意思
typescript能开发什么
NoSQL数据库有哪些特点
如何用dos命令启动u盘
typescript书籍哪个好
固态硬盘内存如何查找
js怎么设置typescript
固态硬盘如何装入机箱
j*a里数组怎么赋值
如何操作fixup命令
电信开通nfc功能是什么意思
如何打开命令框
征信不好如何恢复信誉度 征信不好恢复信誉度的方法
命令指示符如何打开盘符
进口超级维特拉三门版power是什么意思
学typescript需要多久
db2命令中如何去到指定的副本
个人征信不好如何恢复 个人征信不良的全面修复指南
夸克为什么老是投屏失败
油烟机上的power是什么意思
wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享
命令不执行如何处理
买的5g手机但是没有5g网络怎么办
服务器系统怎么装
折叠屏手机哪款最好
折叠屏手机哪个有性价比
sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享
市盈率动亏损是什么意思
舆论是什么意思
manager是什么意思
市盈率为负数是什么意思
如何把u盘改成固态硬盘
typescript怎么判断单选按钮
vue项目如何用typescript
单片机怎么连接电路图
如何拍屏幕不出条纹详细方法
bc是什么意思
mysql的datediff函数怎么用
vue中datediff函数怎么用
固态硬盘如何启动
春运车站抢票和网上抢票
360手机壁纸怎么改
r中如何逐行执行命令
如何winpe cmd命令
如何让固态硬盘坏掉
如何用命令连接mysql
固态硬盘装完如何使用


2023-11-17
浏览次数:次
返回列表