新闻中心
清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

为了促进分子特性预测,在药物发现领域,学习有效的分子特征表征非常重要。最近,人们通过采用自监督学习技术,预先训练图神经网络(GNN)来克服数据稀缺的挑战。然而,目前基于自监督学习的方法存在两个主要问题:缺乏明确的自监督学习策略和 GNN 的能力有限
近日,来自清华大学、西湖大学和之江实验室的研究团队,提出了知识引导的图 Transformer 预训练(Knowledge-guided Pre-training of Graph Transformer,KPGT),这是一种自监督学习框架,通过显著增强的分子表征学习提供改进的、可泛化和稳健的分子特性预测。KPGT 框架集成了专为分子图设计的图 Transformer 和知识引导的预训练策略,以充分捕获分子的结构和语义知识。
通过对
63 个数据集进行广泛的计算测试,KPGT 在预测各个领域的分子特性方面表现出了卓越的性能。此外,通过鉴定两种抗肿瘤靶点的潜在抑制剂验证了 KPGT 在药物发现中的实际适用性。总体而言,KPGT 可以为推进 AI 辅助药物发现过程提供强大且有用的工具。
该研究以《A knowledge-guided pre-training framework for improving molecular representation learning》为题,于 2025 年 11 月 21 日发布在《Nature Communications》上。

通过实验确定分子特性需要大量时间和资源,鉴定具有所需特性的分子是药物发现领域最重大的挑战之一。近年来,基于人工智能的方法在预测分子特性方面发挥着越来越重要的作用。基于人工智能的分子特性预测方法的主要挑战之一是分子的表征
近年来,基于深度学习的方法的出现成为预测分子特性的潜在有用工具,主要是因为它们具有从简单输入数据中自动提取有效特征的卓越能力。值得注意的是,各种神经网络架构,包括循环神经网络(RNN)、卷积神经网络(CNN)和图神经网络(GNN)擅长对各种格式的分子数据进行建模,从简化的分子输入行输入系统(SMILES)到分子图像和分子图。然而,标记分子的有限可用性和化学空间的广阔限制了它们的预测性能,特别是在处理分布外数据样本时。
随着自监督学习方法在自然语言处理和计算机视觉领域取得的显著成就,这些技术已被应用于预训练 GNN 并改进分子的表征学习,从而在下游分子性质预测任务中取得了实质性的进展
研究人员假设将定量描述分子特征的额外知识引入自监督学习框架可以有效应对这些挑战。分子有许多定量特征,例如分子描述符和指纹,可以通过当前建立的计算工具轻松获得。整合这些额外的知识可以将丰富的分子语义信息引入自监督学习中,从而大大增强语义丰富的分子表征的获取。
通常,现有的自监督学习方法依赖于GNN作为核心模型。然而,GNN的模型容量有限。此外,GNN可能很难捕捉原子之间的远程交互。而基于Transformer的模型已经成为一种改变游戏规则的模型。它的特点是参数数量不断增加,并且能够捕捉到长程相互作用,为全面模拟分子的结构特征提供了有希望的途径
自监督学习框架 KPGT
在这项研究中,研究人员引入了一种名为 KPGT 的自监督学习框架,旨在加强分子表征学习,从而推动下游的分子属性预测任务。KPGT 框架由两个主要组件组成:一个被称为 Line Graph Transformer(LiGhT)的主干模型和一个知识引导的预训练策略。KPGT 框架结合了高容量的 LiGhT 模型,该模型专门用于准确建模分子图结构,并利用知识引导的预训练策略来捕捉分子结构和语义知识
研究团队使用ChEMBL29数据集中的约200万个分子,通过知识引导的预训练策略对LiGhT进行了预训练
Glarity
Glarity是一款免费开源的AI浏览器扩展,提供YouTube视频总结、网页摘要、写作工具等功能,支持免费的镜像翻译,电子邮件写作辅助,AI问答等功能。
131
查看详情

重写内容为:图表:KPGT 概述。(资料来源:论文)
KPGT 在分子性质预测方面优于基线方法。与几种基线方法相比,KPGT 在 63 个数据集上取得了很大的进步。

此外,通过成功利用 KPGT 识别造血祖细胞激酶 1 (HPK1) 和成纤维细胞生长因子受体 (FGFR1) 两个抗肿瘤靶点的潜在抑制剂,展示了 KPGT 的实际应用性。


研究局限性
尽管 KPGT 在有效分子特性预测方面具有优势,但仍然存在一些局限性。
首先,附加知识的整合是所提方法最显著的特征。除了 KPGT 中使用的 200 个分子描述符和 512 个 RDKFP 之外,还有可能纳入各种其他类型的附加信息知识。 此外,进一步的研究可以将三维 (3D) 分子构象整合到预训练过程中,从而使模型能够捕获有关分子的重要 3D 信息,并有可能增强表征学习能力。 虽然 KPGT 目前采用具有大约 1 亿个参数的主干模型,以及对 200 万个分子的预训练,但探索更大规模的预训练可以为分子表征学习提供更实质性的好处。
总的来说,KPGT 为有效的分子表征学习提供了强大的自监督学习框架,从而推动了人工智能辅助药物发现领域的发展。
论文链接:https://www.nature.com/articles/s41467-023-43214-1
以上就是清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法的详细内容,更多请关注其它相关文章!
# 万个
# seo标题seo关键词seo描述案例
# 昭通网站关键词优化
# 摄影网站建设怎么样的
# 莱阳个性化网站推广公司
# 视频营销推广网站优势
# 快手流量推广免费网站
# 推广网站搭建方案范文怎么写
# 青海seo全网营销价格
# ai seo神器
# 会员营销朋友圈推广语
# 入门
# 等功能
# 句话
# 站上
# 长程
# 腾讯
# 下载量
# 抑制剂
# 清华
# 关键词
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
cron表达式在线工具有哪些
j*a怎么读取char数组
单片机显存怎么设置最佳
折叠屏手机信号哪个最强
ai如何重复使用上一命令
一天多少分钟
考勤机power红灯是什么意思
5r是多少钱
折叠屏有哪些手机
mysql的datediff函数怎么用
什么是unix时间戳
苹果16改进了哪些
typescript和es6先学哪个
gs是什么意思
焊机上power灯闪是什么意思
手机如何更改固态硬盘
单片机面包板怎么插
access 如何输入命令
苹果16更新了哪些软件
苹果16会升级哪些
命令行ftp如何创建目录
充电器上的power是什么意思
python 如何执行linux命令
typescript什么意思
苹果16颜色有哪些
破太岁是什么意思
为什么夸克没有动漫
如何以管理员身份打开cmd命令行窗口
笔记本如何选择固态硬盘
春运抢票最新技巧与方法
typescript干什么的
linux如何合并分区命令
春运返程如何抢票成功
a股等权平均市盈率是什么意思
苹果16最近玩法有哪些
typescript有什么作用
J*a数组静态怎么打
安卓手机怎么打开5g
bc是什么意思
typescript学多久可以学会
如何在一串数字前面去掉四位数的命令
iPhone无法打开YouTube原因分析与解决方案
如何用命令下载服务器网站
typescript和node学哪个
春运哪天抢票最好
问一下市盈率是什么意思
万能表上的power是什么意思
固态硬盘如何迁移系统
vivo手机爱奇艺怎么投屏到电视操作步骤
如何以管理员身份打开命令提示符


2023-11-23
浏览次数:次
返回列表