新闻中心

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

2024-08-06
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

「两全其美」,从头设计分子,深度学习架构s4用于化学语言建模

编辑 | KX

生成式深度学习正在重塑药物设计。化学语言模型 (CLM) 以分子串的形式生成分子,对这一过程尤为重要。

近日,来自荷兰埃因霍芬理工大学(Eindhoven University of Technology)的研究人员将一种最新的深度学习架构(S4)引入到从头药物设计中。

结构化状态空间序列(Structured State Space Sequence,S4)模型在学习序列的全局属性方面表现卓越,那么 S4 能否推进从头设计的化学语言建模?

为了给出答案,研究人员系统地在一系列药物发现任务上对 S4 与最先进的 CLM 进行了基准测试,例如生物活性化合物的鉴定以及类药物分子和天然产物的设计。S4 在学习复杂分子特性的同时,还具有探索多种支架的优越能力。

最后,当前瞻性地应用于激酶抑制剂时,S4 设计的 10 个分子中有 8 个被分子动力学模拟预测为高活性。

总而言之,S4 在化学语言建模中极具潜力,尤其是在捕捉生物活性和复杂分子性质方面。这是首次将状态空间模型应用于分子任务。

相关研究以「Chemical language modeling with structured state space sequence models」为题,于 7 月 22 日发布在《Nature Communications》上。

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

论文链接:https://www.nature.com/articles/s41467-024-50469-9

从头开始设计具有所需特性的分子是一个「大海捞针」的问题。化学宇宙包含多达 10^60 个小分子,在相当大的程度上仍处于未知状态。

生成式深度学习无需手工设计规则即可生产所需的分子,从而以省时、低成本的方式探索化学宇宙。特别是,CLM 已经产生了经过实验验证的生物活性设计,并作为强大的分子发生器脱颖而出。

CLM 采用为序列处理开发的算法来学习「化学语言」,即如何生成化学有效(语法)并具有所需特性(语义)的分子。这是通过将分子结构表示为字符串符号来实现的,例如简化分子输入行输入系统 (SMILES) 等。然后,这些分子字符串用于模型训练,并随后以文本形式生成分子。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

图示:化学语言建模的结构化状态空间序列(S4)模型的关键概念。(来源:论文)

CLM 架构:

  • 长短期记忆 (LSTM) 模型
  • Transformer 架构

结构化状态空间序列模型 (S4):

  • 快速发展的新成员
  • 在音频、图像和文本生成中表现出色
  • 具有「双重性质」:

    • 在整个输入序列上进行训练以学习复杂的全局属性
    • 一次生成一个字符串元素

应用:

  • 研究人员将 S4 应用于 SMILES 字符串上的化学语言建模
  • 针对与药物设计相关的各种任务进行基准测试:

    • 学习生物活性
    • 化学空间探索
    • 天然产物设计

类药物分子和天然产物设计:

  • 研究人员对 S4 进行基准测试,与最先进的 CLM 比较
  • 例如类药物分子和天然产物的设计
  • 首先,分析了 S4 设计从 ChEMBL 数据库中提取的类药物小分子(SMILES 长度低于 100 个 tokens)的能力

    「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

    1. 所有 CLM 均生成了超过 91% 的有效分子、91% 的独特分子和 81% 的新分子。
  • S4 通过生成比基准更多的新分子(大约 4000 到 12,000 多个)来设计最有效、最独特和最新颖的分子,并显示出良好的学习 SMILES 字符串「化学语法」的能力。
  • 与现有的从头设计方法相比,S4 的潜力在 MOSES 基准上得到了进一步证实,其中 S4 始终位列表现最好的深度学习方法之列。
  • S4 还针对比类药物分子更具挑战性的分子实体进行了进一步测试。
  • 为此,研究人员评估了其设计天然产物 (NPs) 的能力。
  • 与合成小分子相比,NPs 往往具有更复杂的分子结构和环系统,以及更大比例的 sp3 杂化碳原子和手性中心。
  • 这些特征对应于平均更长的 SMILES 序列,具有更多的长程依赖性,并使天然产物成为 CLM 的具有挑战性的测试用例。

    「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模


    所有 CLM 都可以设计天然产物,但与类药物分子相比,其性能较低。S4 设计的有效分子数量最多,比 S4 多出约 6000 到 12,000 个分子(好 7-13%),而 LSTM 的新颖性最高,比 S4 多出约 2000 个分子(2%)。
    最后,还分析了增加 SMILES 长度时 CLM 架构的训练和生成速度,以测试它们在设计更大分子(如天然产物)时的实际适用性。分析强调,由于其双重性,S4 在训练过程中与 GPT 一样快(两者都比 LSTM 快约 1.3 倍),并且在生成方面最快。这进一步主张引入 S4 作为分子设计的有效方法,与 GPT 和 LSTM 相比,“兼具两全其美”。
    前瞻性从头设计
    研究人员使用 S4 进行了一项前瞻性计算机模拟研究,重点是设计丝裂原活化蛋白激酶 1 (MAPK1) 的抑制剂,这是肿瘤治疗的相关靶点。然后通过分子动力学 (MD) 评估设计的假定生物活性。

    「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

    图示:使用 S4 进行假定 MAPK1 抑制剂的前瞻性从头设计。(来源:论文)S4 模型经过微调,然后使用微调模型的最后五个 epochs 生成 256K 个分子。通过对数似然得分和与训练集的支架相似性对设计进行排序和筛选,10 个得分最高的分子使用 MD 模拟进行进一步表征。
    通过 MD 预测,10 个设计中有 8 个对预期目标具有生物活性,并且预测亲和力与最接近的微调分子相当或更高,这些结果进一步证实了 S4 用于从头药物设计的潜力。
    分子 S4 的机会总之,本研究率先将状态空间模型引入化学语言建模,重点关注结构化状态空间 (S4)。S4 独特的双重性质,包括训练中的卷积和循环生成,使其特别适合从 SMILES 字符串开始的从头设计。
    研究人员在各种药物发现任务上与 GPT 和 LSTM 进行了系统比较,揭示了 S4 的优势:虽然循环生成 (LSTM 和 S4) 在学习化学语法和探索各种支架方面更胜一筹,但对整个 SMILES 序列进行整体学习 (GPT 和 S4) 在捕捉某些复杂特性(如生物活性)方面表现出色。
    S4 具有双重性质,「兼具两全其美」:它在设计有效且多样化的分子方面与 LSTM 表现相当或更好,并且在捕捉复杂分子性质方面系统性地优于基准,同时保持计算效率。
    S4 在 MAPK1 抑制中的应用已通过 MD 模拟得到验证,这进一步展示了其设计强效生物活性分子的潜力。未来,研究人员将前瞻性地将 S4 与湿实验室实验相结合,以增强其在该领域的影响。
    S4 在分子科学领域还有许多方面有待探索,例如其在更长序列(例如大环肽和蛋白质序列)和其他分子任务(例如有机反应规划和基于结构的药物设计)中的潜力。
    未来,S4 在分子发现中的应用将不断增加,并有可能取代 LSTM 和 GPT 等广泛应用的化学语言模型。

以上就是「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模的详细内容,更多请关注其它相关文章!


# 语言模型  # 理论  # 药物研发  # ai  # 内容推广和内容营销  # 淘宝seo优化工作内容  # 品牌seo招商项目平台  # 龙里网站优化与推广  # 福州企业推广网络营销  # 福建网站长尾关键词优化  # 昆明网站seo公司  # 微信公众号营销推广步骤  # 河南网站优化排名  # 营销推广会前言怎么写  # 激酶  # 进阶  # 应用于  # 省电  # 进行了  # 所需  # 抑制剂  # 这是  # 结构化  # 两全其美  # 分子科学  # 化学 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 使用typescript对团队有什么要求  苹果16有哪些变化尺寸  如何测固态硬盘芯片  如何右键打开命令窗口  自己如何安装固态硬盘  苹果16会升级哪些  如何查看固态硬盘速度  花呗征信不好如何恢复 如何修复不良的花呗征信  命令行如何运行c  爱奇艺视频怎么下载到手机u盘怎么转换格式方法  datediff快捷函数怎么用  r中如何逐行执行命令  soup是什么意思  单片机怎么定义字符长度  db2命令中如何去到指定的副本  typescript能干什么  电脑显示器上power是什么意思  如何4k对齐固态硬盘  夸克高考为什么不靠谱  什么是base64  shell如何注释所有命令  HTML5如何引用typescript  宵衣旰食是什么意思  typescript中怎么引用js文件  如何用命令下载服务器网站  新的固态硬盘如何分区  power在充电器上是什么意思  学typescript需要什么基础么  推特是什么软件国内可以使用吗  单片机怎么做组合  单片机蜂鸣器响了怎么停  vivo手机爱奇艺怎么投屏到电视操作步骤  春运高速高铁抢票攻略  ai文件里无法找到链接文件怎么解决  手机nfc功能功能是什么意思  如何更新typescript  单片机引脚怎么改成上拉  爱奇艺会员qq登录可以几个人用?  苹果16最近玩法有哪些  路由器power灯一直亮是什么意思  阿里云盘扩容是什么_扩容阿里云盘方法是什么教程  cron表达式在线工具有哪些  dos命令 如何将变量 作为路径的一部分  市盈率为负值是什么意思  为什么有的夸克带电  calm是什么意思  如何安装台式机固态硬盘  solo交友软件怎么恢复聊天记录  笔记本电脑多少钱  typescript是什么类型的语言 

搜索