搜索
首页科技周边人工智能AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

作者 | 康奈尔大学杜沅岂

编辑 | ScienceAI

随着 AI for Science 受到越来越多的关注,人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。

AI 与小分子药物发现是其中一个非常有代表性和很早被探索的领域。分子发现是一个非常困难的组合优化问题(由于分子结构的离散性)并且搜索空间非常庞大与崎岖,同时验证搜索到的分子属性又十分困难,通常需要昂贵的实验,至少是至少是模拟计算、量子化学的方法来提供反馈。

随着机器学习的高速发展和得益于早期的探索(包括构建了简单可用的优化目标与效果衡量方法),大量的算法被研发,包括组合优化,搜索,采样算法(遗传算法、蒙特卡洛树搜索、强化学习、生成流模型/GFlowNet,马尔可夫链蒙特卡洛等),与连续优化算法,贝叶斯优化,基于梯度的优化等。同时现有较为完备的算法衡量基准,比较客观公平的比较方式,也为开发机器学习算法开拓了广阔的空间。

近日,康奈尔大学、剑桥大学和洛桑联邦理工学院(EPFL)的研究人员在《Nature Machine Intelligence》发表了题为《Machine learning-aided generative molecular design》的综述文章。

AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

论文链接:https://www.nature.com/articles/s42256-024-00843-5

该综述回顾了机器学习在生成式分子设计中的应用。药物发现和开发需要优化分子以满足特定的理化性质和生物活性。然而,由于搜索空间巨大和优化函数不连续,传统方法既昂贵又容易失败。机器学习通过结合分子生成和筛选步骤,进而加速早期药物发现过程。

AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

图示:生成式 ML 辅助分子设计流程。

生成性分子设计任务

生成性分子设计可以分为两大范式:分布学习和目标导向生成,其中目标导向生成可以进一步分为条件生成和分子优化。每种方法的适用性取决于具体任务和所涉及的数据。

分布学习 (distribution learning)

  • 分布学习旨在通过对给定数据集分子的概率分布建模来描述数据的分布,从而从学习到的分布中采样新分子 。

条件生成 (conditional generation)

  • 属性条件生成 (property-conditioned generation):生成具有特定属性的结构,可以为一个文字的描述,或者一个具体属性的数值 。
  • 分子子结构条件生成(molecular (sub)structure-conditioned generation):生成具有特定结构约束的分子,例如设计部分结构、支架跳跃、连接子设计、重新设计整个结构(先导优化)或整个分子的条件生成(构象生成)。
  • 目标条件生成 (target-conditioned generation):旨在生成对特定疾病相关生物分子靶点具有高结合亲和力的分子。与属性条件生成不同,目标条件生成利用对靶点结构的显式访问,通过整合直接的靶点-配体相互作用来提高配体分子与靶点的亲和力 。
  • 表型条件生成 (phenotype-conditioned generation):涉及从基于细胞的显微镜或其他生物检测读数(如转录组数据)中学习表型指纹,以提供条件信号,指导生成朝向理想的生物学结果的分子。

分子优化 (molecule optimization)

  • 分子优化在药物发现中起着关键作用,通过细化药物候选者的属性来提高其安全性、有效性和药代动力学特性。涉及对候选分子结构进行小的修改,以优化药物性质,如溶解度、生物利用度和靶点亲和力,从而提高治疗潜力并增加临床终点的成功率 。

AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

图示:生成任务、生成策略和分子表征的图示。

分子生成流程

分子生成是一个复杂的流程包括许多不同的组合单元,我们在下图中列出了代表性的工作,并且介绍每一个部分的代表性单元。

分子表示 

在开发分子生成的神经架构时,首先要确定分子结构的机器可读输入和输出表示。输入表示有助于将适当的归纳偏差注入模型,而输出表示则确定了分子的优化搜索空间。表示类型决定了生成方法的适用性,例如,离散搜索算法只能应用于图和字符串等组合表示。

虽然已经研究了各种输入表示,但对表示类型和编码它们的神经架构的权衡还不明确。分子之间的表示转换并不一定是双射的,例如,密度图和指纹无法唯一识别分子,需要进一步的技术来解决这一非平凡的映射问题。常见的分子表示包括字符串、二维拓扑图和三维几何图 。

  • 基于字符串的分子结构:通常编码为字符串,如简化的分子输入线条输入系统(SMILES)或自引用嵌入字符串(SELFIES)。SMILES 用语法规则表示分子,但字符串可能无效;SELFIES 通过修改这些规则确定了分子的有效性。分子字符串通常通过递归网络和 Transformer 模型编码为序列数据 。
  • 基于拓扑和几何图的原子和键:通常在拓扑图中表示为节点和边。图神经网络(GNNs)常用于建模图结构分子数据,基于相邻节点更新节点和边特征。在三维信息可用且相关时,几何 GNNs 常用于捕捉三维空间中的应用相关对称性,如平移和旋转不变性或等变性 。

表示粒度是生成模型设计中的另一个考虑因素。通常,方法利用原子或分子片段作为生成期间的基本组成单元。基于片段的表示将分子结构细化为包含原子组的较大单元,携带层次信息,如官能团标识,从而与传统的基于片段或药效团药物设计方法对齐 。

生成方法

深度生成模型是一类估计数据概率分布并从学习分布中抽样的方法(也称为分布学习)。其中包括变分自编码器,生成对抗网络,正则化流 (normalizing flows),自回归模型,扩散模型。这些生成方法中的每一种都有其适用的情境和优缺点,具体的选择取决于所需任务和数据特征。

生成策略

生成策略指模型输出分子结构的方式,一般可以分为一次性生成、顺序生成或迭代改进 。

一次性生成:一次性生成在模型的单次前向传递中生成完整的分子结构。这种方法通常难以生成具有高精度的真实和合理的分子结构。此外,一次性生成通常不能满足显式约束,如价态约束,这对于确保生成结构的准确性和有效性至关重要。

顺序生成:顺序生成通过一系列步骤构建分子结构,通常按原子或片段进行。顺序生成中容易注入价态约束,从而提高生成分子的质量。然而,顺序生成的主要限制是需要在训练期间定义生成轨迹的顺序,并且推理速度较慢。

迭代改进:迭代改进通过预测一系列更新来调整预测,避开一次性生成方法中的难点。例如,AlphaFold2 中的循环结构模块成功地将骨架框架精细化,这种方法启发了相关的分子生成策略。扩散模型是一个常见技术,通过一系列降噪步骤生成新数据。目前,扩散模型已应用于多种分子生成问题,包括构象生成、基于结构的药物设计和连接子设计。

优化策略

组合优化:对于分子(如图或字符串)的组合编码,可以直接应用组合优化领域的技术 。

连续优化:分子可以在连续域中表示或编码,例如在欧几里得空间中的点云和几何图,或在连续潜在空间中编码离散数据的深度生成模型 。

AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

生成性机器学习模型的评估

评估生成模型需要计算评价和实验验证。标准指标包括有效性、独特性、新颖性等。评估模型时应综合考虑多个指标,以全面评估生成性能。

实验验证

生成的分子必须通过湿法实验来进行明确的验证,这与现有研究主要关注计算贡献形成鲜明对比。虽然生成模型并非没有弱点,但预测与实验之间的脱节也归因于进行此类验证所需的专业知识、昂贵的费用、以及漫长的测试周期。

AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

生成模型规律

大多数报告实验验证的研究使用 RNN 和/或 VAE,并以 SMILES 作为操作对象。我们总结了四个主要观察点:

  1. SMILES 虽然捕捉到的 3D 信息有限,但作为一种高效的表示方式,适用于分布学习和小数据集的微调。
  2. 许多实验验证的研究目标是激酶,这是 ChEMBL 等流行开源数据集中的常见靶点。
  3. 绝大多数目标导向的方法使用强化学习(单独或作为组件)作为优化算法,包括基于配体和基于结构的药物设计。
  4. AlphaFold 预测的结构可以成功用于生成结构的药物设计。

未来方向

尽管机器学习算法为小分子药物发现带来了曙光,但是还有更多的挑战与机遇需要面对。

挑战

  1. 分布外生成:已知化学物质只占化学空间的一小部分。虽然深度生成模型可以提出训练分布之外的分子,但需要确保其合理性。
  2. 不现实的问题表述:精确的问题表述对于开发适用于现实世界药物发现的模型至关重要。常常忽略的基本方面包括构象动态、水的作用和熵贡献,而诸如无限访问 oracle 调用的假设也常被错误地认为是理所当然的。这包含了样本效率问题,最近的研究在有限 oracle 预算下的高效目标导向生成方面取得了进展。
  3. 低保真 oracle:在药物发现相关维度上有效评分设计仍然困难,成为工业环境中部署生成模型的瓶颈。例如,高通量结合亲和力预测在数据驱动和基于物理的工作流中通常不准确。虽然存在替代的高精度 oracle,但其计算需求限制了可扩展性。此外,高质量标注数据的不可获取性也成为开发具有高精度和可管理 AI oracle 的障碍。
  4. 缺乏统一的评估协议:用于评估药物候选物质量的评估协议与我们定义何为良好药物的标准密切相关。ML 社区通常使用的易于计算的物理化学描述符存在疑问,肯定无法全面反映性能。在生成分子设计与虚拟筛选之间进行严格比较也较少见。
  5. 缺乏大规模研究和基准测试:许多ML方法已经开发出来,但在许多关键任务中的不同模型类型上没有公平的基准测试结果。例如,仅使用了可用数据的一小部分进行训练,限制了对模型可扩展性的理解。最近的基准测试对标准化计算评估协议的重要贡献。
  6. 缺乏可解释性:可解释性是分子生成模型中一个重要但未充分探索的领域。例如,洞察生成或优化过程如何构建分子可以产生化学规则,这对药物化学家具有解释性。这在小分子领域尤其重要,因为生成模型通常用于向药物化学家提交想法,合成障碍排除了测试所有生成设计的可能性。

机会

  1. 超越小分子設計的應用:這裡討論的方法可能在設計其他複雜結構材料(如多醣、蛋白質(特別是抗體)、核酸、晶體結構和聚合物)方面有更廣泛的應用。
  2. 大語言模型展示了透過文本指導的發現和決策作為代理來革新分子設計的潛力,這得益於大量可用的訓練數據,包括科學文獻。此外,針對分子結構進行定製或微調的模型為研究人員提供了利用自然語言處理中的成熟進展的額外機會。
  3. 藥物開發的後期階段:分子設計/優化佔據了藥物發現的早期階段。然而,由於有限的療效、較差的 ADME/T(吸收、分佈、新陳代謝、排泄和毒性)特性和安全問題導致的晚期失敗是藥物開發管道中的痛點。儘管有限,但將臨床數據整合到設計管道中是提高下游成功率的一個有希望的方向。
  4. 聚焦模型目的:藥物發現管道是製藥公司多年經驗和艱難教訓的結果。 ML 研究者應該不僅僅設計純粹的從頭設計模型(特別是在缺乏深度表徵能力時),還應設計聚焦於在多年過程中的特定步驟上改進的模型,符合現實約束。
  5. 自動化實驗室:對高通量實驗的需求不斷增加,以為ML 設計的分子提供回饋,將越來越多的注意力集中在自動化實驗室上,以加快設計–製造–測試–分析循環。

作者: 杜沅豈,康奈爾大學計算機系二年級博士生,主要研究興趣,幾何深度學習,概率模型,採樣,搜索,優化問題,可解釋性,與在分子探索領域的應用,具體資訊請見:https://yuanqidu.github.io/

以上是AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
10个生成AI编码扩展,在VS代码中,您必须探索10个生成AI编码扩展,在VS代码中,您必须探索Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境