OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型(LLM)因其在化学信息学领域的潜力而日益受到认可,特别是在理解简化分子输入行输入系统(SMILES)方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。
加拿大温莎大学(University of Windsor)的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能,重点关注两个关键应用:分子特性预测和药物-药物相互作用预测。
该研究以「Can large language models understand molecules?」为题,于 2024 年 6 月 25 日发布在《BMC Bioinformatics》。
1. 分子嵌入在药物发现中的应用分子嵌入是药物发现中至关重要的任务,广泛应用于分子性质预测、药物-靶标相互作用 (DTI) 预测和药物-药物相互作用 (DDI) 预测等相关任务中。
2. 分子嵌入技术
分子嵌入技术可从编码分子结构连接信息的分子图或其结构的线注释中学习特征,例如流行的 SMILES 表示。
3. SMILES 字符串中的分子嵌入
通过 SMILES 字符串进行分子嵌入与语言建模的进步同步发展,从静态词嵌入到情境化的预训练模型。这些嵌入技术旨在以紧凑的数值表示形式捕获相关结构和化学信息。
图示:药物化学表示。(来源:论文)基本假设认为结构相似的分子行为方式相似。这使得机器学习算法能够处理和分析分子结构,以进行属性预测和药物发现任务。
随着 LLM 的突破,一个突出的问题是 LLM 是否能够理解分子并根据分子数据进行推断?
更具体地说,LLM 能否产生高质量的语义表示?
温莎大学的 Shaghayegh Sadeghi、Alioune Ngom Jianguo Lu 等人进一步探索了这些模型有效嵌入 SMILES 的能力。目前,这一能力尚未得到充分探索,部分原因可能是 API 调用的成本。
研究人员发现,使用 Llama 生成的 SMILES 嵌入在分子特性和 DDI 预测任务中的表现都优于 GPT 生成的 SMILES 嵌入。
图示:分类和回归任务的结果。(来源:论文)以上是Llama分子嵌入优于GPT,LLM能理解分子吗?这一局Meta赢了OpenAI的详细内容。更多信息请关注PHP中文网其他相关文章!