首页 >科技周边 >人工智能 >Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2024-07-16 13:33:18730浏览

编辑 | 萝卜皮

OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM）因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。

加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能，重点关注两个关键应用：分子特性预测和药物-药物相互作用预测。

该研究以「Can large language models understand molecules?」为题，于 2024 年 6 月 25 日发布在《BMC Bioinformatics》。

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

1. 分子嵌入在药物发现中的应用

分子嵌入是药物发现中至关重要的任务，广泛应用于分子性质预测、药物-靶标相互作用 (DTI) 预测和药物-药物相互作用 (DDI) 预测等相关任务中。

2. 分子嵌入技术

分子嵌入技术可从编码分子结构连接信息的分子图或其结构的线注释中学习特征，例如流行的 SMILES 表示。

3. SMILES 字符串中的分子嵌入

通过 SMILES 字符串进行分子嵌入与语言建模的进步同步发展，从静态词嵌入到情境化的预训练模型。这些嵌入技术旨在以紧凑的数值表示形式捕获相关结构和化学信息。

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

图示：药物化学表示。（来源：论文）

基本假设认为结构相似的分子行为方式相似。这使得机器学习算法能够处理和分析分子结构，以进行属性预测和药物发现任务。

随着 LLM 的突破，一个突出的问题是 LLM 是否能够理解分子并根据分子数据进行推断？

更具体地说，LLM 能否产生高质量的语义表示？

温莎大学的 Shaghayegh Sadeghi、Alioune Ngom Jianguo Lu 等人进一步探索了这些模型有效嵌入 SMILES 的能力。目前，这一能力尚未得到充分探索，部分原因可能是 API 调用的成本。

研究人员发现，使用 Llama 生成的 SMILES 嵌入在分子特性和 DDI 预测任务中的表现都优于 GPT 生成的 SMILES 嵌入。

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

图示：分类和回归任务的结果。（来源：论文）
值得注意的是，基于 Llama 的 SMILES 嵌入在分子预测任务中表现出与 SMILES 上的预训练模型相当的结果，且在 DDI 预测任务中优于预训练模型。
据此，团队得出的结论如下：
（1）LLM 的表现确实优于传统方法。（2）性能取决于任务，有时也取决于数据。（3）即使针对更通用的任务进行训练，LLM 的新版本确实比旧版本有所改进。（4）Llama 的嵌入总体上优于 GPT 嵌入。（5）此外，观察到 Llama 和 Llama2 在嵌入性能方面非常接近。

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

图示：Llama 与 Llama2 性能比较。（来源：论文）总之，这项研究凸显了 GPT 和 Llama 等 LLM 在分子嵌入方面的潜力。
该团队特别推荐 Llama 模型而不是 GPT，因为它们在从 SMILES 字符串生成分子嵌入方面具有卓越的性能。这些发现表明 Llama 在预测分子特性和药物相互作用方面可能特别有效。
虽然 Llama 和 GPT 等模型并非专门为 SMILES 字符串嵌入而设计（与 ChemBERTa 和 MolFormer-XL 等专业模型不同），但它们仍然表现出了竞争力。该工作为将来改进 LLM 分子嵌入奠定了基础。
未来，该团队将侧重于提高由自然语言句子嵌入技术启发而来的 LLM 分子嵌入的质量，例如对 Llama 标记化的微调和修改。
GitHub：https://github.com/sshaghayeghs/LLaMA-VS-GPT
论文链接：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05847-x

以上是Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI的详细内容。更多信息请关注PHP中文网其他相关文章！

字符串 github 算法 https gpt llama

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：第一次，语言的神经激活被定位到细胞级下一篇：DeepMind开发用于量子化学计算的神经网络变分蒙特卡罗

查看更多