人工智能

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 18, 2023 pm 07:25 PM

产业

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

重写内容时，需要将原文用中文进行重写，不需要出现原始的英文句子

前不久，微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划，旨在通过 AI 系统优化技术实现科学发现。

11月13日，微软团队在arXiv预印平台上发布了一篇名为《大型语言模型对科学发现的影响：使用GPT-4的初步研究》的文章

这篇文章的长度达到了 230 页

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

论文链接：https://arxiv.org/abs/2311.07361

近年来，自然语言处理领域的突破性进展在强大的大型语言模型（LLM）的出现中达到了顶峰，这些模型在众多领域展示了非凡的能力，包括自然语言的理解、生成和翻译，甚至扩展到语言处理之外的任务。

在本报告中，微软研究人员深入研究了 LLM 在科学发现/研究背景下的表现，重点关注最先进的语言模型 GPT-4。研究涵盖多个科学领域，包括药物发现、生物学、计算化学（DFT 和 MD）、材料设计和偏微分方程 (PDE)。

对于评估GPT-4的科学任务而言，它对于挖掘其在各个研究领域的潜力、验证特定领域的专业知识、加速科学进步、优化资源分配、指导未来模型开发和促进跨学科研究非常重要。探索的方法主要包括专家驱动的案例评估，这种评估方式可以提供定性见解，帮助模型理解复杂的科学概念和关系；同时也会偶尔进行基准测试，以定量评估模型解决明确定义的特定领域问题的能力

初步探索显示，GPT-4 在各种科学应用中具有巨大的潜力，展示了其处理复杂问题解决和知识整合任务的能力。研究人员对 GPT-4 在上述领域（如药物发现、生物学、计算化学、材料设计等）的性能进行了分析，强调了其优点和局限性。综合评估了 GPT-4 的知识基础、科学理解能力、科学数值计算能力以及各种科学预测能力

GPT-4 在生物学和材料设计方面具有广泛的领域知识，有助于满足特定要求。在药物发现等其他领域，GPT-4 展现出了强大的特性预测能力。然而，在计算化学和偏微分方程等研究领域，虽然 GPT-4 有望帮助研究人员进行预测和计算，但仍需要进一步努力来提高其准确性。尽管其功能令人印象深刻，但 GPT-4 仍可对定量计算任务进行改进，例如需要微调以提高准确性

研究人员希望这份报告能够为那些希望利用LLM进行科学研究和应用的研究人员和从业者，以及对推动特定领域自然语言处理感兴趣的人提供宝贵的资源。需要强调的是，LLM和大规模机器学习领域正在快速发展，未来几代的LLM可能具有本报告中未提及的其他功能。值得注意的是，LLM与专业科学工具和模型的整合以及基础科学模型的开发代表了两个有希望的研究方向

药物发现

药物发现是制药行业的重要组成部分，在推进医学科学方面发挥着至关重要的作用。药物发现涉及复杂的多学科过程，包括靶点识别、先导化合物优化和临床前测试，最终导致安全有效药物的开发。

GPT-4 在药物发现方面具有巨大的潜力，如加速发现过程、降低搜索和设计成本、增强创造力等。本章首先通过定性测试研究 GPT-4 对药物发现的知识，然后通过对多个关键任务的定量测试来研究其预测能力，包括药物-靶标相互作用/结合亲和力预测、分子性质预测和逆合成预测

重写后的内容：第一个例子涉及生成给定药物名称的化学式、IUPAC名称和SMILES，这是将名称转化为药物的其他表示形式。以Afatinib作为输入药物。GPT-4成功输出了正确的化学式C24H25ClFN5O3和正确的IUPAC名称，这表明GPT-4知道Afatinib这种药物。然而，生成的SMILES并不正确。因此，研究人员给予了指导，让GPT-4重新生成SMILES。不幸的是，尽管明确要求GPT-4“注意每种原子类型的原子数量”并基于正确的IUPAC和化学式生成SMILES，但在几次实验中生成的SMILES序列仍然不正确

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

第一张图展示了药物名称和其他药物表示形式的翻译。（引自论文）

生物

在本章中，研究人员深入探讨了 GPT-4 在生物学研究领域的能力，主要关注其理解生物语言、利用内置生物知识进行推理的熟练程度，以及设计生物分子和生物实验。观察表明，GPT-4 通过展示其处理复杂生物语言、执行生物信息任务、甚至作为生物设计的科学助手的能力，展现出为生物学领域做出贡献的巨大潜力。GPT-4 对生物学概念的广泛掌握及其作为设计任务中的科学助手的巨大潜力凸显了其在推进生物学领域的重要作用。

首先评估了 GPT-4 处理生物序列序列符号和文本符号的能力。

研究人员要求 GPT-4 在生物序列及其文本符号之间进行转换：1）输出给定蛋白质序列的蛋白质名称。2) 输出给定名称的蛋白质序列。在执行每个任务之前，都会重新启动会话以防止信息泄露。结果表明，GPT-4 知道序列到文本符号转换的过程，但它不能自己直接查找（也称为 BLAST 序列）。同时，GPT-4 更喜欢生物序列的文本标记（包括蛋白质和 DNA，后者未显示）。当给出文本符号时，它提供了更丰富的信息，这可能是由于其设计理念。需要指出的是，还注意到，生成序列可能会导致 GPT-4 的灾难性行为。如下图所示，虽然 GPT-4 返回了正确的 UniProt ID，但在生成序列时遇到了困难。序列生成因尝试的几种不同提示而崩溃。

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

图 2：序列符号和文本符号之间的转换。（来源：论文）

计算化学

化学计算是一门跨学科的领域，它利用计算方法和技术来解决化学中的复杂问题。长期以来，化学计算一直是分子系统研究中不可或缺的工具，它不仅提供了对原子级相互作用的深入理解，还指导了实验工作的开展。化学计算在微观和宏观层面上对于分子结构、化学反应和物理现象的理解发挥着至关重要的作用

本章将重点研究GPT-4在计算化学领域中的功能。我们将探讨其在电子结构方法和分子动力学模拟方面的应用，并通过展示两个实际示例，来展示GPT-4在不同角度下的服务能力。总之，GPT-4能够以多种方式助力计算化学研究人员

研究从评估 GPT-4 解释量子化学和物理概念的能力开始。评估涵盖了该领域常用的方法，如密度泛函理论（DFT）和波函数理论（WFT）。

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

图 3：密度泛函理论的概念检验。（来源：论文）

在以上例子中，GPT-4 很好地理解了密度泛函理论、KohnSham 密度泛函理论和无轨道密度泛函理论的概念。

材料设计

在本章中，研究了 GPT-4 在材料设计领域的功能。研究人员设计了一套全面的任务，涵盖材料设计过程中的各个方面，从最初的概念化到随后的验证和合成。目标是评估 GPT-4 的专业知识及其在实际应用中生成有意义的见解和解决方案的能力。设计的任务涵盖各个方面，包括背景知识、设计原则、候选识别、候选结构生成、属性预测和合成条件预测。通过解决整个设计过程，目标是对 GPT-4 在材料设计方面的熟练程度进行整体评估，特别是对于结晶无机材料、有机聚合物以及金属有机框架 (MOF) 等更复杂的材料。

值得注意的是，评估主要侧重于对 GPT-4 在这一专业领域的能力进行定性评估，而只有在可行的情况下才能获得统计分数。

研究人员首先调查了当前固体电解质的分类方式，这些分类方式有不同的要求，例如根据一般化学和阴离子类型进行分类。此外，他们还要求提供基于这些分类标准的示例。如图4所示，所有的答案都是事实，并且大部分都是正确的。由于这些分类标准在文献中没有被很好地体现，因此GPT-4应该对化学的含义有一个相对清晰的理解

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

根据来源的论文，需要重写的内容是：图4：无机固体电解质的分类

偏微分方程

偏微分方程 (PDE) 是数学领域中一个重要且高度活跃的研究领域，在物理、工程、生物学和金融等各个学科中具有深远的应用。偏微分方程在建模和理解各种现象（从流体动力学和传热到电磁场和群体动力学）方面发挥着至关重要的作用。

在本章中，研究了 GPT-4 在偏微分方程的几个方面的技能：理解偏微分方程的基础知识、求解偏微分方程以及协助 AI 进行偏微分方程研究。研究人员在不同形式的 PDE 上评估模型，例如线性方程、非线性方程和随机 PDE。研究表明 GPT-4 能够以多种方式帮助研究人员。

第一个问题是关于偏微分方程的定义和形式，GPT-4 对偏微分方程提供了很好的解释，如图 5 所示。在用户的提示下，GPT-4 给出了偏微分方程的清晰概念以及线性或非线性、椭圆形、抛物线形或双曲形的类别。该领域的新手将从这些概念和分类中受益。

GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文

图 5：PDE 的基本概念介绍。（来源：论文）

未来展望

在这项研究中，我们探索了LLM在各个自然科学领域的能力和限制，并涵盖了各种任务。我们的主要目标是初步评估最先进的LLM GPT-4以及其对科学发现的潜力，并为各个领域的研究人员提供有价值的资源和工具

通过广泛的分析，研究强调了 GPT-4 在众多科学任务中的熟练程度，从文献综合到属性预测和代码生成。尽管其功能令人印象深刻，但必须认识到 GPT-4（以及类似的 LLM）的局限性，例如处理特定数据格式的挑战、响应的不一致以及偶尔的幻觉。

研究人员相信，该探索是理解和认识 GPT-4 在自然科学领域潜力的关键第一步。通过详细概述其优点和缺点，旨在帮助研究人员在将 GPT-4（或其他 LLM）纳入日常工作时做出明智的决定，确保最佳应用，同时注意其局限性。

此外，鼓励 GPT-4 和其他 LLM 的进一步探索和发展，旨在提高其科学发现能力。这可能涉及完善培训过程、合并特定领域的数据和架构，以及集成针对不同科学学科量身定制的专业技术。

随着人工智能领域的不断发展，像 GPT-4 这样复杂模型的集成将在加速科学研究和创新方面扮演越来越重要的角色

最后，研究总结了 LLM 在科学研究方面需要改进的方面，并讨论加强 LLM 或在此基础上推动科学突破的潜在方向。

以上是GPT-4与LLM：微软团队探索科学发现的影响，涵盖5大科学领域的230页长文的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7？Apr 23, 2025 am 11:49 AM

拥抱Face的OlympicCoder-7B：强大的开源代码推理模型开发以代码为中心的语言模型的竞赛正在加剧，拥抱面孔与强大的竞争者一起参加了比赛：OlympicCoder-7B，一种产品

4个新的双子座功能您可以错过Apr 23, 2025 am 11:48 AM

你们当中有多少人希望AI可以做更多的事情，而不仅仅是回答问题？我知道我有，最近，我对它的变化感到惊讶。 AI聊天机器人不仅要聊天，还关心创建，研究

Camunda为经纪人AI编排编写了新的分数Apr 23, 2025 am 11:46 AM

随着智能AI开始融入企业软件平台和应用程序的各个层面（我们必须强调的是，既有强大的核心工具，也有一些不太可靠的模拟工具），我们需要一套新的基础设施能力来管理这些智能体。总部位于德国柏林的流程编排公司Camunda认为，它可以帮助智能AI发挥其应有的作用，并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能，旨在帮助组织建模、部署和管理AI智能体。从实际的软件工程角度来看，这意味着什么？确定性与非确定性流程的融合该公司表示，关键在于允许用户（通常是数据科学家、软件

策划的企业AI体验是否有价值？Apr 23, 2025 am 11:45 AM

参加Google Cloud Next '25，我渴望看到Google如何区分其AI产品。有关代理空间（此处讨论）和客户体验套件（此处讨论）的最新公告很有希望，强调了商业价值

如何为抹布找到最佳的多语言嵌入模型？Apr 23, 2025 am 11:44 AM

为您的检索增强发电（RAG）系统选择最佳的多语言嵌入模型在当今的相互联系的世界中，建立有效的多语言AI系统至关重要。强大的多语言嵌入模型对于RE至关重要

麝香：奥斯汀的机器人需要每10,000英里进行干预Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi发射：仔细观察Musk的主张埃隆·马斯克（Elon Musk）最近宣布，特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射，最初出于安全原因部署了一支小型10-20辆汽车，并有快速扩张的计划。 h

AI震惊的枢轴：从工作工具到数字治疗师和生活教练Apr 23, 2025 am 11:41 AM

人工智能的应用方式可能出乎意料。最初，我们很多人可能认为它主要用于代劳创意和技术任务，例如编写代码和创作内容。然而，哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作，而是支持、组织，甚至是友谊！报告称，人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。另一方面，营销任务（例如撰写博客、创建社交媒体帖子或广告文案）在流行用途列表中的排名要低得多。这是为什么呢？让我们看看研究结果及其对我们人类如何继续将