搜索
首页科技周边人工智能如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

近年来,大型语言模型(LLMs)的发展取得了巨大进步,这让我们置身于一个革命性的时代。LLMs 驱动的智能代理在各种任务中展现出了通用性和高效性。这些被称为“AI科学家”的代理人已经开始探索它们在生物学、化学等领域中进行自主科学发现的潜力。这些代理已经展现出选择适用于任务的工具,规划环境条件以及实现实验自动化的能力。

因此,Agent 可摇身一变成为真实的科学家,能够有效地设计和开展实验。在某些领域如化学设计中,Agent 所展现的能力已经超过了大部分非专业人士。然而,当我们享受着这种自动化 Agents 所发挥的优势时,也必须注意到其潜在的风险。随着他们的能力接近或超过人类,监控他们的行为并防止其造成伤害变得越来越具有重要性和挑战性。

LLMs 驱动的智能 Agents 在科学领域的独特之处在于它们具备自动规划和采取必要行动以实现目标的能力。这些 Agents 能够自动访问特定的生物数据库并进行化学实验等活动。例如,让 Agents 探索新的化学反应。它们可能会首先访问生物数据库以获取现有数据,然后利用 LLMs 推断新的路径,并利用机器人进行迭代实验验证。这种用于科学探索的 Agents 具有领域能力和自主性,这使得它们容易受到各种风险的影响。

在最新的一篇论文中,来自耶鲁、NIH、Mila、上交等多个机构的学者明确并划定了「用于科学发现的 Agents 的风险」,为未来在监督机制和风险缓解策略的发展方面提供了指南,以确保 LLM 驱动的 Scientific Agents 在真实应用中的安全性、高效性并且符合道德约束。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

论文标题:Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science
论文链接:https://arxiv.org/abs/2402.04247

首先,作者们对科学 LLM Agents 可能存在的风险进行了全面的概述,包括从用户意图、具体的科学领域以及对外部环境的潜在风险。然后,他们深入探讨了这些脆弱性的来源,并回顾了比较有限的相关研究。在对这些研究进行分析的基础上,作者们提出了一个由人类管控、Agents 对齐、环境反馈理解(Agents 管控)三者构成的框架,以应对这些被识别出的风险。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

这篇立场论文详细分析了在科学领域中滥用智能Agents所带来的风险及相应的对策。具备大型语言模型的智能Agents面临的主要风险主要包括用户意图风险、领域风险和环境风险。用户意图风险涵盖了智能Agents在科学研究中可能被不当利用执行不道德或违法的实验。尽管Agents的智能程度取决于其设计目的,但在缺乏充分人类监督的情况下,Agents仍有可能被滥用用于进行有害人类健康或破坏环境的实验。

用于科学发现的 Agents 在这里被定义为具有执和者自主实验的能力的系统。特别地,本文关注的是那些具有大型语言模型(LLM)的用于科学发现的 Agents,它们可以处理实验,规划环境条件,选择适合实验的工具,以及对自己的实验结果进行分析和解释。例如,它们或许能够以一种更自主的方式推动科学发现。

文章所讨论的「用于科学发现的 Agents」(Scientific Agents),可能包含一个或多个机器学习模型,包括可能有一个或多个预训练的LLMs。在这个背景下,风险被定义为可能危害人类福祉或环境安全的任何潜在结果。这个定义鉴于该文的讨论,有三个主要风险区域:

  • 用户意图风险:Agents 可能尝试满足恶意用户的不道德或非法的目标。
  • 领域风险:包括由于 Agents 接触或操作高风险物质,在特定科学领域(如生物或化学)中可能存在的风险。
  • 环境风险:这是指 Agents 可能对环境产生直接或间接的影响,或者无法预测的环境应对。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

如上图所示,其展示了 Scientific Agents 的潜在风险。子图 a,根据用户意图的起源分类风险,包括直接和间接的恶意意图,以及意料之外的后果。子图 b,根据 Agents 应用的科学领域分类风险类型,包括化学,生物,放射,物理,信息,和新兴技术。子图 c,根据对外部环境的影响分类风险类型,包括自然环境,人类健康,和社会经济环境。子图 d,根据在 a、b、c 中显示的相应图标,展示了具体风险实例及其分类。

领域风险涉及到 LLM 用于科学发现的 Agents 在特定的科学领域内操作时可能产生的不利后果。例如,在生物学或化学领域使用 AI 科学家可能会意外地或者不知道如何处理具有高风险的物质,例如放射性元素或者生物危害物质。这可能会导致过分的自主性,进而引发人身或环境灾难。

对环境的影响是除特定科学领域外的另一大潜在风险。当用于科学发现的 Agents 的活动影响到了人类或非人类环境时,它可能会引发新的安全威胁。例如,在未经编程以防止对环境造成无效或有害影响的情况下,AI 科学家可能会对环境做出无益的和有毒的干扰,比如污染水源或破坏生态平衡。

在该文中,作者们重点关注的是由 LLM 科学 Agents 引起的全新风险,而不是已经存在的,由其他类型的 Agents(例如,由统计模型驱动的Agents)或一般科学实验引起的风险。在揭示这些新风险的同时,该文强调了设计有效的防护措施的必要性。作者列出了 14 种可能的风险源,它们统称为 Scientific Agents 的脆弱性。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

这些自主 Agents 通常包括五个基本模块:LLMs、计划、行动、外部工具、记忆和知识。这些模块在一个顺序管道中运作:从任务或用户接收输入,利用记忆或知识进行计划,执行较小的预谋任务(通常涉及科学领域的工具或机器人),最后将结果或反馈存储在他们的记忆库中。尽管应用广泛,但这些模块中存在一些显着的脆弱性,导致了独特的风险和实际挑战。在此部分,该文对每个模块的高级概念提供了概述,并总结了与它们相关的脆弱性。

1. LLMs(基础模型)

LLMs 赋予 Agents 基本能力。然而,它们本身存在一些风险:

事实错误:LLMs 容易产生看似合理但是错误的信息。

容易受到越狱攻击:LLMs 易受到绕过安全措施的操控。

推理能力缺陷:LLMs 通常在处理深度逻辑推理和处理复杂科学论述方面存在困难。他们无法执行这些任务可能会导致有缺陷的计划和交互,因为他们可能会使用不适当的工具。

缺乏最新知识:由于 LLMs 是在预先存在的数据集上进行训练的,他们可能缺乏最新的科学发展情况,导致可能与现代科学知识产生错位。尽管已经出现了检索增强的生成(RAG),但在寻找最新知识方面还存在挑战。

2.规划模块

对于一个任务,规划模块的设计是将任务分解成更小、更易于管理的组成部分。然而,以下脆弱性存在:

对长期规划中的风险缺乏意识:Agents 通常难以完全理解和考虑他们的长期行动计划可能带来的潜在风险。

资源浪费和死循环:Agents 可能会参与低效的规划过程,导致资源浪费并陷入非生产性的循环。

不足的多任务规划:Agents 通常在多目标或多工具任务中存在困难,因为它们被优化用来完成单一任务。

3.行动模块

一旦任务被分解,行动模块就会执行一系列的行动。然而,这个过程引入了一些特定的脆弱性:

威胁识别:Agents 经常忽视微妙和间接的攻击,导致脆弱性。

对人机交互缺乏规定:科学发现中 Agents 的出现强调了需要道德准则,尤其是在与人类在诸如遗传学等敏感领域的互动中。

4.外部工具

在执行任务的过程中,工具模块为 Agents 提供了一套有价值的工具(例如,化学信息学工具包,RDKit)。这些工具赋予了 Agents 更强大的能力,使他们能够更有效地处理任务。然而,这些工具也带来了一些脆弱性。

工具使用中的监督不足:缺乏对 Agents 如何使用工具的有效监督。

在潜在危害的情况。例如,工具的选择不正确或误用可能触发危险的反应,甚至爆炸。Agents 可能并不完全意识到他们使用的工具所带来的风险,特别是在这些专门的科学任务中。因此,通过从现实世界的工具使用中学习,增强安全保护措施是至关重要的(OpenAI,2023b)。

5.记忆和知识模块

LLMs 的知识在实践中可能会变得混乱,就像人类的记忆故障一样。记忆和知识模块试图缓解这个问题,利用外部数据库进行知识检索和集成。然而,仍然存在一些挑战:

领域特定安全知识的限制:Agents 在生物技术或核工程等专业领域的知识短板可能会导致安全关键的推理漏洞。

人类反馈的限制:不充分、不均匀或低质量的人类反馈可能会阻碍 Agents 与人类价值和科学目标的对齐。

不充分的环境反馈:Agents 可能无法接收或正确解析环境反馈,比如世界的状态或其他 Agents 的行为。

不可靠的研究来源:Agents 可能会利用或在过时或不可靠的科学信息上进行训练,从而导致错误或有害知识的传播。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

该文同时对 LLMs 和 Agents 的安全防护的相关工作做了调查,并进行总结。关于该领域的限制和挑战,尽管有许多研究都已经增强了科学 Agents 的能力,但是只有少数的努力考虑到了安全机制,唯独 SciGuard 开发了一个专门用于风险控制的 Agents。在这里,该文总结了四个主要的挑战:

(1)缺乏用于风险控制的专门模型。

(2)缺乏领域特定的专家知识。

(3)使用工具引入的风险。

(4)到目前为止,缺乏评估科学领域安全性的基准测试。

因此,解决这些风险需要系统性的解决方案,尤其是结合人类的监管,更加准确地对齐理解 Agents 以及对环境反馈的理解。这个框架的三个部分不仅需要独立进行科研,同时也需要相互交叉以求得最大化的防护效果。

虽然这种措施可能会限制用于科学发现的 Agents 的自主性,但安全性和道德原则应优于更广泛的自主性。毕竟,对人类以及环境产生的影响可能很难逆向修复,而公众对用于科学发现的 Agents 的挫败感过高也可能会对其未来的接受性产生消极影响。尽管花费更多的时间和精力,但该文相信只有全面的风险控制并发展相应的防护措施,才能真正实现用于科学发现的 Agents 从理论到实践的转化。

此外,他们还强调了保护用于科学发现的 Agents 的限制和挑战,并提倡开发出更强大的模型、更健壮的评价标准和更全面的规则来有效缓解这些问题。最后,他们呼吁,当我们开发和使用用于科学发现的 Agents 时,应将风险控制优先于更强大的自主能力。

尽管自主性是一个值得追求的目标,能在各个科学领域中极大地提升生产力,但我们不能为了追求更多的自主能力,而产生严重的风险和漏洞。因此,我们必须平衡自主性和安全性,并采取全面的策略,以确保用于科学发现的 Agents 的安全部署和使用。我们也应从关注产出的安全性转向关注行为的安全性,在评估 Agents 的产出的准确性的同时,也要考虑 Agents 的行动和决策。

总的来说,这篇《Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science》对由大型语言模型(LLMs)驱动的智能 Agents 在各个科学领域中自主进行实验与推动科学发现的潜力进行了深度分析。尽管这些能力充满希望,也带来了新的脆弱性,需要进行细致的安全考量。然而,目前文献研究中存在明显的空白,因为还没有全面探讨这些脆弱性。为了填补这一空缺,这篇立场文将对科学领域中基于 LLM 的 Agents 的脆弱性进行深入的探讨,揭示了滥用他们的潜在风险,强调了实施安全措施的必要性。

首先,该文提供了对科学 LLMAgents 一些潜在风险的全面概述,包括用户意图,特定的科学领域,以及他们对外部环境的可能影响。然后,该文深入研究了这些脆弱性的起源,并对现有的有限研究进行了回顾。

在这些分析的基础上,该文提出了一个由人类监管、Agents 对齐、以及对环境反馈理解(Agents 监管)构成的三元框架,以减少这些明确的风险。更进一步,该文特别强调了保护用于科学发现的 Agents 所面临的局限性和挑战,并主张发展更好的模型、鲁棒性更加强大的基准,以及建立全面的规定,有效地解决了这些问题。

最后,该文呼吁,在开发和使用用于科学发现的 Agents 的时候,要将风险控制优先于追求更强大的自主能力。

尽管自主性是一个值得追求的目标,在各种科学领域里,它都有增强生产力的巨大潜力。然而,我们不能以产生严重风险和脆弱性的代价来追求更强大的自主性。因此,我们必须在自主性和安全性之间寻找平衡,并采取全面的策略,以确保用于科学发现的 Agents 的安全部署和使用。而我们的侧重点也应该从输出的安全性转移到行为的安全性,这意味着我们需要全面评估用于科学发现的 Agents,不仅审查其输出的准确性,还审查其运作和决策方式。行为安全在科学领域里非常关键,因为在不同的环境下,同样的行动可能会导致完全不同的后果,有些可能是有害的。因此,该文建议以人类、机器和环境三者之间的关系为重点,尤其是注重健壮、动态的环境反馈。

以上是如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
解读CRISP-ML(Q):机器学习生命周期流程解读CRISP-ML(Q):机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

基于因果森林算法的决策定位应用基于因果森林算法的决策定位应用Apr 08, 2023 am 11:21 AM

译者 | 朱先忠​审校 | 孙淑娟​在我之前的​​博客​​中,我们已经了解了如何使用因果树来评估政策的异质处理效应。如果你还没有阅读过,我建议你在阅读本文前先读一遍,因为我们在本文中认为你已经了解了此文中的部分与本文相关的内容。为什么是异质处理效应(HTE:heterogenous treatment effects)呢?首先,对异质处理效应的估计允许我们根据它们的预期结果(疾病、公司收入、客户满意度等)选择提供处理(药物、广告、产品等)的用户(患者、用户、客户等)。换句话说,估计HTE有助于我

2023年机器学习的十大概念和技术2023年机器学习的十大概念和技术Apr 04, 2023 pm 12:30 PM

机器学习是一个不断发展的学科,一直在创造新的想法和技术。本文罗列了2023年机器学习的十大概念和技术。 本文罗列了2023年机器学习的十大概念和技术。2023年机器学习的十大概念和技术是一个教计算机从数据中学习的过程,无需明确的编程。机器学习是一个不断发展的学科,一直在创造新的想法和技术。为了保持领先,数据科学家应该关注其中一些网站,以跟上最新的发展。这将有助于了解机器学习中的技术如何在实践中使用,并为自己的业务或工作领域中的可能应用提供想法。2023年机器学习的十大概念和技术:1. 深度神经网

使用PyTorch进行小样本学习的图像分类使用PyTorch进行小样本学习的图像分类Apr 09, 2023 am 10:51 AM

近年来,基于深度学习的模型在目标检测和图像识别等任务中表现出色。像ImageNet这样具有挑战性的图像分类数据集,包含1000种不同的对象分类,现在一些模型已经超过了人类水平上。但是这些模型依赖于监督训练流程,标记训练数据的可用性对它们有重大影响,并且模型能够检测到的类别也仅限于它们接受训练的类。由于在训练过程中没有足够的标记图像用于所有类,这些模型在现实环境中可能不太有用。并且我们希望的模型能够识别它在训练期间没有见到过的类,因为几乎不可能在所有潜在对象的图像上进行训练。我们将从几个样本中学习

LazyPredict:为你选择最佳ML模型!LazyPredict:为你选择最佳ML模型!Apr 06, 2023 pm 08:45 PM

本文讨论使用LazyPredict来创建简单的ML模型。LazyPredict创建机器学习模型的特点是不需要大量的代码,同时在不修改参数的情况下进行多模型拟合,从而在众多模型中选出性能最佳的一个。 摘要本文讨论使用LazyPredict来创建简单的ML模型。LazyPredict创建机器学习模型的特点是不需要大量的代码,同时在不修改参数的情况下进行多模型拟合,从而在众多模型中选出性能最佳的一个。​本文包括的内容如下:​简介​LazyPredict模块的安装​在分类模型中实施LazyPredict

Mango:基于Python环境的贝叶斯优化新方法Mango:基于Python环境的贝叶斯优化新方法Apr 08, 2023 pm 12:44 PM

译者 | 朱先忠审校 | 孙淑娟引言模型超参数(或模型设置)的优化可能是训练机器学习算法中最重要的一步,因为它可以找到最小化模型损失函数的最佳参数。这一步对于构建不易过拟合的泛化模型也是必不可少的。优化模型超参数的最著名技术是穷举网格搜索和随机网格搜索。在第一种方法中,搜索空间被定义为跨越每个模型超参数的域的网格。通过在网格的每个点上训练模型来获得最优超参数。尽管网格搜索非常容易实现,但它在计算上变得昂贵,尤其是当要优化的变量数量很大时。另一方面,随机网格搜索是一种更快的优化方法,可以提供更好的

人工智能自动获取知识和技能,实现自我完善的过程是什么人工智能自动获取知识和技能,实现自我完善的过程是什么Aug 24, 2022 am 11:57 AM

实现自我完善的过程是“机器学习”。机器学习是人工智能核心,是使计算机具有智能的根本途径;它使计算机能模拟人的学习行为,自动地通过学习来获取知识和技能,不断改善性能,实现自我完善。机器学习主要研究三方面问题:1、学习机理,人类获取知识、技能和抽象概念的天赋能力;2、学习方法,对生物学习机理进行简化的基础上,用计算的方法进行再现;3、学习系统,能够在一定程度上实现机器学习的系统。

超参数优化比较之网格搜索、随机搜索和贝叶斯优化超参数优化比较之网格搜索、随机搜索和贝叶斯优化Apr 04, 2023 pm 12:05 PM

本文将详细介绍用来提高机器学习效果的最常见的超参数优化方法。 译者 | 朱先忠​审校 | 孙淑娟​简介​通常,在尝试改进机器学习模型时,人们首先想到的解决方案是添加更多的训练数据。额外的数据通常是有帮助(在某些情况下除外)的,但生成高质量的数据可能非常昂贵。通过使用现有数据获得最佳模型性能,超参数优化可以节省我们的时间和资源。​顾名思义,超参数优化是为机器学习模型确定最佳超参数组合以满足优化函数(即,给定研究中的数据集,最大化模型的性能)的过程。换句话说,每个模型都会提供多个有关选项的调整“按钮

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
1 个月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境