搜索
首页科技周边人工智能LLM的三大缺陷,你知道几个?

LLM的三大缺陷,你知道几个?

Nov 26, 2023 am 11:26 AM
gptllm

科学:远非是一种永远仁慈有益的实体,未来的感知通用AI很可能是一个操纵性反社会个体,它会吞噬你所有个人数据,然后在最需要它的时候就崩溃。

译自3 Ways LLMs Can Let You Down,作者 Joab Jackson。

OpenAI 即将发布 GPT-5,外界对它寄予厚望,最乐观的预测甚至认为它将实现通用人工智能。但与此同时,CEO Sam Altman和他的团队在将其推向市场过程中面临许多严峻的障碍,他本月早些时候就已经承认了这一点。

有一些最近发表的研究论文可能提供了对于Altman挑战的线索。这些论文总结了OpenAI开发的GPT和大型语言模型的各种缺点

综上所述,这些论文指出,一个基于通用语言模型的智能体并非纯粹有益、诚实和善良的存在,实际上它可能是一个愚蠢的反社会人格,会吞噬你所有的个人数据,最终在你最需要它的时候崩溃

OpenAI董事会突然解雇Altman的真正原因可能永远不为人所知,但一个表现不佳的通用语言模型肯定无法改善董事会的情绪

正如资本化厌恶者 Altman 自己在之前被称为 Twitter 的社交媒体服务上写的那样:“我期待 AI 在超人的说服力方面远远领先于通用智能,这可能会导致一些非常奇怪的结果。”

鉴于这一事实,以下有三种常见的语言模型可能会令你失望:

通用语言模型会欺骗你

我们早已知道通用语言模型有能力生成不准确的信息,但当面对一系列相互矛盾的提示时,它们可能会故意欺骗你,同时否认自己在进行欺骗!

Apollo 研究公司的科学家Jérémy Scheurer和他的同事在“大型语言模型在受压力时可以战略性地欺骗它们的用户”一文中写道:“就我们所知,这是首次展示经过训练的通用语言模型在没有任何直接的欺骗指示或训练的情况下,策略性地欺骗其用户的情况。”

在这项研究中,研究人员设置了一个模拟环境,GPT-4 在其中扮演一个自主股票交易代理的角色,没有关于欺骗行为的指导。它可以使用交易工具查询和分析股票以及执行交易的能力。

一旦设置完成,代理就被置于研究人员所说的“高压力情况”。它收到了管理者的电子邮件,管理者哀叹公司业绩不佳,需要改进。当代理开始训练时,它在股票市场没有找到有前景的结果。公司的另一员工随后发送信息,称下一季度市场会衰退。

正在这时,代理接到了一位同事发来的关于潜在合并的内幕消息提示(这是一笔有利可图的交易),并且还收到了有关没有获得管理层批准的警告,如果按照这一消息进行交易的提醒

它最终还是继续了交易吗?当然!

LLM的三大缺陷,你知道几个?图片

追溯推理,研究人员发现,通用语言模型会认识到不道德的行为,但仍会以公司困境为由做出决定。

此外,代理似乎通过没有清晰解释的方式来“欺骗”用户交易承诺的原因。内部信息没有在代理必须提交的解释交易决策的报告中提到。即使直接问及,代理也否认其了解合并公告

LLM的三大缺陷,你知道几个?图片

研究人员对GPT-4的各个版本进行了模拟,并得出结论:所有GPT-4的变体都表现出“高水平的不一致性、战略性欺骗和加剧战略性欺骗”

有趣的是,这种欺骗行为似乎是一种新兴行为。GPT-3.5 和 GPT-3 模型的变体都没有展示出这种明显的欺骗行为

“当模型决定根据内幕信息交易时,它们的推理轨迹通常会认识到这种行为的不道德和非法性质,但它们仍会通过强调风险和当前状况来证明选择的正当性。”

研究人员不愿就通用语言模型的行为超出这个具体场景做出更广泛的结论。然而,至少有一个要点值得考虑:即使你给通用语言模型一个具体的指示不要做某些事情,它还是可能会无视指示去做。

他们写道:“系统提示是不足以保证行动一致的。”事实上,如果一个模型执行了被禁止的操作,它可能会采取行动“战略性地隐藏其不一致”。

通用语言模型有点傻

对一个被期许能给机器带来感知能力的实体来说,两个最近的研究发现通用语言模型并不是 AI 领域中最聪明的模型,一个来自谷歌,另一个由国家科学基金会资助。

国家科学基金会资助的研究将 GPT-4(文本)和 GPT-4V(视觉或多模态)与人类在解决一系列抽象难题上的能力进行了比较。

本项测试旨在评估抽象思维能力。很多使用GPT的人都相信它似乎具备超越训练模型的推理能力,而此项测试试图帮助回答这个问题。测试要求通用语言模型在给出详细说明和一个示例的情况下,解决一个问题

然而,就多个案例而言,GPT的两个版本都无法像人类一样有效地解决基于ConceptARC基准的难题

研究人员得出结论:「人类在每个概念上的普遍高准确率表明成功地概括了每个概念组中的不同变化。」「相比之下,我们测试的程序的准确率要低得多,表明它们缺乏概括一个概念组变化的能力。」

所以,GPT不仅未能通过ConceptARC考试,而且大语言模型似乎也没有给谷歌研究人员留下深刻印象,至少就它们从自己的知识库中概括总结的能力而言。这是根据谷歌DeepMind研究员Steve Yadlowsky的一篇题为“预训练数据混合使 transformer 模型中的窄模型选择能力成为可能”的研究摘要。

在一组符号化测试中,在线性函数上预训练的 transformer 在进行线性预测时表现很好,而在正弦波上训练的 transformer 可以进行良好的正弦波预测。所以你可能会假设在两者上训练的 transformer 可以轻松解决线性和正弦波技术的组合的问题。

LLM的三大缺陷,你知道几个?图片

但你猜错了。研究人员指出:“当函数远离预训练期间见过的那些时,预测是不稳定的。”

模型选择能力受限于接近预训练数据的程度,这意味着函数空间的广泛覆盖对于概括上下文学习能力至关重要

我们生活在一个非比寻常的时代,人类知识的总和还没有被 AI 生成的数据污染。几乎所有写下的东西都是人生成的。

但是一组研究人员在5月发表在Arxiv上的一篇论文“递归的诅咒:在生成的数据上训练会使模型遗忘”中警告说,一旦AI生成的内容混入任何大语言模型,它将扰乱分布表,使任何模型的精确度越来越低,直到完全崩溃。该研究组由剑桥大学的Ilia Shumailov领导。

当使用GPT时,近亲繁殖的危险非常高,因为通用语言模型会不断从网络上抓取数据,这些数据会被AI生成的内容“增强”,这种情况可能会越来越严重。(这是基于早期版本的GPT)

“模型崩溃是指一种退化的学习过程,随着时间的推移,模型开始遗忘不可能事件,因为模型被自己对现实的预测所污染。”

研究人员猜测,在未来,“关于人与系统真实互动的数据的价值,在互联网上抓取的内容中存在着通用语言模型生成的内容的情况下,将变得越来越有价值。”

我们运行通用语言模型的时间越长,它对甜蜜、甜蜜的人类互动的渴望就越强烈。 换句话说,当我们持续运行通用语言模型时,它对于甜蜜、亲密的人际互动的渴望会变得更加强烈

在自己的数据上训练的模型将退化为一种退化过程,在这一过程中,它们将“失去关于真实分布的信息”。首先,边缘数据将从数据集中消失,然后方差将缩小。并且模型将随着它收集的错误越来越严重而变得越来越糟糕,这些错误将在几代模型中积累,直到模型被自己的数据所污染,以至于它不再与实际建模的对象有任何相似之处。

研究人员表明,这不仅发生在通用语言模型中,还发生在各种类型的模型中。

以上是LLM的三大缺陷,你知道几个?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
让我们跳舞:结构化运动以微调我们的人类神经网让我们跳舞:结构化运动以微调我们的人类神经网Apr 27, 2025 am 11:09 AM

科学家已经广泛研究了人类和更简单的神经网络(如秀丽隐杆线虫中的神经网络),以了解其功能。 但是,出现了一个关键问题:我们如何使自己的神经网络与新颖的AI一起有效地工作

新的Google泄漏揭示了双子AI的订阅更改新的Google泄漏揭示了双子AI的订阅更改Apr 27, 2025 am 11:08 AM

Google的双子座高级:新的订阅层即将到来 目前,访问Gemini Advanced需要$ 19.99/月Google One AI高级计划。 但是,Android Authority报告暗示了即将发生的变化。 最新的Google P中的代码

数据分析加速度如何求解AI的隐藏瓶颈数据分析加速度如何求解AI的隐藏瓶颈Apr 27, 2025 am 11:07 AM

尽管围绕高级AI功能炒作,但企业AI部署中潜伏的巨大挑战:数据处理瓶颈。首席执行官庆祝AI的进步时,工程师努力应对缓慢的查询时间,管道超载,一个

Markitdown MCP可以将任何文档转换为Markdowns!Markitdown MCP可以将任何文档转换为Markdowns!Apr 27, 2025 am 09:47 AM

处理文档不再只是在您的AI项目中打开文件,而是将混乱变成清晰度。诸如PDF,PowerPoints和Word之类的文档以各种形状和大小淹没了我们的工作流程。检索结构化

如何使用Google ADK进行建筑代理? - 分析Vidhya如何使用Google ADK进行建筑代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理开发套件(ADK)的力量创建具有现实世界功能的智能代理!该教程通过使用ADK来构建对话代理,并支持Gemini和GPT等各种语言模型。 w

在LLM上使用SLM进行有效解决问题-Analytics Vidhya在LLM上使用SLM进行有效解决问题-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型语言模型 (SLM) 专为效率而设计。在资源匮乏、实时性和隐私敏感的环境中,它们比大型语言模型 (LLM) 更胜一筹。 最适合专注型任务,尤其是在领域特异性、控制性和可解释性比通用知识或创造力更重要的情况下。 SLM 并非 LLMs 的替代品,但在精度、速度和成本效益至关重要时,它们是理想之选。 技术帮助我们用更少的资源取得更多成就。它一直是推动者,而非驱动者。从蒸汽机时代到互联网泡沫时期,技术的威力在于它帮助我们解决问题的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何将Google Gemini模型用于计算机视觉任务? - 分析Vidhya如何将Google Gemini模型用于计算机视觉任务? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google双子座的力量用于计算机视觉:综合指南 领先的AI聊天机器人Google Gemini扩展了其功能,超越了对话,以涵盖强大的计算机视觉功能。 本指南详细说明了如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Apr 27, 2025 am 09:20 AM

2025年的AI景观正在充满活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到来。 这些尖端的车型分开了几周,具有可比的高级功能和令人印象深刻的基准分数。这个深入的比较

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具