搜索
首页科技周边人工智能大型语言模型对编码来说是错误的吗?

当目标是准确性、一致性、精通游戏或找到一个正确答案时,强化学习模型会击败生成式人工智能。

大型语言模型,如GPT-4,令人瞩目,因为它们可以生成高质量、流畅自然的文本,极具说服力。可悲的是,炒作也是如此:微软的研究人员屏气地将微软资助的OpenAI GPT-4模型描述为展示“人工通用智能的火花”。

当然,除非微软指的是产生幻觉的倾向,生成的错误文本肯定是错误的。GPT还不擅长下棋和围棋等游戏,不擅长数学,编写的代码可能有错误和微妙的漏洞。

这并不意味着大型语言模型都是炒作。我们需要一些新的角度来讨论生成式人工智能(GenAI),而不是过分夸大它与其他技术的区别。

正如IEEESpectrum的一篇文章所详述的那样,一些专家,例如OpenAI的IlyaSutskever,认为添加带有人类反馈的强化学习可以消除LLM幻觉。但是其他人,比如Meta的YannLeCun和GeoffHinton(最近从Google退休),认为大型语言模型中更根本的缺陷在起作用。两人都认为,大型语言模型缺乏非语言知识,而非语言知识对于理解语言所描述的潜在现实是至关重要的。

Diffblue公司的CEO Mathew Lodge在一次采访中指出,存在一种更为优秀的解决方案。他说,“小型、快速、运行成本低廉的强化学习模型,在从玩游戏到编写代码的各种任务中,都能轻松击败拥有千亿参数的大型语言模型。”

我们是否在错误的地方寻找人工智能黄金?

Lodge所说的是,生成式人工智能一定有其应用场景,但我们也许正试图将其强行引入不太适合的强化学习领域。以游戏为例。

Levy Rozman, 一位国际象棋大师,发布了一个他与 ChatGPT(聊天式人工智能)对弈的视频。这个模型做出了一系列荒谬和非法的动作,包括捕捉自己的棋子。最好的开源国际象棋软件(Stockfish,它根本不使用神经网络)让ChatGPT在不到10步的时间里击败,因为大型语言模型找不到合法的走法。这证明了大型语言模型远远不能达到通用人工智能的宣传,而这并不是一个孤立的例子。

由于其强化学习算法的驱动,谷歌AlphaGo是当前围棋人工智能中表现最佳的。强化学习的工作原理是为一个问题生成不同的解决方案,尝试它们,使用结果来改进下一个建议,然后重复这个过程数千次以找到最佳结果。

在AlphaGo的例子中,人工智能会尝试不同的走法,并预测这是否是一个好走法,以及它是否有可能从这个位置赢得比赛。它使用反馈来“跟踪”有希望的移动序列,并生成其他可能的移动。其效果是对可能的移动进行搜索。

这个过程被称为概率搜索。虽然招式繁多,你不需要尝试所有,但可以耐心搜索可能找到最佳招式的领域。这对于玩游戏来说非常有效。AlphaGo过去曾击败过围棋大师。AlphaGo并非万无一失,但它目前的表现比当今最好的大型语言模型还要好。

概率与准确性

支持者相信,即使有证据表明大型语言模型的表现明显落后于其他类型的人工智能,它们也会逐渐变得更好。然而,Lodge指出,我们需要理解为什么他们能够在这种任务中表现得更优秀,如果我们认同这个观点。他继续说道,在这个问题上出现困难的原因是,没有人能够准确预测GPT-4对于特定提示的反应会带来怎样的结果。这种模式是人类无法解释的。他认为,这就是“‘即时工程’不存在的原因。”他强调,对于人工智能研究人员来说,证明大型语言模型的“涌现特性”存在也是一场斗争,更不用说预测它们了。

可以说,最好的论证是归纳法。GPT-4在一些语言任务上比GPT-3更好,因为它更大。因此,更大的模型会更好。

Lodge的看法是GPT-4仍需克服GPT-3所面临的挑战,因此存在一个问题。其中之一便是数学;虽然GPT-4在加法运算方面比GPT-3更优秀,但它在乘法和其他数学运算方面仍然存在瓶颈。

增加语言模型的大小并不能神奇地解决这些问题,据OpenAI称更大的模型并不是解决方案。原因归结为大型语言模型的基本性质,正如OpenAI论坛所指出的那样:“大型语言模型本质上是概率性的,并且通过根据他们在训练数据中观察到的模式生成可能的输出来运行。在数学和物理问题中,找到唯一的正确答案的可能性很小。”

人工智能过程中,由强化学习驱动的方法能够更准确地产生结果,因为这是一个追求目标的过程。强化学习通过迭代寻找最接近目标的最佳答案,以达到预期的目标。Lodge指出,大型语言模型课程“并不是为了迭代或寻找目标而设计的。它们的设计目的是给出‘足够好’的一次或几次回答。”

“一次性”答案是模型产生的第一个答案,它是通过预测提示中的一系列单词而获得的。"Few-shot learning" involves providing additional samples or cues to the model to assist it in generating better predictions.。大型语言模型通常也会加入一些随机性(也就是说,它们是“随机的”),以增加更好的回答的可能性,所以他们会对同样的问题给出不同的答案。

并不是说大型语言模型世界忽视了强化学习。GPT-4结合了“强化学习与人类反馈”(RLHF)。人类操作员训练后的核心模型更倾向于某些答案,但从根本上来说,这并不会改变模型首先生成的答案。Lodge指出,大型语言模型可能会提供以下选项来填补句子“韦恩•格雷茨基喜欢冰...”的空缺。

1.韦恩•格雷茨基喜欢冰淇淋。

2.韦恩•格雷茨基喜欢冰球。

3.韦恩•格雷茨基喜欢冰上钓鱼。

4.韦恩•格雷茨基喜欢滑冰。

5.韦恩•格雷茨基喜欢冰酒。

人工操作员对答案进行排序,可能会认为加拿大传奇冰球运动员更喜欢冰球和滑冰,尽管冰淇淋有着广泛的吸引力。人类的排名和更多的人类写的回答被用来训练模型。请注意,GPT-4并没有假装准确地知道韦恩•格雷茨基的偏好,只是在提示下最可能的完成。

最后,大型语言模型的设计并不是高度准确或一致的。在准确性和确定性行为之间存在一种权衡,以换取普遍性。对Lodge来说,所有这些都意味着,在大规模应用人工智能方面,强化学习击败了生成式人工智能。

将强化学习应用于软件

软件开发呢?正如我所写的,GenAI已经为那些使用GitHubCopilot或AmazonCodeWhisperer等工具提高生产力的开发人员提供了机会。这不是猜测——它已经发生了。这些工具可以预测接下来可能出现的代码,它们根据集成开发环境中插入点前后的代码来进行预测。

事实上,正如VisualStudio杂志的DavidRamel所言,最新版本的Copilot已经生成了61%的Java代码。对于那些担心这会减少软件开发人员工作的人,请记住,这些工具需要勤奋的人工监督来检查完成情况,并对其进行编辑,以使代码正确编译和运行。自IDE诞生之初,自动补全功能就一直是IDE的主要功能,而Copilot和其他代码生成器使它变得更加有用。大规模的自主编码不同,实际上需要编写61%的Java代码。

然而,强化学习可以进行精确的大规模自主编码,Lodge说。当然,他这么说是出于既得利益:2019年,他的公司Diffblue发布了基于强化学习的商业单元测试编写工具Cover。Cover在没有人工干预的情况下编写完整的单元测试套件,使大规模自动化复杂的、容易出错的任务成为可能。

Lodge有偏见吗?绝对的。他有许多经验证明强化学习在软件开发中胜过GenAI的信念是正确的。如今,Diffblue使用强化学习来搜索所有可能的测试方法的空间,为每个方法自动编写测试代码,并在编写的测试中选择最佳测试。强化学习的奖励函数以多种标准为基础,包括测试覆盖率和美学,其中之一就包括符合人类编写的编码风格。该工具平均在一秒钟内为每种方法创建测试。

Lodge认为,如果目标是为一个没有人理解的程序自动编写10,000个单元测试,那么强化学习是唯一真正的解决方案。“大型语言模型无法竞争;人类没有办法有效地监督它们,并在这种规模上纠正它们的代码,使模型更大、更复杂并不能解决这个问题。”

结论:大型语言模型最强大的地方在于它们是通用语言处理器。他们可以完成没有受过明确训练的语言任务。这意味着他们可以在内容生成(文案)和许多其他事情上做得很好。Lodge强调:“但这并不能使大型语言模型成为人工智能模型的替代品,人工智能模型通常基于强化学习,后者更准确、更一致,而且可以大规模使用。”

以上是大型语言模型对编码来说是错误的吗?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。