当目标是准确性、一致性、精通游戏或找到一个正确答案时,强化学习模型会击败生成式人工智能。
大型语言模型,如GPT-4,令人瞩目,因为它们可以生成高质量、流畅自然的文本,极具说服力。可悲的是,炒作也是如此:微软的研究人员屏气地将微软资助的OpenAI GPT-4模型描述为展示“人工通用智能的火花”。
当然,除非微软指的是产生幻觉的倾向,生成的错误文本肯定是错误的。GPT还不擅长下棋和围棋等游戏,不擅长数学,编写的代码可能有错误和微妙的漏洞。
这并不意味着大型语言模型都是炒作。我们需要一些新的角度来讨论生成式人工智能(GenAI),而不是过分夸大它与其他技术的区别。
正如IEEESpectrum的一篇文章所详述的那样,一些专家,例如OpenAI的IlyaSutskever,认为添加带有人类反馈的强化学习可以消除LLM幻觉。但是其他人,比如Meta的YannLeCun和GeoffHinton(最近从Google退休),认为大型语言模型中更根本的缺陷在起作用。两人都认为,大型语言模型缺乏非语言知识,而非语言知识对于理解语言所描述的潜在现实是至关重要的。
Diffblue公司的CEO Mathew Lodge在一次采访中指出,存在一种更为优秀的解决方案。他说,“小型、快速、运行成本低廉的强化学习模型,在从玩游戏到编写代码的各种任务中,都能轻松击败拥有千亿参数的大型语言模型。”
我们是否在错误的地方寻找人工智能黄金?
Lodge所说的是,生成式人工智能一定有其应用场景,但我们也许正试图将其强行引入不太适合的强化学习领域。以游戏为例。
Levy Rozman, 一位国际象棋大师,发布了一个他与 ChatGPT(聊天式人工智能)对弈的视频。这个模型做出了一系列荒谬和非法的动作,包括捕捉自己的棋子。最好的开源国际象棋软件(Stockfish,它根本不使用神经网络)让ChatGPT在不到10步的时间里击败,因为大型语言模型找不到合法的走法。这证明了大型语言模型远远不能达到通用人工智能的宣传,而这并不是一个孤立的例子。
由于其强化学习算法的驱动,谷歌AlphaGo是当前围棋人工智能中表现最佳的。强化学习的工作原理是为一个问题生成不同的解决方案,尝试它们,使用结果来改进下一个建议,然后重复这个过程数千次以找到最佳结果。
在AlphaGo的例子中,人工智能会尝试不同的走法,并预测这是否是一个好走法,以及它是否有可能从这个位置赢得比赛。它使用反馈来“跟踪”有希望的移动序列,并生成其他可能的移动。其效果是对可能的移动进行搜索。
这个过程被称为概率搜索。虽然招式繁多,你不需要尝试所有,但可以耐心搜索可能找到最佳招式的领域。这对于玩游戏来说非常有效。AlphaGo过去曾击败过围棋大师。AlphaGo并非万无一失,但它目前的表现比当今最好的大型语言模型还要好。
概率与准确性
支持者相信,即使有证据表明大型语言模型的表现明显落后于其他类型的人工智能,它们也会逐渐变得更好。然而,Lodge指出,我们需要理解为什么他们能够在这种任务中表现得更优秀,如果我们认同这个观点。他继续说道,在这个问题上出现困难的原因是,没有人能够准确预测GPT-4对于特定提示的反应会带来怎样的结果。这种模式是人类无法解释的。他认为,这就是“‘即时工程’不存在的原因。”他强调,对于人工智能研究人员来说,证明大型语言模型的“涌现特性”存在也是一场斗争,更不用说预测它们了。
可以说,最好的论证是归纳法。GPT-4在一些语言任务上比GPT-3更好,因为它更大。因此,更大的模型会更好。
Lodge的看法是GPT-4仍需克服GPT-3所面临的挑战,因此存在一个问题。其中之一便是数学;虽然GPT-4在加法运算方面比GPT-3更优秀,但它在乘法和其他数学运算方面仍然存在瓶颈。
增加语言模型的大小并不能神奇地解决这些问题,据OpenAI称更大的模型并不是解决方案。原因归结为大型语言模型的基本性质,正如OpenAI论坛所指出的那样:“大型语言模型本质上是概率性的,并且通过根据他们在训练数据中观察到的模式生成可能的输出来运行。在数学和物理问题中,找到唯一的正确答案的可能性很小。”
人工智能过程中,由强化学习驱动的方法能够更准确地产生结果,因为这是一个追求目标的过程。强化学习通过迭代寻找最接近目标的最佳答案,以达到预期的目标。Lodge指出,大型语言模型课程“并不是为了迭代或寻找目标而设计的。它们的设计目的是给出‘足够好’的一次或几次回答。”
“一次性”答案是模型产生的第一个答案,它是通过预测提示中的一系列单词而获得的。"Few-shot learning" involves providing additional samples or cues to the model to assist it in generating better predictions.。大型语言模型通常也会加入一些随机性(也就是说,它们是“随机的”),以增加更好的回答的可能性,所以他们会对同样的问题给出不同的答案。
并不是说大型语言模型世界忽视了强化学习。GPT-4结合了“强化学习与人类反馈”(RLHF)。人类操作员训练后的核心模型更倾向于某些答案,但从根本上来说,这并不会改变模型首先生成的答案。Lodge指出,大型语言模型可能会提供以下选项来填补句子“韦恩•格雷茨基喜欢冰...”的空缺。
1.韦恩•格雷茨基喜欢冰淇淋。
2.韦恩•格雷茨基喜欢冰球。
3.韦恩•格雷茨基喜欢冰上钓鱼。
4.韦恩•格雷茨基喜欢滑冰。
5.韦恩•格雷茨基喜欢冰酒。
人工操作员对答案进行排序,可能会认为加拿大传奇冰球运动员更喜欢冰球和滑冰,尽管冰淇淋有着广泛的吸引力。人类的排名和更多的人类写的回答被用来训练模型。请注意,GPT-4并没有假装准确地知道韦恩•格雷茨基的偏好,只是在提示下最可能的完成。
最后,大型语言模型的设计并不是高度准确或一致的。在准确性和确定性行为之间存在一种权衡,以换取普遍性。对Lodge来说,所有这些都意味着,在大规模应用人工智能方面,强化学习击败了生成式人工智能。
将强化学习应用于软件
软件开发呢?正如我所写的,GenAI已经为那些使用GitHubCopilot或AmazonCodeWhisperer等工具提高生产力的开发人员提供了机会。这不是猜测——它已经发生了。这些工具可以预测接下来可能出现的代码,它们根据集成开发环境中插入点前后的代码来进行预测。
事实上,正如VisualStudio杂志的DavidRamel所言,最新版本的Copilot已经生成了61%的Java代码。对于那些担心这会减少软件开发人员工作的人,请记住,这些工具需要勤奋的人工监督来检查完成情况,并对其进行编辑,以使代码正确编译和运行。自IDE诞生之初,自动补全功能就一直是IDE的主要功能,而Copilot和其他代码生成器使它变得更加有用。大规模的自主编码不同,实际上需要编写61%的Java代码。
然而,强化学习可以进行精确的大规模自主编码,Lodge说。当然,他这么说是出于既得利益:2019年,他的公司Diffblue发布了基于强化学习的商业单元测试编写工具Cover。Cover在没有人工干预的情况下编写完整的单元测试套件,使大规模自动化复杂的、容易出错的任务成为可能。
Lodge有偏见吗?绝对的。他有许多经验证明强化学习在软件开发中胜过GenAI的信念是正确的。如今,Diffblue使用强化学习来搜索所有可能的测试方法的空间,为每个方法自动编写测试代码,并在编写的测试中选择最佳测试。强化学习的奖励函数以多种标准为基础,包括测试覆盖率和美学,其中之一就包括符合人类编写的编码风格。该工具平均在一秒钟内为每种方法创建测试。
Lodge认为,如果目标是为一个没有人理解的程序自动编写10,000个单元测试,那么强化学习是唯一真正的解决方案。“大型语言模型无法竞争;人类没有办法有效地监督它们,并在这种规模上纠正它们的代码,使模型更大、更复杂并不能解决这个问题。”
结论:大型语言模型最强大的地方在于它们是通用语言处理器。他们可以完成没有受过明确训练的语言任务。这意味着他们可以在内容生成(文案)和许多其他事情上做得很好。Lodge强调:“但这并不能使大型语言模型成为人工智能模型的替代品,人工智能模型通常基于强化学习,后者更准确、更一致,而且可以大规模使用。”
以上是大型语言模型对编码来说是错误的吗?的详细内容。更多信息请关注PHP中文网其他相关文章!
![[带AI的吉卜力风格图像]介绍如何使用Chatgpt和版权创建免费图像](https://img.php.cn/upload/article/001/242/473/174707263295098.jpg?x-oss-process=image/resize,p_40)
OpenAI发布的最新模型GPT-4o,不仅能生成文本,还具备图像生成功能,引发广泛关注。其中最受瞩目的功能便是“吉卜力风格插画”的生成。只需将照片上传至ChatGPT,并给出简单的指令,即可生成宛如吉卜力工作室作品般梦幻的图像。本文将详细解读实际操作流程、效果感受,以及需要注意的错误和版权问题。 OpenAI发布的最新模型“o3”详情请点击此处⬇️ OpenAI o3(ChatGPT o3)详解:特性、定价体系及o4-mini介绍 吉卜力风格文章的英文版请点击此处⬇️ 利用ChatGPT创作吉

作为一种新的交流方法,在地方政府中使用和引入Chatgpt引起了人们的关注。尽管这种趋势在广泛的领域正在发展,但一些地方政府拒绝使用Chatgpt。 在本文中,我们将介绍地方政府中ChatGPT实施的示例。我们将通过各种改革实例,包括支持文件创建和与公民对话,从而探索如何通过各种改革实例来实现地方政府服务的质量和效率提高。 不仅旨在减少员工工作量并改善公民的便利性的地方政府官员,而且都对高级用例感兴趣。

您是否听说过一个名为“福卡斯提示系统”的框架?诸如ChatGpt之类的语言模型非常出色,但是适当的提示对于发挥其潜力至关重要。福卡(Fukatsu)提示是旨在提高输出准确性的最受欢迎的提示技术之一。 本文解释了福卡式风格提示的原理和特征,包括特定的用法方法和示例。此外,我们还引入了其他众所周知的及时模板和有用的技术来及时设计,因此,根据这些设计,我们将介绍C。

CHATGPT搜索:使用创新的AI搜索引擎有效获取最新信息! 在本文中,我们将彻底解释OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。让我们仔细研究一下功能,用法以及该工具如何根据实时网络信息和直观的易用性来帮助您提高信息收集效率。 chatgpt搜索提供了一种对话互动搜索体验,该体验在舒适,隐藏的环境中回答用户问题,以隐藏广告

信息爆炸的现代社会,创作出令人信服的文章并非易事。如何在有限的时间和精力内,发挥创造力,撰写出吸引读者的文章,需要高超的技巧和丰富的经验。 这时,作为革命性的写作辅助工具,ChatGPT 备受瞩目。ChatGPT 利用庞大的数据训练出的语言生成模型,能够生成自然流畅、精炼的文章。 本文将介绍如何有效利用 ChatGPT,高效创作高质量文章的技巧。我们将逐步讲解使用 ChatGPT 的写作流程,并结合具体案例,详细阐述其优缺点、适用场景以及安全使用注意事项。ChatGPT 将成为作家克服各种障碍,

使用AI创建图表的有效指南 视觉材料对于有效传达信息至关重要,但是创建它需要大量时间和精力。但是,由于AI技术(例如Chatgpt和dall-e 3)的兴起,图表创建过程正在发生巨大变化。本文使用这些尖端工具提供了有关有效而有吸引力的图创建方法的详细说明。它涵盖了从想法到完成的所有内容,并包含大量信息,可用于创建图表,从可以使用的特定步骤,提示,插件和API以及如何使用图像一代AI“ dall-e 3.”)

解锁ChatGPT Plus:费用、支付方式及升级指南 全球瞩目的顶尖生成式AI,ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费,但付费版ChatGPT Plus提供多种增值服务,例如插件、图像识别等,显着提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击: GPT-4o图像生成详解:使用方法、提示词示例、商业应用及与其他AI的差异 目录 ChatGPT Plus费用 Ch

如何使用Chatgpt简化您的设计工作并提高创造力 本文将详细说明如何使用ChatGpt创建设计。我们将介绍在各个设计领域中使用Chatgpt的示例,例如思想,文本生成和网页设计。我们还将介绍点,以帮助您提高各种创意作品的效率和质量,例如图形设计,插图和徽标设计。请看一下AI如何大大扩展您的设计可能性。 目录 chatgpt:设计创建的强大工具


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

记事本++7.3.1
好用且免费的代码编辑器

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。