搜索
首页科技周边人工智能禁止大型语言模型胡编乱造,给点外部知识,推理靠谱的很

大型语言模型 (LLM) 已通过 In-context Learning 在各种复杂任务上展现出卓越的性能,并且无需针对特定任务进行训练或微调,近期 prompt 和解码方面取得的进展也使 LLM 解决复杂推理任务变成了现实。

然而,LLM 可能会存储过时、不全面或不正确的知识,要将 LLM 成功部署到实际应用中,外部知识来源(例如维基百科)至关重要。此前,人们尝试将知识用于较小的语言模型 (LM),例如 T5、BERT 和 RoBERTa,但这些方法通常需要额外的训练或微调,成本高昂,对于 LLM 来说完全不切实际。

基于此,来自罗彻斯特大学、腾讯 AI Lab 和宾夕法尼亚大学的研究者联合提出了一种称为 Rethinking with Retrieval (RR) 的后处理方法,以在 LLM 中利用外部知识。 

图片

论文地址:https://arxiv.org/pdf/2301.00303v1.pdf

该研究的思路是首先使用思维链 (chain-of-thought,CoT) prompting 方法生成一组不同的推理路径,类似于 Wang et al. (2022) 的方法。然后该研究使用这些路径中的每个推理步骤来检索相关的外部知识,让 RR 方法可以提供更合理的解释和更准确的预测。

该研究使用 GPT-3 175B 和几种常见的外部知识源(维基百科、维基数据、WordNet 和 Conceptnet)来评估 RR 方法在三个复杂推理任务上的有效性,包括常识推理、时序推理和表格推理。实验结果表明,无需额外的训练或微调,RR 在这三项任务上始终优于其他方法,这表明 RR 方法在利用外部知识来提高 LLM 性能方面具有很大优势。

利用检索进行重新思考

实际上,尽管 LLM 已准确捕捉了回答问题所需的要素,但这些模型有时还是会生成错误的结果。这种现象说明 LLM 存储和检索知识的方式存在一些问题,包括:

  • 预训练语料库中存在过时、不正确或缺失的相关知识; 
  • 预训练时对相关知识的存储有误; 
  • 推理阶段对相关知识的错误检索。

RR 方法的大致思路如下:给定一个输入问题 Q,RR 方法先利用思维链(chain-of though)prompting 生成一组不同的推理路径 R_1、R_2、……、R_N,其中每个推理路径 R_i 由解释 E_i 和跟在其后的预测 P_i 组成,然后再从合适的知识库 KB 中检索相关知识 K_1、……、K_M 来支持每个推理路径中的解释,并选择最符合该知识的预测图片

思维链(CoT)prompting。与标准 prompting 明显不同,CoT prompting 包括在 prompting 中进行分步推理实例演示来生成一系列捕获推理过程的短句。

例如,给定输入问题:「亚里士多德使用笔记本电脑吗?」CoT prompting 旨在生成完整的推理路径:

CoT prompting 的推理过程为:「亚里士多德死于公元前 322 年。第一台笔记本电脑于 1980 年发明。因此,亚里士多德没有使用笔记本电脑。所以答案是 no。」而非简单地输出「No」。

对不同的推理路径采样。与 Wang et al. (2022) 相似,该研究对一组不同的推理路径 R_1、R_2、……、R_N 进行了采样,而不是像 Wei et al. (2022) 那样只考虑最优比例路径(greedy path)。对于「亚里士多德是否使用笔记本电脑?」这一问题,可能的推理路径如下:

(R_1) 亚里士多德死于 2000 年。第一台笔记本电脑发明于 1980 年。因此,亚里士多德使用过笔记本电脑。所以该问题的答案为是。

(R_2) 亚里士多德于公元前 322 年去世。第一台笔记本电脑发明于 2000 年。因此,亚里士多德没有使用过笔记本电脑。所以答案为否。

知识检索。不同的知识库可以用来处理不同的任务。例如,为了解决「亚里士多德使用笔记本电脑了吗?」这个问题,我们可以使用维基百科作为外部知识库 KB。信息检索技术可用于基于分解的推理步骤从维基百科中检索相关知识 K_1、……K_M。理想情况下,针对此问题我们可以从维基百科中获得以下两段内容:

(K_1) 亚里士多德(公元前 384 至公元前 322 年)是古希腊古典时期的希腊哲学家和博学大师

(K_2) 第一台笔记本电脑 Epson HX-20 于 1980 年发明……

忠实的推理。我们可以使用函数 f_KB(R_i)来估算每个推理路径 R_i 的置信度,该函数建立在从知识库 KB 检索的相关知识 K_1、……、K_M 基础之上。最终的预测可以通过运用以下推断过程来获得:

图片

实验评估

本节中,该研究介绍了 RR 在三个复杂推理任务上的评估:常识推理、时序推理和表格推理。

实验设置。在所有实验中,除非另有说明,该研究都使用 GPT-3 text-davinci-002。实验完成期间生成的最大 token 数量被设置为 256,zero-shot、few-shot 以及 chain-of-thought prompting,温度参数(temperature)固定设置为 0。

结果。如表 1 所示,本文提出的方法 RR,在所有三个推理任务上始终优于所有基准,而无需额外的训练或微调。这些结果凸显出了 RR 在利用外部知识提高 LLM 表现方面的有效性。

图片

该研究在 StrategyQA 数据集上展示了带有 CoT prompting 方法的关于 GPT-3 的分析。在仔细检查 GPT-3 的输出后,该研究观察到 RR 可以为许多问题提供合理的解释和正确的预测。例如,当给出「佐治亚州的奥尔巴尼会在纽约州的奥尔巴尼之前先达到十万名住户吗?」这个问题时,GPT-3 产生了以下输出:

图片

总体来看对于问题的输出答案质量很高。然而,该研究也观察到 GPT-3 可能偶尔会为其解释提供不正确的事实支持,或为其预测做出不正确的推理,尽管它通常能够识别出合适的观点。

错误的支持事实。如表 2 所示,GPT-3 为 Lil Jon 在 Billboard 榜单中排名最高的歌曲提供了错误的事实支持,指出排名最高的歌曲是 Get Low 而非正确答案 Yeah。另外,GPT-3 还做出了错误的推理,即富士山的山顶不会高于日本海,而不是正确答案会高于。

图片

更多技术细节请参阅原论文。

以上是禁止大型语言模型胡编乱造,给点外部知识,推理靠谱的很的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境