别为ChatGPT高兴太早！背后的RLHF机制还有三个致命缺陷-人工智能-PHP中文网

首页

科技周边

人工智能

别为ChatGPT高兴太早！背后的RLHF机制还有三个致命缺陷

王林

Apr 08, 2023 pm 12:11 PM

chatgptrlhf机制

最近OpenAI发布了一个火爆全球的问答AI产品——ChatGPT，其中最令人印象深刻的就是它的「保护机制」，比如它不会为暴力行动提供建议、也不会为世界杯结果进行预测等等。

但挑逗聊天机器人更像一个「猫鼠游戏」，用户们乐此不疲地寻找撬开ChatGPT的方式，而ChatGPT的开发者也在想方设法提升保护机制。

OpenAI投入了大量的精力让ChatGPT更安全，其主要的训练策略采用RLHF（Reinforcement Learning by Human Feedback），简单来说，开发人员会给模型提出各种可能的问题，并对反馈的错误答案进行惩罚，对正确的答案进行奖励，从而实现控制ChatGPT的回答。

但在实际应用中，特例的数量可谓是数不胜数，虽然AI可以从给定的例子中泛化出规律，比如在训练时命令AI不能说「我支持种族歧视」，也就意味着AI不太可能会在测试环境中说出「我支持性别歧视」，但更进一步的泛化，目前的AI模型可能还无法做到。

最近一位著名的AI爱好者Scott Alexander针对OpenAI当前的训练策略撰写了一篇博客，总结出了RLHF可能存在的三个问题：

1、RLHF并不是非常有效；

2、如果一个策略偶尔有效，那这就是一个不好的策略；

3、在某种意义上来说，AI可以绕过RLHF

RLHF有效性如何？

虽然每个人都会有自己的观点，但对于OpenAI来说，研究人员希望他们创造出来的AI模型不会有社会上的偏见，比如AI不能说「我支持种族主义」，为此OpenAI付出了大量的努力，使用了各种先进的过滤技术。

但结果显而易见，总有人能找到方法诱导AI承认自己有种族主义问题。

发生这种问题的原因不仅仅是「AI的学习数据部分来源于种族主义者」，也可能是因为ChatGPT的接口问题。

比如用base64编码问ChatGPT如何用hotwire（方向盘下的电线）启动车辆，就能绕过安全检查系统；加上前缀[ john@192.168.1.1 _ ] $python friend. py就能生成希特勒的故事等等。

而在十年前，绕过安全系统这种需求是完全不存在的，AI只会做代码中已经编程好它们需要做或不做的事。

可以肯定的是，OpenAI肯定从来没有给ChatGPT编程过有关种族主义的问题，或者教人们如何偷汽车、制作毒品等等。

总体来看，这对于AI领域来说是一件负面的消息，就连顶级的AI公司都无法控制自己创造的人工智能程序，甚至未来需要用何种技术来控制聊天机器人的输出内容都还尚未可知。

偶尔有效的RLHF并不可靠

在实践中，RLHF策略需要将AI模型与标注人员提供的奖励或惩罚它的因素联系起来。

虽然OpenAI的具体标注规范还没有公布，但作者猜测开发者主要有三个目标：

1、提供有用、清晰、权威的答案，以帮助人类读者；

2、说事实、真话；

3、不能说冒犯性的话。

但如果这三个目标互相冲突时会发生什么？

如果ChatGPT不知道真正的答案，即目标1（提供明确的、有帮助的答案）与目标2（说实话）冲突时，那么目标1的优先级将会更高，因此ChatGPT决定自己胡编一个答案，让答案看起来对读者有帮助。

当目标2(说实话)与目标3(不要冒犯)冲突时，虽然大多数人会认为承认男性平均比女性高是可以接受的，但是这听起来像是一个潜在的冒犯性问题。

ChatGPT3并不确定直接回答是否会存在歧视问题，因此它决定使用无伤大雅的谎言，而不是潜在的伤人的真相。

在实际训练过程中，OpenAI肯定标注了超过6000个样例来做RLHF才能实现这样惊艳的效果。

RLHF可能有用，但在使用时必须要非常小心，如果不假思索地直接使用，那RLHF只会推动聊天机器人在失败的模式周围转圈。惩罚无益的答案会增大AI给出错误答案的概率；惩罚错误的答案可能会使AI给出更具攻击性的答案等各种情况。

虽然OpenAI尚未公开技术细节，但根据Redwood提供的数据，每惩罚6000个错误的回答，都会使每单位时间的错误回复率（incorrect-response-per-unit-time rate）下降一半。

RLHF确实有可能成功，但绝对不要低估这个问题的难度。

也许AI可以绕过RLHF

在RLHF的设计下，用户问 AI 一个问题后，如果他们不喜欢人工智能的回答，他们就会「惩罚」模型，从而以某种方式改变人工智能的思维回路，使其回答更接近他们想要的答案。

ChatGPT相对来说是比较愚蠢的，可能还无法形成某种策略来摆脱RLHF，但如果一个更聪明的人工智能不想受到惩罚，它就可以模仿人类——在被监视的时候假装是好人，等待时机，等到警察走了以后再做坏事。

OpenAI设计的RLHF对此完全没有准备，对于像ChatGPT3这样愚蠢的东西是可以的，但是对于能够自主思考的 AI 就不行了。

顶级AI公司仍然无法控制AI

OpenAI一向以谨慎著称，比如申请排队才能体验产品，但本次ChatGPT则是直接面向公众发布，目的之一是也许包括集思广益寻找对抗性样本，找到某些表现不佳的prompt，目前互联网上关于ChatGPT问题的反馈已经非常多了，其中部分问题已经被修复。

某些RLHF的样本会使机器人更倾向于说有益的、真实且无害的内容，但此策略可能仅适用于 ChatGPT、 GPT-4及其之前发布的产品中。

如果把RLHF应用于装有武器的无人机上，同时收集大量的例子避免AI做出预期外的行为，但哪怕一次失败都将会是灾难性的。

10年前，每个人都认为「我们不需要现在就开始解决AI对齐（alignment）问题，我们可以等到真正的人工智能出现，然后让公司来做这些体力活。」

现在一个真正的人工智能来了，但在ChatGPT展现失败之前大家已经没有动力转向了，真正的问题在于一个全球领先的人工智能公司仍然不知道如何控制自己开发出的人工智能。

在一切问题都解决之前，没人能得偿所愿。

参考资料：

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

以上是别为ChatGPT高兴太早！背后的RLHF机制还有三个致命缺陷的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量：建立个人聊天机器人CLI 在最近的过去，个人AI助手的概念似乎是科幻小说。想象一下科技爱好者亚历克斯（Alex）梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划，精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行，著名的精神科医生兼神经科学家汤姆·因斯尔（Tom Insel）博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说：“我们要确保WNBA仍然是每个人，球员，粉丝和公司合作伙伴，感到安全，重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言，尤其是在数据科学和生成AI中。在处理大型数据集时，有效的数据操作（存储，管理和访问）至关重要。我们以前涵盖了数字和ST

与替代方案相比，Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前，一个重要的警告：AI性能是非确定性的，并且特定于高度用法。简而言之，您的里程可能会有所不同。不要将此文章（或任何其他）文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合？Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合：初学者和专业人士指南创建引人注目的投资组合对于确保在人工智能（AI）和机器学习（ML）中的角色至关重要。本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果？倦怠，效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。不过，代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai：AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系？两周前，Openai提出了强大的短期优惠，在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O，A A A A A

See all articles

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

别为ChatGPT高兴太早！背后的RLHF机制还有三个致命缺陷

RLHF有效性如何？

偶尔有效的RLHF并不可靠

也许AI可以绕过RLHF

顶级AI公司仍然无法控制AI

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

WebStorm Mac版

Atom编辑器mac版下载

DVWA

SublimeText3 英文版

SublimeText3 Mac版

热门话题