搜索
首页科技周边人工智能OpenAI开发新工具,试图解释语言模型的行为

语言模型是一种人工智能技术,可以根据给定的文本生成自然语言。OpenAI 的 GPT 系列语言模型是目前最先进的代表之

OpenAI开发新工具,试图解释语言模型的行为

一,但IT之家注意到它们也有一个问题:它们的行为很难理解和预测。为了让语言模型更透明和可信,OpenAI 正在开发一种新工具,可以自动识别语言模型中哪些部分对其行为负责,并用自然语言进行解释。


这个工具的原理是利用另一个语言模型(也就是 OpenAI 最新的 GPT-4)来分析其他语言模型(比如 OpenAI 自己的 GPT-2)的内部结构。语言模型由许多“神经元”组成,每个神经元都可以观察文本中的某种特定模式,并影响模型下一步的输出。例如,给定一个关于超级英雄的问题(比如“哪些超级英雄有最有用的超能力?”),一个“漫威超级英雄神经元”可能会提高模型提到漫威电影中特定超级英雄的概率。

OpenAI 的工具就是利用这种机制来分解模型的各个部分。首先,它会将文本序列输入到被评估的模型中,并等待某个神经元频繁地“激活”。然后,它会将这些高度活跃的神经元“展示”给 GPT-4,并让 GPT-4 生成一个解释。为了确定解释的准确性,它会提供给 GPT-4 一些文本序列,并让它预测或模拟神经元的行为。然后它会将模拟的神经元的行为与实际神经元的行为进行比较。

“通过这种方法,我们基本上可以为每个神经元生成一些初步的自然语言解释,并且还有一个分数来衡量这些解释与实际行为的匹配程度。” OpenAI 可扩展对齐团队负责人 Jeff Wu 说,“我们使用 GPT-4 作为过程的一部分,来生成对神经元在寻找什么的解释,并评估这些解释与它实际做什么的匹配程度。”

研究人员能够为 GPT-2 中所有 307,200 个神经元生成解释,并将它们编译成一个数据集,与工具代码一起在 GitHub 上以开源形式发布。像这样的工具有朝一日可能被用来改善语言模型的性能,比如减少偏见或有害言论。但他们也承认,在真正有用之前,还有很长的路要走。该工具对大约 1000 个神经元的解释很有信心,这只是总数的一小部分。

有人可能会认为,这个工具实际上是 GPT-4 的广告,因为它需要 GPT-4 才能运行。但 Wu 说,这并不是这个工具的目的,它使用 GPT-4 只是“偶然”的,而且,相反它显示了 GPT-4 在这方面的弱点。他还说,它并不是为了商业应用而创建的,并且理论上可以适应除了 GPT-4 之外的其他语言模型。

“大多数解释的分数都很低,或者没有解释太多实际神经元的行为。” Wu 说,“很多神经元的活动方式很难说清楚 —— 比如它们在五六种不同的东西上激活,但没有明显的模式。有时候有明显的模式,但 GPT-4 却无法找到。”

更不用说更复杂、更新、更大的模型,或者可以浏览网页获取信息的模型了。但对于后者,Wu 认为,浏览网页不会太改变工具的基本机制。他说,它只需要稍微调整一下,就可以弄清楚神经元为什么决定进行某些搜索引擎查询或访问特定网站。

“我们希望这将开辟一个有前途的途径,来以一种自动化的方式解决可解释性问题,让其他人可以建立在上面并做出贡献。” Wu 说,“我们希望我们真的能够对这些模型的行为有好的解释。”

以上是OpenAI开发新工具,试图解释语言模型的行为的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
用Ollama -Analytics Vidhya简化本地LLM部署用Ollama -Analytics Vidhya简化本地LLM部署Apr 19, 2025 am 11:01 AM

利用Ollama本地开源LLMS的力量:综合指南 运行大型语言模型(LLMS)本地提供无与伦比的控制和透明度,但是设置环境可能令人生畏。 Ollama简化了这个过程

如何使用Monsterapi微调大语言模型如何使用Monsterapi微调大语言模型Apr 19, 2025 am 10:49 AM

利用微调LLM的功能与Monsterapi:综合指南 想象一个虚拟助手完美理解并预测您的需求。 由于大型语言模型(LLMS)的进步,这已成为现实。 但是,

5统计测试每个数据科学家都应该知道-Analytics Vidhya5统计测试每个数据科学家都应该知道-Analytics VidhyaApr 19, 2025 am 10:27 AM

数据科学的基本统计测试:综合指南 从数据中解锁有价值的见解至关重要。 掌握统计测试对于实现这一目标至关重要。这些测试使数据科学家能够严格瓦尔

如何使用Florence -2 -Analytics Vidhya执行计算机视觉任务如何使用Florence -2 -Analytics Vidhya执行计算机视觉任务Apr 19, 2025 am 10:21 AM

介绍 原始变压器的引入为当前的大语言模型铺平了道路。同样,在引入变压器模型之后,引入了视觉变压器(VIT)。喜欢

使用Langchain Text Splitters -Analytics Vidhya拆分数据的7种方法使用Langchain Text Splitters -Analytics Vidhya拆分数据的7种方法Apr 19, 2025 am 10:11 AM

Langchain文本拆分器:优化LLM输入以提高效率和准确性 我们上一篇文章介绍了Langchain的文档加载程序。 但是,LLM具有上下文窗口大小的限制(以代币测量)。 超过此限制会截断数据,comp

免费生成的AI课程:开创创新的未来免费生成的AI课程:开创创新的未来Apr 19, 2025 am 10:01 AM

生成的AI:革命性的创造力和创新 生成的AI通过按下按钮来创建文本,图像,音乐和虚拟世界来改变行业。 它的影响跨越视频编辑,音乐制作,艺术,娱乐,HEA

使用通用句子编码器和Wikiqa创建QA模型使用通用句子编码器和Wikiqa创建QA模型Apr 19, 2025 am 10:00 AM

利用嵌入模型的力量来回答高级问题 在当今信息丰富的世界中,立即获得精确答案的能力至关重要。 本文展示了使用强大的提问(QA)模型

前十名必须阅读机器学习研究论文前十名必须阅读机器学习研究论文Apr 19, 2025 am 09:53 AM

本文探讨了十个彻底改变人工智能(AI)和机器学习(ML)的开创性出版物。 我们将研究神经网络和算法的最新突破,并解释驱动现代AI的核心概念。 Th

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。