搜尋
首頁科技週邊人工智慧ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

论文链接:​https://arxiv.org/pdf/2302.06476.pdf​

大型语言模型(LLM)已经被证明能够解决各种自然语言处理(NLP)任务,而且对于给定的下游任务,它们不依赖任何训练数据,借助适当的 prompt 就能实现模型调整。这种根据指令执行新任务的能力可以被视为迈向通用人工智能的重要一步。

尽管目前的 LLM 在某些情况下取得了不错的性能,但在 zero-shot 学习中仍然容易出现各种错误。此外,prompt 的格式可以产生实质性的影响。例如,在 prompt 中添加「Let’s think step by step」,模型性能就能得到显著提升​。这些限制说明当前的 LLM 并不是真正的通用语言系统。

近日,OpenAI 发布的 ChatGPT LLM 在 NLP 社区引发极大关注。ChatGPT 是通过「人类反馈强化学习(RLHF)」训练 GPT-3.5 系列模型而创建的。RLHF 主要包括三个步骤:使用监督学习训练语言模型;根据人类偏好收集比较数据并训练奖励模型;使用强化学习针对奖励模型优化语言模型。通过 RLHF 训练,人们观察到 ChatGPT 在各个方面都具有令人印象深刻的能力,包括对人类输入生成高质量的响应、拒绝不适当的问题以及根据后续对话自我纠正先前的错误。

虽然 ChatGPT 显示出强大的对话能力,但与现有的 LLM 相比,NLP 社区仍然不清楚 ChatGPT 是否获得了更好的 zero-shot 泛化能力。为了填补这一研究空白,研究者们通过在涵盖 7 个代表性任务类别的大量 NLP 数据集上对 ChatGPT 进行评估,系统地研究了它的 zero-shot 学习能力。这些任务包括推理(reasoning)、自然语言推断(natural language inference)、问答(阅读理解)、对话、摘要、命名实体识别和情感分析。借助广泛的实验,研究者旨在回答以下问题:

  • ChatGPT 是一个通用的 NLP 任务求解器吗?ChatGPT 在哪些类型的任务上表现良好?
  • 如果 ChatGPT 在某些任务上落后于其他模型,那原因是什么?

为了回答这些问题,作者根据实验结果比较了 ChatGPT 和最先进的 GPT-3.5 模型 (text-davinci-003) 的性能。此外,他们还报告了 FLAN、T0 和 PaLM 等近期工作的 zero-shot、微调或 few-shot 微调结果。

主要结论

作者表示,据他们所知,这是第一次有人对 ChatGPT 在各种 NLP 任务上的 zero-shot 能力进行研究,旨在提供 ChatGPT 的初步概况。他们的主要发现如下:

  • 雖然ChatGPT 作為一個通才模型顯示了一些可以執行多個任務的能力,但它通常比針對給定任務進行微調的模型表現要差(見圖1 和第4.3 節) 。
  • ChatGPT 的卓越推理(reasoning)能力在算術推理任務中得到了實驗證實(第 4.2.1 節)。然而,ChatGPT 在常識、符號和邏輯推理任務中的表現通常不如 GPT-3.5,例如透過產生不確定的反應可以看出來(第 4.2.2 節)。
  • ChatGPT 在偏向推理能力的自然語言推論任務(第4.2.3 節)和問答(閱讀理解)任務(第4.2.4 節)方面優於GPT-3.5 ,例如確定文本對中的邏輯關係。具體來說,ChatGPT 更擅長處理與事實一致的文本(即,更擅長對蘊含而不是非蘊含進行分類)。
  • ChatGPT 在對話任務方面優於 GPT-3.5(第 4.2.5 節)。
  • 在摘要任務方面,ChatGPT 會產生更長的摘要,比 GPT-3.5 表現差。然而,在 zero-shot 指令中明確限制摘要長度會損害摘要質量,從而導致性能降低(第 4.2.6 節)。
  • 儘管顯示出作為通才模型的前景,但 ChatGPT 和 GPT-3.5 在某些任務上都面臨挑戰,例如序列標註(第 4.2.7 節)。
  • ChatGPT 的情緒分析能力接近 GPT-3.5(第 4.2.8 節)。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#如前所述,該研究主要比較了ChatGPT 和GPT-3.5 (textdavinci-003) 在不同任務下的zero-shot 學習表現。具體而言,他們將任務指令 P 和測試問題 X 作為輸入,模型以 f 表示,然後產生目標文字 Y = f (P, X) 來解決測試問題。不同任務的指令和輸入格式如圖 2 和圖 3 所示。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#包含六種任務(情緒分析、自然語言推理、命名實體辨識、問答、對話和摘要)的指示和輸入格式。指令為藍色字體。 

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#推理任務說明。

舉例來說,當模型執行情緒分析任務時,任務指令P 將文字所包含的情緒標記為正面或消極,則輸出的答案為積極或消極。當模型在閱讀了指令 P 和輸入內容 X(內容為一部具有相當力量和真實性的令人驚嘆的抒情作品)後,該模型經過判斷,有望輸出 Y 積極。

與上述單階段 prompting 方法不同的是,研究使用兩階段 prompting(Kojima 等人提出),來完成 zero-shot-CoT。

第一階段採取「讓模型一步一步思考(Let’s think step by step)」,指令 P_1 誘導模型產生基本原理 R。

第二階段採用第一步產生的基本原理 R 以及原始輸入 X 和指令 P_1 作為新的輸入,引導模型產生最終答案。

之後一個新的指令 P_2 作為提取答案的觸發語句。所有任務指令均取自 Brown、Ouyang、Zhang 等人研究,或受其啟發。最後要注意的是,每次對 ChatGPT 進行新的查詢時,都要提前清除對話,以避免前面範例的影響。

實驗

實驗用 20 個不同的資料集來評估 ChatGPT 和 GPT-3.5,涵蓋 7 個類別任務。

算術推理

ChatGPT 和 GPT-3.5 在沒有或有 CoT 的情況下,在六個算術推理資料集上的準確率如表 2 所示。在沒有 CoT 的實驗中,ChatGPT 在其中 5 個資料集上的表現優於 GPT-3.5,顯示了其強大的算術推理能力。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

圖 4 顯示了 GPT-3.5 給出錯誤答案的情況。在圖的左側,問「溫迪在玩電子遊戲,有43 條命。在遊戲的艱難部分,她失去了8 條生命。如果她在下一關多得到39 條命,她會有多少條命?」ChatGPT 給了正確答案。然而,GPT-3.5 產生了一個錯誤的答案。可以看出,在使用 CoT 時,ChatGPT 的表現都比 GPT-3.5 好得多。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#常識、符號與邏輯推理

#表3 報告了ChatGPT 與流行LLM 在常識、符號和邏輯推理資料集上的準確率。可以得到如下觀察結果:首先,使用 CoT 可能並不總是在常識推理任務中提供更好的性能,常識推理任務可能需要更細粒度的背景知識。其次,與算術推理不同,ChatGPT 在許多情況下的表現都比 GPT-3.5 差,顯示 GPT-3.5 的相應能力更強。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

為了分析原因,研究在圖 5 中展示了 ChatGPT 的幾個失敗案例。我們可以觀察到 ChatGPT 很容易產生不確定的反應,導致表現不佳。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#自然語言推理

表4 展示了不同模型在兩個自然語言推理任務上的結果:RTE 和CB。我們可以看到,在 zero-shot 設定下,ChatGPT 可以取得比 GPT-3.5、FLAN、T0 和 PaLM 更好的效能。這證明 ChatGPT 在 NLP 推理任務中,具有較好的 zero-shot 表現。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#問答

表6 報告了不同模型在BoolQ 資料集的準確率,ChatGPT 優於GPT-3.5 。這表明 ChatGPT 可以更好地處理推理任務。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#對話

#表8 中顯示了ChatGPT 和GPT-3.5 在MuTual 資料集(多輪對話推理)上的準確率。正如預期的那樣,ChatGPT 大大優於 GPT-3.5。 

圖 6 為一個具體的範例,我們可以看到 ChatGPT 能夠更有效地對給定的上下文進行推理。這再次印證了 ChatGPT 超強的推理能力。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#產生摘要##

表 9 報告 ChatGPT 和 GPT-3.5 在 SAMSum 資料集上的 ROUGE 得分,令人驚訝的是,ChatGPT 在所有指標上都不如 GPT-3.5。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#命名實體識別

表10 報告了ChatGPT 和GPT-3.5 在CoNLL03 上的zero-shot 效能。我們可以看到 ChatGPT 和 GPT-3.5 的整體表現非常相似。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#情緒分析

#表11 比較了不同模型在情緒分析資料集SST2 上的準確率。令人驚訝的是,ChatGPT 的表現比 GPT-3.5 差了約 1%。

ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試

#如需了解更多內容,請參考原論文。

以上是ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Word文本框没有旋转按钮怎么办Word文本框没有旋转按钮怎么办Dec 08, 2022 am 09:50 AM

Word文本框没有旋转按钮的解决办法:打开兼容模式文档后按F12键另存为高版本,再打开就可以了。

令人惊艳的4个ChatGPT项目,开源了!令人惊艳的4个ChatGPT项目,开源了!Mar 30, 2023 pm 02:11 PM

自从 ChatGPT、Stable Diffusion 发布以来,各种相关开源项目百花齐放,着实让人应接不暇。今天,着重挑选几个优质的开源项目分享给大家,对我们的日常工作、学习生活,都会有很大的帮助。

Word文档拆分后的子文档字体格式变了怎么办Word文档拆分后的子文档字体格式变了怎么办Feb 07, 2023 am 11:40 AM

Word文档拆分后的子文档字体格式变了的解决办法:1、在大纲模式拆分文档前,先选中正文内容创建一个新的样式,给样式取一个与众不同的名字;2、选中第二段正文内容,通过选择相似文本的功能将剩余正文内容全部设置为新建样式格式;3、进入大纲模式进行文档拆分,操作完成后打开子文档,正文字体格式就是拆分前新建的样式内容。

学术专用版ChatGPT火了,一键完成论文润色、代码解释、报告生成学术专用版ChatGPT火了,一键完成论文润色、代码解释、报告生成Apr 04, 2023 pm 01:05 PM

用 ChatGPT 辅助写论文这件事,越来越靠谱了。 ChatGPT 发布以来,各个领域的从业者都在探索 ChatGPT 的应用前景,挖掘它的潜力。其中,学术文本的理解与编辑是一种极具挑战性的应用场景,因为学术文本需要较高的专业性、严谨性等,有时还需要处理公式、代码、图谱等特殊的内容格式。现在,一个名为「ChatGPT 学术优化(chatgpt_academic)」的新项目在 GitHub 上爆火,上线几天就在 GitHub 上狂揽上万 Star。项目地址:https://github.com/

30行Python代码就可以调用ChatGPT API总结论文的主要内容30行Python代码就可以调用ChatGPT API总结论文的主要内容Apr 04, 2023 pm 12:05 PM

阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。 阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。使用 Python 和 C

vscode配置中文插件,带你无需注册体验ChatGPT!vscode配置中文插件,带你无需注册体验ChatGPT!Dec 16, 2022 pm 07:51 PM

​面对一夜爆火的 ChatGPT ,我最终也没抵得住诱惑,决定体验一下,不过这玩意要注册需要外国手机号以及科学上网,将许多人拦在门外,本篇博客将体验当下爆火的 ChatGPT 以及无需注册和科学上网,拿来即用的 ChatGPT 使用攻略,快来试试吧!

用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键get用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键getApr 04, 2023 am 11:30 AM

ChatGPT可以联网后,OpenAI还火速介绍了一款代码生成器,在这个插件的加持下,ChatGPT甚至可以自己生成机器学习模型了。 ​上周五,OpenAI刚刚宣布了惊爆的消息,ChatGPT可以联网,接入第三方插件了!而除了第三方插件,OpenAI也介绍了一款自家的插件「代码解释器」,并给出了几个特别的用例:解决定量和定性的数学问题;进行数据分析和可视化;快速转换文件格式。此外,Greg Brockman演示了ChatGPT还可以对上传视频文件进行处理。而一位叫Andrew Mayne的畅销作

ChatGPT教我学习PHP中AOP的实现(附代码)ChatGPT教我学习PHP中AOP的实现(附代码)Mar 30, 2023 am 10:45 AM

本篇文章给大家带来了关于php的相关知识,其中主要介绍了我是怎么用ChatGPT学习PHP中AOP的实现,感兴趣的朋友下面一起来看一下吧,希望对大家有帮助。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具