论文链接:https://arxiv.org/pdf/2302.06476.pdf
大型语言模型(LLM)已经被证明能够解决各种自然语言处理(NLP)任务,而且对于给定的下游任务,它们不依赖任何训练数据,借助适当的 prompt 就能实现模型调整。这种根据指令执行新任务的能力可以被视为迈向通用人工智能的重要一步。
尽管目前的 LLM 在某些情况下取得了不错的性能,但在 zero-shot 学习中仍然容易出现各种错误。此外,prompt 的格式可以产生实质性的影响。例如,在 prompt 中添加「Let’s think step by step」,模型性能就能得到显著提升。这些限制说明当前的 LLM 并不是真正的通用语言系统。
近日,OpenAI 发布的 ChatGPT LLM 在 NLP 社区引发极大关注。ChatGPT 是通过「人类反馈强化学习(RLHF)」训练 GPT-3.5 系列模型而创建的。RLHF 主要包括三个步骤:使用监督学习训练语言模型;根据人类偏好收集比较数据并训练奖励模型;使用强化学习针对奖励模型优化语言模型。通过 RLHF 训练,人们观察到 ChatGPT 在各个方面都具有令人印象深刻的能力,包括对人类输入生成高质量的响应、拒绝不适当的问题以及根据后续对话自我纠正先前的错误。
虽然 ChatGPT 显示出强大的对话能力,但与现有的 LLM 相比,NLP 社区仍然不清楚 ChatGPT 是否获得了更好的 zero-shot 泛化能力。为了填补这一研究空白,研究者们通过在涵盖 7 个代表性任务类别的大量 NLP 数据集上对 ChatGPT 进行评估,系统地研究了它的 zero-shot 学习能力。这些任务包括推理(reasoning)、自然语言推断(natural language inference)、问答(阅读理解)、对话、摘要、命名实体识别和情感分析。借助广泛的实验,研究者旨在回答以下问题:
- ChatGPT 是一个通用的 NLP 任务求解器吗?ChatGPT 在哪些类型的任务上表现良好?
- 如果 ChatGPT 在某些任务上落后于其他模型,那原因是什么?
为了回答这些问题,作者根据实验结果比较了 ChatGPT 和最先进的 GPT-3.5 模型 (text-davinci-003) 的性能。此外,他们还报告了 FLAN、T0 和 PaLM 等近期工作的 zero-shot、微调或 few-shot 微调结果。
主要结论
作者表示,据他们所知,这是第一次有人对 ChatGPT 在各种 NLP 任务上的 zero-shot 能力进行研究,旨在提供 ChatGPT 的初步概况。他们的主要发现如下:
- 雖然ChatGPT 作為一個通才模型顯示了一些可以執行多個任務的能力,但它通常比針對給定任務進行微調的模型表現要差(見圖1 和第4.3 節) 。
- ChatGPT 的卓越推理(reasoning)能力在算術推理任務中得到了實驗證實(第 4.2.1 節)。然而,ChatGPT 在常識、符號和邏輯推理任務中的表現通常不如 GPT-3.5,例如透過產生不確定的反應可以看出來(第 4.2.2 節)。
- ChatGPT 在偏向推理能力的自然語言推論任務(第4.2.3 節)和問答(閱讀理解)任務(第4.2.4 節)方面優於GPT-3.5 ,例如確定文本對中的邏輯關係。具體來說,ChatGPT 更擅長處理與事實一致的文本(即,更擅長對蘊含而不是非蘊含進行分類)。
- ChatGPT 在對話任務方面優於 GPT-3.5(第 4.2.5 節)。
- 在摘要任務方面,ChatGPT 會產生更長的摘要,比 GPT-3.5 表現差。然而,在 zero-shot 指令中明確限制摘要長度會損害摘要質量,從而導致性能降低(第 4.2.6 節)。
- 儘管顯示出作為通才模型的前景,但 ChatGPT 和 GPT-3.5 在某些任務上都面臨挑戰,例如序列標註(第 4.2.7 節)。
- ChatGPT 的情緒分析能力接近 GPT-3.5(第 4.2.8 節)。
#如前所述,該研究主要比較了ChatGPT 和GPT-3.5 (textdavinci-003) 在不同任務下的zero-shot 學習表現。具體而言,他們將任務指令 P 和測試問題 X 作為輸入,模型以 f 表示,然後產生目標文字 Y = f (P, X) 來解決測試問題。不同任務的指令和輸入格式如圖 2 和圖 3 所示。
#包含六種任務(情緒分析、自然語言推理、命名實體辨識、問答、對話和摘要)的指示和輸入格式。指令為藍色字體。
#推理任務說明。
舉例來說,當模型執行情緒分析任務時,任務指令P 將文字所包含的情緒標記為正面或消極,則輸出的答案為積極或消極。當模型在閱讀了指令 P 和輸入內容 X(內容為一部具有相當力量和真實性的令人驚嘆的抒情作品)後,該模型經過判斷,有望輸出 Y 積極。
與上述單階段 prompting 方法不同的是,研究使用兩階段 prompting(Kojima 等人提出),來完成 zero-shot-CoT。
第一階段採取「讓模型一步一步思考(Let’s think step by step)」,指令 P_1 誘導模型產生基本原理 R。
第二階段採用第一步產生的基本原理 R 以及原始輸入 X 和指令 P_1 作為新的輸入,引導模型產生最終答案。
之後一個新的指令 P_2 作為提取答案的觸發語句。所有任務指令均取自 Brown、Ouyang、Zhang 等人研究,或受其啟發。最後要注意的是,每次對 ChatGPT 進行新的查詢時,都要提前清除對話,以避免前面範例的影響。
實驗
實驗用 20 個不同的資料集來評估 ChatGPT 和 GPT-3.5,涵蓋 7 個類別任務。
算術推理
ChatGPT 和 GPT-3.5 在沒有或有 CoT 的情況下,在六個算術推理資料集上的準確率如表 2 所示。在沒有 CoT 的實驗中,ChatGPT 在其中 5 個資料集上的表現優於 GPT-3.5,顯示了其強大的算術推理能力。
圖 4 顯示了 GPT-3.5 給出錯誤答案的情況。在圖的左側,問「溫迪在玩電子遊戲,有43 條命。在遊戲的艱難部分,她失去了8 條生命。如果她在下一關多得到39 條命,她會有多少條命?」ChatGPT 給了正確答案。然而,GPT-3.5 產生了一個錯誤的答案。可以看出,在使用 CoT 時,ChatGPT 的表現都比 GPT-3.5 好得多。
#常識、符號與邏輯推理
#表3 報告了ChatGPT 與流行LLM 在常識、符號和邏輯推理資料集上的準確率。可以得到如下觀察結果:首先,使用 CoT 可能並不總是在常識推理任務中提供更好的性能,常識推理任務可能需要更細粒度的背景知識。其次,與算術推理不同,ChatGPT 在許多情況下的表現都比 GPT-3.5 差,顯示 GPT-3.5 的相應能力更強。
為了分析原因,研究在圖 5 中展示了 ChatGPT 的幾個失敗案例。我們可以觀察到 ChatGPT 很容易產生不確定的反應,導致表現不佳。
#自然語言推理
表4 展示了不同模型在兩個自然語言推理任務上的結果:RTE 和CB。我們可以看到,在 zero-shot 設定下,ChatGPT 可以取得比 GPT-3.5、FLAN、T0 和 PaLM 更好的效能。這證明 ChatGPT 在 NLP 推理任務中,具有較好的 zero-shot 表現。
#問答
表6 報告了不同模型在BoolQ 資料集的準確率,ChatGPT 優於GPT-3.5 。這表明 ChatGPT 可以更好地處理推理任務。
#對話
#表8 中顯示了ChatGPT 和GPT-3.5 在MuTual 資料集(多輪對話推理)上的準確率。正如預期的那樣,ChatGPT 大大優於 GPT-3.5。
圖 6 為一個具體的範例,我們可以看到 ChatGPT 能夠更有效地對給定的上下文進行推理。這再次印證了 ChatGPT 超強的推理能力。
#產生摘要##
表 9 報告 ChatGPT 和 GPT-3.5 在 SAMSum 資料集上的 ROUGE 得分,令人驚訝的是,ChatGPT 在所有指標上都不如 GPT-3.5。
#命名實體識別
表10 報告了ChatGPT 和GPT-3.5 在CoNLL03 上的zero-shot 效能。我們可以看到 ChatGPT 和 GPT-3.5 的整體表現非常相似。
#情緒分析
#表11 比較了不同模型在情緒分析資料集SST2 上的準確率。令人驚訝的是,ChatGPT 的表現比 GPT-3.5 差了約 1%。
#如需了解更多內容,請參考原論文。
以上是ChatGPT真的是「通才」嗎?楊笛一等人給它來了個摸底考試的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

記事本++7.3.1
好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Linux新版
SublimeText3 Linux最新版