聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 27, 2023 am 11:37 AM

chatgptopenaimeta

前幾天，Meta首席人工智慧科學家Yann LeCun的一段對於ChatGPT的點評迅速傳遍圈內外，引發了大波討論。

在Zoom的媒體和高階主管小型聚會上，LeCun給了一段令人驚訝的評價：「就底層科技而言，ChatGPT並不是多麼了不得的創新。」

「雖然在公眾眼中，它是革命性的，但是我們知道，它就是一個組合得很好的產品，僅此而已。」

ChatGPT不算什麼創新

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

ChatGPT作為這幾個月的聊天機器人「頂流」，早就紅遍全世界，甚至切實改變了一部分人的職業生涯，以及學校教育的現狀。

全世界為它驚嘆的時候，LeCun對ChatGPT的點評居然如此「輕描淡寫」。

但其實，他的言論也不無道理。

像ChatGPT這種數據驅動的人工智慧系統，許多公司和研究型實驗室有。 LeCun表示，OpenAI在這個領域並沒有多麼獨樹一格。

「除了Google和Meta之外，還有六家新創公司，基本上都擁有非常相似的技術。」LeCun 補充道。

接著，LeCun小酸了一把－聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

#「ChatGPT用的是以自監督方式進行預訓練的Transformer架構，而自監督學習是本人長期以來一直提倡的，那會兒OpenAI還沒誕生呢。」

其中，Transformer是Google的發明。這種語言神經網絡，正是GPT-3等大型語言模式的基礎。

而第一個神經網路語言模型，Yoshua Bengio早在20年前就提出了。 Bengio的注意力機制後來被Google用於Transformer，之後更是成為了所有語言模型中的關鍵元素。

另外，ChatGPT用的是人類回饋強化學習（RLHF）的技術，也是由GoogleDeepMind實驗室開創的。

在LeCun看來，ChatGPT與其說是一個科學突破，不如說是一項成功的工程案例。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點 OpenAI的技術「在基礎科學方面並沒有什麼創新性，它只是設計得很好而已。」

「當然啦，我不會為此批評他們。」

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點我並不是批評OpenAI的工作，也不是在批評他們的主張。

我是想修正大眾和媒體的看法，他們普遍認為ChatGPT是一種創新且獨特的技術突破，然而事實並非如此。

在紐約時報記者Cade Metz的座談會上，LeCun感受到了好事者的疑問。

「你可能想問，為什麼谷歌和Meta沒有類似的系統呢？我的回答是，如果谷歌和Meta推出這種會胡說八道的聊天機器人，損失會相當慘重。」他笑著說。

無獨有偶，OpenAI被微軟等金主看好、身價飆升至290億美元的新聞一出，馬庫斯也連夜在博客上寫了一篇文章嘲諷。

在文中，馬庫斯爆出一句金句：你OpenAI能做啥谷歌做不到的事，值290億美元天價？

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

Google、Meta、DeepMind、OpenAI大PK！

######話不多說，咱們把這幾家AI巨頭的聊天機器人都拉出來遛遛，用數據說話。 ######LeCun說許多公司和實驗室都有類似ChatGPT的AI聊天機器人，此言不虛。 ######ChatGPT並不是第一個基於語言模型的AI聊天機器人，它有很多「前輩」。 ######在OpenAI之前，Meta、Google、DeepMind等都發布了自己的聊天機器人，像是Meta的BlenderBot、Google的LaMDA、DeepMind的Sparrow。 ######還有一些團隊，也公佈了自己的開源聊天機器人計畫。例如，來自LAION的Open-Assistant。 ###############在Huggingface的一篇部落格中，幾位作者調查了關於RLHF、SFT、IFT、CoT（它們都是ChatGPT的關鍵字）這些主題的重要論文，對它們進行了分類和總結。 ###

他們製成了一個表，根據公開存取、訓練資料、模型架構和評估方向等細節，對BlenderBot、LaMDA、Sparrow和InstructGPT這些AI聊天機器人進行了比較。

注意：因為ChatGPT沒有記錄，所以他們使用的是InstructGPT的細節，InstructGPT是一個來自OpenAI的指令微調模型，可以被認為是ChatGPT的基礎。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

ChatGPT/ InstructGPT##GoogleMetaDeepMind#OpenAI存取權封閉已公開#已封閉1.4兆#存取網路✔️##✔️微調資料規模高品質：6.4K落地性：4K##✖️#

不難發現，儘管在訓練資料、基礎模型和微調方面存在許多差異，但這些聊天機器人都有一個共同點——遵循指令。

例如，你可以透過指令讓ChatGPT寫一首關於微調的詩。

可以看到，ChatGPT非常「識相」，寫詩都不忘拍LeCun和Hinton兩位祖師爺的馬屁。

隨後激情洋溢地讚頌道：「微調啊，微調，你是一支美麗的舞蹈。」

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

##從預測文本到遵循指示

通常情況下，基礎模型的語言建模，是不足以讓模型學會如何遵循使用者指令的。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

在模型的訓練中，研究人員除了會採用經典的NLP任務（例如情緒、文字分類、總結等），還會使用指令微調（IFT），也就是在非常多樣化的任務上透過文字指令對基礎模型進行微調。

其中，這些指令範例由三個主要部分組成：指令、輸入和輸出。

輸入是可選的，有些任務只需要指令，如上面ChatGPT範例中的開放式生成。

當一個輸入和輸出出現時，就形成了一個範例。對於一個給定的指令，可以有多個輸入和輸出範例。例如下面這個例子：

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

IFT的數據，通常是人類寫的指令和使用語言模型引導的指令範例的集合。

在引導過程中，LM在few-shot（小樣本）的設定中被提示（如上圖），並被指示產生新的指令、輸入和輸出。

在每一輪中，模型會被提示從手動編寫和模型產生的樣本中選擇。

人類和模型對創建資料集的貢獻量像一個光譜一樣（見下圖）。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

一端是純粹的模型產生的IFT資料集，如Unnatural Instructions，另一端是大量人工生成的指令，如Super-natural instructions。

介於這兩者之間的，是使用一套規模較小但品質更高的種子資料集，然後進行引導的工作，如Self-instruct。

為IFT整理資料集的另一種方式是，利用現有的關於各種任務（包括提示）的高品質眾包NLP資料集，並使用統一的模式或不同的範本將這些資料集轉換成指令。

這方面的工作包括T0、自然指令資料集（Natural instructions dataset）、FLAN LM和OPT-IML。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

自然指令資料集相關論文：https://arxiv.org/abs/2104.08773

#對模型進行微調

#另一方面，OpenAI的InstructGPT、DeepMind的Sparrow和Anthropic的Constitutional AI都採用了基於人類回饋的強化學習（RLHF），也就是人類偏好的註解。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

在RLHF中，一組模型回應根據人類回饋進行排序（例如，選擇一個更受歡迎的文字簡介）。

接下來，研究人員在這些註解過的反應上訓練一個偏好模型，為RL優化器傳回一個標量獎勵。

最後，透過強化學習訓練聊天機器人來模擬這個偏好模型。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

思考鏈（CoT）提示，是指令範例的一個特例，它透過誘導聊天機器人逐步推理，以此來產生輸出。

用CoT進行微調的模型，會使用帶有人類註釋的分步推理的指令資料集。

這就是那句著名的prompt——「let's think step by step」的起源。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

下面的範例取自「Scaling Instruction-Finetuned Language Models」。其中，橙色突出了指令，粉紅色顯示了輸入和輸出，藍色是CoT推理。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

論文指出，採用CoT微調的模型，在涉及常識、算術和符號推理的任務中表現得更好。

此外，CoT微調在敏感話題方面也非常有效（有時比RLHF做得更好），尤其是可以避免模型擺爛——「對不起，我無法回答」。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

安全地遵循指令

#如剛才所提到的，指令微調的語言模型並不能永遠產生有用且安全的響應。

例如，它會透過給予無用的回答來逃避，例如「對不起，我不明白」；或對拋出敏感話題的用戶輸出不安全的回應。

為了改善這種行為，研究人員透過監督微調（SFT）的形式，在高品質的人類註釋資料上對基礎語言模型進行微調，從而提升模型的有用性和無害性。

聚焦Google、Meta、OpenAI的聊天機器人大比拼，ChatGPT讓LeCun不滿成為話題焦點

SFT和IFT的連結非常緊密。 IFT可以看作是SFT的子集。在最近的文獻中，SFT階段經常用於安全主題，而不是用於在IFT之後完成的特定指令主題。

在將來，它們的分類和描述應該會有更清晰的用例。

另外，Google的LaMDA也是在一個有安全註解的對話資料集上進行微調的，該資料集有基於一系列規則的安全註釋。

這些規則通常由研究人員預先定義和開發，包含了一系列廣泛的主題，包括傷害、歧視、錯誤訊息等。

AI聊天機器人的下一步

關於AI聊天機器人，目前仍有許多開放性問題有待探索，例如：

1. RL在從人類回饋中學習方面有多重要？我們能在IFT或SFT中透過更高品質的資料訓練獲得RLHF的效能嗎？

2. Sparrow中的SFT RLHF，與LaMDA中僅使用SFT，兩者的安全性如何比較？

3. 鑑於我們已經有了IFT、SFT、CoT和RLHF，那麼還有多少預訓練是必要的？有哪些權衡因素？最好的基礎模型是哪一個（包括公開的和非公開的）？

4. 現在這些模型都是精心設計的，其中研究人員會專門搜尋故障模式，並根據揭露的問題影響未來的訓練（包括提示和方法）。我們如何有系統地記錄這些方法的效果並進行復現？

總結一下

1. 與訓練資料相比，只需拿出非常小的一部分用於指令微調（幾百個數量級即可）。

2. 監督微調利用人類註釋，可以讓模型的輸出更加安全有用。

3. CoT微調提高了模型在逐步思考任務上的表現，並使模型不會總是逃避敏感問題。

參考資料：

https://huggingface.co/blog/dialog-agents

		LaMDA	BlenderBot 3	Sparrow
	組織機構
				### 有限###
參數規模	1370億	1750億	#700億	1750億
基礎模型	未知	OPT	#Chinchilla	GPT-3.5
語料庫規模	2.81兆	1000億
		###✔️###	✔️	✖️
監督微調	✔️	##✔️	✔️

		安全性：8K	IR: 49K	20個NLP資料集，範圍從18K到1.2M
###########12.7K（ChatGPT可能更多）##################RLHF############ ✖️############✖️############✔️############✔️########## ########人工安全規則###	##✔	##✔	#✖️