ChatGPT專題之一GPT家族演化史-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

ChatGPT專題之一GPT家族演化史

PHPz

May 09, 2023 pm 07:19 PM

chatgptgpt神經網路

時間軸

2018 年 6 月

OpenAI發布GPT-1模型，1.1億參數。

2018 年 11 月

OpenAI發布GPT-2模型，15億參數，但由於擔心濫用，不向公眾開放模型的全部程式碼及資料。

2019 年 2 月

OpenAI開放了GPT-2模型的部分程式碼和數據，但仍然限制了存取。

2019 年 6 月 10 日

OpenAI發布GPT-3模型，1750億參數，並向部分合作夥伴提供了存取權限。

2019 年 9 月

OpenAI開放了GPT-2的全部程式碼和數據，並發布了更大版本。

2020 年 5 月

OpenAI宣布推出GPT-3模型的beta版本，該模型擁有1750億個參數，是迄今為止最大的自然語言處理模型。

2022 年3 月

OpenAI發布InstructGPT，用到Instruction Tuning

2022 年11 月30 日

OpenAI透過GPT-3.5系列大型語言模型微調而成的，全新對話式AI模型ChatGPT正式發表。

2022 年 12 月 15 日

ChatGPT 第一次更新，提升了整體效能，增加了保存和查看歷史對話記錄的新功能。

2023 年 1 月 9 日

ChatGPT 第二次更新，改善了答案的真實性，增加了「停止產生」新功能。

2023 年 1 月 21 日

OpenAI發佈限於部分使用者使用的付費版ChatGPT Professional。

2023 年 1 月 30 日

ChatGPT第三次更新，在此提升了答案真實性的同時，也提升了數學能力。

2023 年 2 月 2 日

OpenAI正式推出ChatGPT收費版訂閱服務，新版本比較免費版回應速度更快，運作更為穩定。

2023 年3 月15 日

OpenAI震撼推出了大型多模態模型GPT-4，不僅能夠閱讀文字，還能識別圖像，並產生文本結果，現已接入ChatGPT 向Plus用戶開放。

GPT-1：基於單向Transformer的預訓練模型

在 GPT 出現之前，NLP 模型主要是基於針對特定任務的大量標註資料進行訓練。這會導致一些限制：

大規模高品質的標註資料不易取得；

模型僅限於所接受的訓練，泛化能力不足；

無法執行開箱即用的任務，限制了模型的落地應用。

為了克服這些問題，OpenAI走上了預訓練大模型的道路。 GPT-1是由OpenAI於2018年發布的第一個預訓練模型，它採用了單向Transformer模型，並使用了超過40GB的文字資料進行訓練。 GPT-1的關鍵特徵是：生成式預訓練（無監督）判別式任務精調（有監督）。先用無監督學習的預訓練，在8 個GPU 上花費了1 個月的時間，從大量未標註數據中增強AI系統的語言能力，獲得大量知識，然後進行有監督的微調，與大型數據集整合來提高系統在NLP任務中的效能。 GPT-1在文字生成和理解任務上表現出了很好的性能，成為了當時最先進的自然語言處理模型之一。

GPT-2：多任務預訓練模型

由於單任務模型缺乏泛化性，並且多任務學習需要大量有效訓練對，GPT-2在GPT-1的基礎上進行了擴展和優化，去掉了有監督學習，只保留了無監督學習。 GPT-2採用了更大的文字資料和更強大的運算資源進行訓練，參數規模達到了1.5億，遠超過GPT-1的1.1億參數。除了使用更大的資料集和更大的模型去學習，GPT-2還提出了一個新的更難的任務:零樣本學習（zero-shot），即將預先訓練好的模型直接應用於諸多的下游任務。 GPT-2在多項自然語言處理任務上展現了卓越的效能，包括文字生成、文字分類、語言理解等。

ChatGPT專題之一GPT家族演化史

GPT-3：創造新的自然語言生成與理解能力

GPT-3是GPT系列模型中最新的一款模型，採用了更大的參數規模和更豐富的訓練資料。 GPT-3的參數規模達到了1.75萬億，是GPT-2的100倍以上。 GPT-3在自然語言生成、對話生成和其他語言處理任務上表現出了驚人的能力，在某些任務上甚至能夠創造出新的語言表達形式。

GPT-3提出了一個非常重要的概念：情境學習（In-context learning），具體內容會在下次推文中解釋。

InstructGPT ＆ ChatGPT

InstructGPT/ChatGPT的訓練分成3步，每一步所需的資料也有些許差異，下面我們分別介紹它們。

從一個預先訓練的語言模型開始，應用以下三個步驟。

ChatGPT專題之一GPT家族演化史

步驟1：監督微調SFT：收集演示數據，訓練一個受監督的策略。我們的標籤器提供了輸入提示分佈上所需行為的示範。然後，我們使用監督式學習在這些資料上對預先訓練的GPT-3模型進行微調。

步驟2：獎勵模型Reward Model訓練。收集比較數據，訓練一個獎勵模型。我們收集了一個模型輸出之間比較的資料集，其中標籤者表示他們更喜歡給定輸入的哪個輸出。然後我們訓練一個獎勵模型來預測人類偏好的輸出。

步驟3：透過獎勵模型上的近端策略優化(PPO)強化學習：使用RM的輸出作為標量獎勵。我們使用PPO演算法對監督策略進行微調，以優化該獎勵。

步驟2和步驟3可以連續迭代；在目前最優策略上收集更多的比較數據，這些數據用於訓練一個新的RM，然後是一個新的策略。

前兩步的prompts，來自OpenAI的線上API上的用戶使用數據，以及僱用的標註者手寫的。最後一步則全都是從API資料中取樣的，InstructGPT的具體資料：

1. SFT資料集

SFT資料集是用來訓練第1步有監督的模型，即使用採集的新數據，依照GPT-3的訓練方式對GPT-3進行微調。因為GPT-3是一個基於提示學習的生成模型，因此SFT資料集也是由提示-答案對組成的樣本。 SFT資料一部分來自使用OpenAI的PlayGround的用戶，另一部分來自OpenAI僱用的40名標註工（labeler）。並且他們對labeler進行了培訓。在這個資料集中，標註工的工作是根據內容自己寫指示。

2. RM資料集

RM資料集用來訓練步驟2的獎勵模型，我們也需要為InstructGPT/ChatGPT的訓練設定一個獎勵目標。這個獎勵目標不必可導，但是一定要盡可能全面且真實的對齊我們需要模型產生的內容。很自然的，我們可以透過人工標註的方式來提供這個獎勵，透過人工對可以給那些涉及偏見的生成內容更低的分從而鼓勵模型不去生成這些人類不喜歡的內容。 InstructGPT/ChatGPT的做法是先讓模型產生一批候選文本，讓後透過labeler根據產生資料的品質對這些生成內容進行排序。

3. PPO資料集

InstructGPT的PPO資料沒有進行標註，它皆來自GPT-3的API的使用者。既不同使用者提供的不同種類的生成任務，其中佔比最高的包括生成任務（45.6%），QA（12.4%），腦力激盪（11.2%），對話（8.4%）等。

附錄：

ChatGPT 的各項能力來源：

ChatGPT專題之一GPT家族演化史

## GPT -3 到ChatGPT 以及這之間的迭代版本的能力和訓練方法：

ChatGPT專題之一GPT家族演化史

#參考文獻

#1、拆解追溯GPT-3.5 各項能力的起源：https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

2、全網最全時間線梳理！從ChatGPT的前世今生，到如今AI領域的競爭格局https://www.bilibili.com/read/cv22541079

3、GPT-1論文：Improving Language Understanding by Generative Pre-Training, OpenAI.

4、GPT-2論文：Language Models are Unsupervised Multitask Learners, OpenAI.

5、GPT-3論文：Language Models are Few-Shot Learners, OpenAI.

############################################################################################## #6、Jason W, Maarten B, Vincent Y, et al. Finetuned Language Models Are Zero-Shot Learners[J]. arXiv preprint arXiv: 2109.01652, 2021.######7、OpenAI如何「魔鬼調教」 GPT的？ ——InstructGPT論文解讀 https://cloud.tencent.com/developer/news/979148###

以上是ChatGPT專題之一GPT家族演化史的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

易於理解的解釋如何在Chatgpt中建立兩步身份驗證！May 12, 2025 pm 05:37 PM

CHATGPT SECURICE增強：兩階段身份驗證（2FA）配置指南需要兩因素身份驗證（2FA）作為在線平台的安全措施。本文將以易於理解的方式解釋2FA設置過程及其在CHATGPT中的重要性。這是為那些想要安全使用chatgpt的人提供的指南。單擊此處獲取OpenAI最新的AI代理OpenAi Deep Research⬇️ [chatgpt]什麼是Openai深入研究？關於如何使用它和費用結構的詳盡解釋！目錄 chatg

[針對企業] Chatgpt培訓|對8種免費培訓選項，補貼和示例進行了詳盡的介紹！May 12, 2025 pm 05:35 PM

生成的AI的使用吸引了人們的關注，這是提高業務效率和創造新業務的關鍵。特別是，由於其多功能性和準確性，許多公司都採用了Openai的Chatgpt。但是，可以有效利用chatgpt的人員短缺是實施它的主要挑戰。在本文中，我們將解釋“ ChatGpt培訓”的必要性和有效性，以確保在公司中成功使用Chatgpt。我們將介紹廣泛的主題，從ChatGpt的基礎到業務使用，特定的培訓計劃以及如何選擇它們。 CHATGPT培訓提高員工技能

關於如何使用Chatgpt簡化您的Twitter操作的詳盡解釋！May 12, 2025 pm 05:34 PM

社交媒體運營的提高效率和質量至關重要。特別是在實時重要的平台上，例如Twitter，需要連續交付及時和引人入勝的內容。在本文中，我們將解釋如何使用具有先進自然語言處理能力的AI的Chatgpt操作Twitter。通過使用CHATGPT，您不僅可以提高實時響應功能並提高內容創建的效率，而且還可以製定符合趨勢的營銷策略。此外，使用預防措施

[對於Mac]說明如何開始以及如何使用ChatGpt桌面應用程序！May 12, 2025 pm 05:33 PM

CHATGPT MAC桌面應用程序詳細指南：從安裝到音頻功能最後，Chatgpt的Mac桌面應用程序現已可用！在本文中，我們將徹底解釋從安裝方法到有用的功能和將來的更新信息的所有內容。使用桌面應用程序獨有的功能，例如快捷鍵，圖像識別和語音模式，以極大地提高您的業務效率！安裝桌面應用的ChatGpt Mac版本從瀏覽器訪問：首先，在瀏覽器中訪問chatgpt。

chatgpt的角色限制是什麼？解釋如何避免它和模型上限May 12, 2025 pm 05:32 PM

當使用chatgpt時，您是否曾經有過這樣的經驗，例如“輸出在中途停止”或“即使我指定了字符的數量，它也無法正確輸出”？該模型非常開創性，不僅允許自然對話，而且還允許創建電子郵件，摘要論文，甚至允許產生諸如小說之類的創意句子。但是，ChatGpt的弱點之一是，如果文本太長，輸入和輸出將無法正常工作。 Openai的最新AI代理“ Openai Deep Research”

什麼是Chatgpt的語音輸入和語音對話功能？解釋如何設置以及如何使用它May 12, 2025 pm 05:27 PM

Chatgpt是Openai開發的創新AI聊天機器人。它不僅具有文本輸入，而且還具有語音輸入和語音對話功能，從而可以進行更自然的交流。在本文中，我們將解釋如何設置和使用Chatgpt的語音輸入和語音對話功能。即使您不能脫身，Chatp Plans也通過與您交談來做出回應並回應音頻，這在繁忙的商業情況和英語對話練習等各種情況下都帶來了很大的好處。關於如何設置智能手機應用程序和PC的詳細說明以及如何使用。

易於理解的解釋如何使用Chatgpt進行求職和尋找工作！May 12, 2025 pm 05:26 PM

成功的快捷方式！使用chatgpt有效的工作變更策略在當今加劇的工作變更市場中，有效的信息收集和徹底的準備是成功的關鍵。諸如Chatgpt之類的高級語言模型是求職者的強大武器。在本文中，我們將解釋如何有效利用Chatgpt來提高您的工作企業效率，從自我分析到申請文件和麵試準備。節省時間和學習技術，以充分展示您的優勢，並幫助您成功搜索工作。目錄使用chatgpt的狩獵工作示例自我分析的效率：聊天

易於理解的解釋如何使用ChatGpt創建和輸出思維地圖！May 12, 2025 pm 05:22 PM

思維地圖是組織信息並提出想法的有用工具，但是創建它們可能需要時間。使用Chatgpt可以大大簡化此過程。本文將詳細說明如何使用chatgpt輕鬆創建思維地圖。此外，通過創建的實際示例，我們將介紹如何在各種主題上使用思維圖。了解如何使用Chatgpt有效地組織和可視化您的想法和信息。 Openai的最新AI代理OpenA

See all articles