GPT模型中的資料中心型AI揭秘-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

GPT模型中的資料中心型AI揭秘

王林

Apr 30, 2023 pm 05:58 PM

人工智慧chatgptgpt模型

譯者 | 朱先忠

#審查| 重樓

GPT模型中的資料中心型AI揭秘

圖片來自文章https://www.php.cn/link/f74412c3c1c8899f3c130bb30ed0e363，作者本人製作

人工智慧在改變我們的生活、工作和與技術互動的方式方面取得了令人難以置信的進步。最近，一個取得重大進展的領域是大型語言模型（LLM）的開發，如#GPT-3、ChatGPT#和#GPT-4#。這些模型能夠以令人印象深刻的準確性執行語言完成

翻譯、文字摘要和問答等任務。雖然很難忽視大型語言模型不斷增加的模型規模，但同樣重要的是要認識到，它們的成功很大程度上歸功於用於訓練它們的大量高品質數據。

在本文中，我們將從以資料為中心的人工智慧角度概述大型語言模型的最新進展，參考我們最近的調查論文（末尾文獻1與2）中的觀點以及GitHub上的對應#技術資源#。特別是，我們將透過以資料為中心的人工智慧#的視角仔細研究GPT模型，這是資料科學界日益增長的一種觀點。我們將透過討論三個以資料為中心的人工智慧目標——訓練資料開發、推理資料開發和資料維護，來揭示GPT模型背後以資料為核心的人工智慧概念

#。

大型語言模型與GPT模型LLM（大型語言模型）是一種自然語言處理模型，經過訓練可以在上下文中推斷單字。例如，LLM最基本的功能是在給定上下文的情況下預測丟失的令牌。為了做到這一點，LLM被訓練來從海量資料中預測每個候選令牌的機率。

GPT模型中的資料中心型AI揭秘

使用具有上下文的大型語言模型預測遺失令牌的機率的說明性範例（作者本人提供的圖片）

##########

GPT模型是指OpenAI創建的一系列大型語言模型，如#GPT-1、 GPT-2、#GPT-3、InstructGPT#和#ChatGPT/GPT-4#。與其他大型語言模型一樣，GPT模型的架構在很大程度上基於轉換器（Transformer），它使用文字和位置嵌入作為輸入，並使用注意力層來建模令牌間的關係。

GPT模型中的資料中心型AI揭秘

GPT-1模型體系架構示意圖，本圖像來自論文https://www.php.cn/link/c3bfbc2fc89bd1dd71ad5fc5ac96ae69

#後來的GPT模型使用了與GPT-1類似的架構，只是使用了更多的模型參數，具有更多的層、更大的上下文長度、隱藏層大小等。

GPT模型中的資料中心型AI揭秘

GPT模型的各種模型大小比較（作者提供圖片）

什麼是以資料為中心的人工智慧？

以資料為中心的人工智慧是一種新興的思考如何建構人工智慧系統的新方式。人工智慧先驅吳恩達（Andrew Ng）一直在倡導這個理念。

以資料為中心的人工智慧是對用於建構人工智慧系統的資料進行系統化工程的學科。
——吳恩達

過去，我們主要專注於在資料基本上不變的情況下創建更好的模型（以模型為中心的人工智慧）。然而，這種方法可能會在現實世界中導致問題，因為它沒有考慮數據中可能出現的不同問題，例如不準確的標籤、重複和偏移。因此，「過度擬合」一個資料集可能不一定會導致更好的模型行為。

相比之下，以資料為中心的人工智慧專注於提高用於建立人工智慧系統的資料的品質和數量。這意味著，注意力將集中在數據本身，而模型相對來說更固定。以資料為中心的方法開發人工智慧系統在現實世界中具有更大的潛力，因為用於訓練的資料最終決定了模型的最大能力。

值得注意的是，「以資料為中心」與「資料驅動」有根本不同，因為後者只強調使用資料來引導人工智慧開發，而人工智慧開發通常仍以開發模型而非工程數據為中心。

GPT模型中的資料中心型AI揭秘

以資料為中心的人工智慧與以模型為中心的AI的比較（圖片來自https:/ /www.php.cn/link/f9afa97535cf7c8789a1c50a2cd83787論文作者）

##整體來看，以資料為中心的人工智慧框架由三個目標組成：

###

訓練數據開發是收集和產生豐富、高品質的數據，以支援機器學習模型的訓練。
推理資料開發是為了創建新的評估集，這些評估集可以為模型提供更精細的見解，或者透過工程資料輸入觸發模型的特定能力。
資料維護是為了確保資料在動態環境中的品質和可靠性。資料維護至關重要，因為現實世界中的資料不是一次性創建的，而是需要持續維護的。

以資料為中心的人工智慧框架（圖像來自論文#https://www.php.cn/link/ f74412c3c1c8899f3c130bb30ed0e363的作者）

#為什麼以資料為中心的人工智慧使GPT模型如此成功？

幾個月前，人工智慧界大佬Yann LeCun在推特上表示，ChatGPT並不是什麼新鮮事。事實上，在ChatGPT和GPT-4中使用的所有技術（Transformer和從人類回饋中強化學習等）都不是新技術。然而，他們確實取得了以前的模型無法取得的令人難以置信的成績。那麼，他們成功的動力是什麼呢？

GPT模型中的資料中心型AI揭秘

首先，加強訓練資料開發。透過更好的資料收集、資料標記和資料準備策略，用於訓練GPT模型的資料的數量和品質顯著提高。

GPT-1：BooksCorpus資料集用於訓練。該資料集包含4629MB的原始文本，涵蓋了冒險、幻想和浪漫等一系列流派的書籍。

沒有使用以資料為中心的人工智慧策略。
訓練結果：在該資料集上應用GPT-1可以透過微調來提高下游任務的效能。
採用了以數據為中心的人工智慧策略：（1）僅使用Reddit的出站連結來控制/過濾數據，該連結至少收到3個結果；（2）使用工具Dragnet和Newspaper提取「乾淨」的內容；（3）採用重複資料消除和其他一些基於啟發式的淨化方法（論文中沒有提到細節）。
訓練結果：淨化後得到40GB的文字。 GPT-2無需微調即可實現強大的零樣本結果。
使用了以資料為中心的人工智慧策略：（1）訓練分類器，根據每個文件與WebText的相似性篩選出低質量文檔，WebText是高品質文檔的代理。（2）使用Spark的MinHashLSH對文件進行模糊的重複資料消除。（3）使用WebText、圖書語料庫和維基百科來增強資料。
訓練結果：從45TB的明文中過濾得到570GB的文字（在本次品質過濾中僅選擇1.27%的資料）。在零樣本設定中，GPT-3顯著優於GPT-2。
使用了以資料為中心的人工智慧策略：（1）使用人工提供的提示答案，透過監督訓練調整模型。（2）收集比較資料以訓練獎勵模型，然後使用此獎勵模型透過來自人類回饋的強化學習（RLHF）來調整GPT-3。
訓練結果：InstructGPT顯示出更好的真實性和更少的偏差，即更好的一致性。

GPT-2：使用#WebText 來進行訓練。這是OpenAI中的一個內部資料集，透過從Reddit中抓取出站連結來建立。
GPT-3：GPT-3的訓練主要基於#Common Crawl工具#。
InstructGPT：讓人類評估調整GPT-3的答案，使其更符合人類的期望。他們為註釋器設計了測試，只有那些能夠通過測試的人才有資格進行註釋。此外，他們甚至還設計了一項調查，以確保註釋者喜歡註釋過程。
ChatGPT/GPT-4：OpenAI未揭露詳細資訊。但眾所周知，ChatGPT/GPT-4在很大程度上遵循了先前GPT模型的設計，它們仍然使用RLHF來調整模型（可能有更多、更高品質的數據/標籤）。人們普遍認為，隨著模型權重的增加，GPT-4使用了更大的資料集。

其次，進行推理資料開發。由於最近的GPT模型已經足夠強大，我們可以透過在固定模型的情況下調整提示（或調整推理資料）來實現各種目標。例如，我們可以透過提供摘要的文本以及「summarize it」或「TL;DR」等指令來進行文字摘要，以指導推理過程。

GPT模型中的資料中心型AI揭秘

#提示符號微調#，圖片由作者提供

###

設計正確的推理提示是一項具有挑戰性的任務。它在很大程度上依賴啟發式技術。一項很好的調查總結了目前為止人們使用的不同的提示方法。有時，即使在語義上相似的提示也可能具有非常不同的輸出。在這種情況下，可能需要基於軟提示的校準來減少差異。

GPT模型中的資料中心型AI揭秘

基於軟提示符號的校準。本圖像來自於論文https://arxiv.org/abs/2303.13035v1，原作者許可

大型語言模型推理資料開發的研究仍處於早期階段。在不久的將來，已經在其他任務中使用的更多推理資料開發技術可能會應用於大型語言模型領域。

就資料維護方面來說，ChatGPT/GPT-4作為一種商業產品，並不僅僅是訓練一次成功的，而是需要不斷更新和維護。顯然，我們不知道資料維護是如何在OpenAI之外執行的。因此，我們討論了一些以資料為中心的通用人工智慧策略，這些策略很可能已用於或將用於GPT模型：

持續資料收集：當我們使用ChatGPT/GPT-4時，我們的提示/回饋反過來可以被OpenAI用來進一步推進他們的模型。可能已經設計和實施了品質指標和保證策略，以便在此過程中收集高品質的數據。
數據理解工具：有可能已經開發出各種工具來視覺化和理解用戶數據，促進更好地理解用戶的需求，並指導未來的改進方向。
高效率的資料處理：隨著ChatGPT/GPT-4使用者數量的快速成長，需要一個高效率的資料管理系統來實現快速的資料擷取。

ChatGPT/GPT-4系統能夠透過如圖所示的「拇指向上」和「拇指向下」兩個圖示按鈕收集使用者回饋，以進一步促進他們的系統發展。這裡螢幕截圖來自於https://chat.openai.com/chat。

資料科學界能從這波大型語言模型中學到什麼？

大型語言模型的成功徹底改變了人工智慧。展望未來，大型語言模型可能會進一步徹底改變資料科學的生命週期。為此，我們做出兩個預測：

以資料為中心的人工智慧變得更加重要。經過多年的研究，模型設計已經非常成熟，尤其是在Transformer之後。工程數據成為未來改善人工智慧系統的關鍵（或可能是唯一）方法。此外，當模型變得足夠強大時，我們不需要在日常工作中訓練模型。相反，我們只需要設計適當的推理資料（即時工程）來從模型中探索知識。因此，以數據為中心的人工智慧的研發將推動未來的進步。
大型語言模型將實現更好的以資料為中心的人工智慧解決方案。在大型語言模型的幫助下，許多乏味的資料科學工作可以更有效地進行。例如，ChaGPT/GPT-4已經可以編寫可操作的程式碼來處理和清理資料。此外，大型語言模型甚至可以用於創建用於訓練的資料。例如，最近的工作表明，使用大型語言模型產生合成數據可以提高臨床文本探勘中的模型效能。

GPT模型中的資料中心型AI揭秘

使用大型語言模型產生合成資料以訓練模型，此處圖像來自論文https:/ /arxiv.org/abs/2303.04360，經原作者許可

#參考資料

我希望這篇文章能在你自己的工作中帶給你啟發。您可以在以下論文中了解更多關於以資料為中心的人工智慧框架及其如何為大型語言模型帶來好處：

［1］以資料為中心的人工智慧綜述。

［2］以資料為中心的人工智慧前景與挑戰#。

注意，我們還維護了一個#GitHub程式碼倉庫，它將定期更新相關的以數據為中心的人工智慧資源。

在以後的文章中，我將深入研究以資料為中心的人工智慧的三個目標（訓練資料開發、推理資料開發和資料維護），並介紹具有代表性性的方法。

譯者介紹

朱先忠，51CTO社群編輯，51CTO專家部落格、講師，濰坊一所高校電腦教師，自由程式設計界老兵一枚。

原文標題：#What Are the Data-Centric AI Concepts behind GPT Models?#，作者：Henry Lai

以上是GPT模型中的資料中心型AI揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將