首頁 >科技週邊 >人工智慧 >談談GPT 模型背後以資料為中心的 AI

談談GPT 模型背後以資料為中心的 AI

王林
王林轉載
2023-04-11 23:55:011399瀏覽

人工智慧 (AI) 在改變我們生活、工作和與科技互動的方式方面取得了巨大的進步。最近,取得重大進展的領域是大型語言模型 (LLM) 的開發,例如GPT-3、ChatGPT和GPT-4。這些模型能夠準確的執行語言翻譯、文字摘要和問答等任務。

談談GPT 模型背後以資料為中心的 AI

雖然很難忽視LLM 不斷增加的模型規模,但同樣重要的是要認識到,他們的成功很大程度上歸功於用於訓練他們的大量高品質數據。

在本文中,我們將從以資料為中心的 AI 角度概述 LLM 的最新進展。我們將透過以資料為中心的 AI 視角研究 GPT 模型,這是資料科學界中一個不斷發展的概念。我們透過討論三個以資料為中心的 AI 目標:訓練資料開發、推理資料開發和資料維護,來揭示 GPT 模型背後以資料為中心的 AI 概念。

大型語言模型 (LLM) 和 GPT 模型

LLM 是一種自然語言處理模型,經過訓練可以在上下文中推斷單字。例如,LLM 最基本的功能是在給定上下文的情況下預測缺失的標記。為此,LLM 接受了訓練,可以從海量資料中預測每個候選單字的機率。下圖是在上下文中使用 LLM 預測丟失標記的機率的說明性範例。

談談GPT 模型背後以資料為中心的 AI

GPT模型是指OpenAI所建立的一系列LLM,如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣,GPT 模型的架構主要基於Transformers,它使用文字和位置嵌入作為輸入,並使用注意力層來模擬令牌的關係。

談談GPT 模型背後以資料為中心的 AI

GPT-1 模型架構

後來的GPT 模型使用與GPT-1 類似的架構,除了使用更多模型參數和更多層、更大的上下文長度、隱藏層大小等。

談談GPT 模型背後以資料為中心的 AI

什麼是以資料為中心的人工智慧

以資料為中心的 AI是一種新興的思考如何建構 AI 系統的新方法。以數據為中心的人工智慧是系統地設計用於建構人工智慧系統的數據的學科。

過去,我們主要專注於在資料基本上不變的情況下創建更好的模型(以模型為中心的 AI)。然而,這種方法在現實世界中可能會導致問題,因為它沒有考慮數據中可能出現的不同問題,例如標籤不準確、重複和偏差。因此,「過度擬合」資料集不一定會導致更好的模型行為。

相比之下,以數據為中心的人工智慧專注於提高用於構建人工智慧系統的數據的品質和數量。這意味著注意力在數據本身,模型相對更固定。使用以資料為中心的方法開發人工智慧系統在現實場景中具有更大的潛力,因為用於訓練的資料最終決定了模型的最大能力。

要注意的是,「以數據為中心」與「數據驅動」有著根本的區別,後者只強調用數據來指導人工智慧的發展,通常仍以開發模型而不是數據為中心。

談談GPT 模型背後以資料為中心的 AI

以資料為中心的人工智慧與以模型為中心的人工智慧之間的比較

以資料為中心的AI 框架包含三個目標:

  • 訓練數據開發就是收集和生產豐富、高品質的數據,以支援機器學習模型的訓練。
  • 推理資料開發是為了創建新的評估集,這些評估集可以提供對模型的更細粒度的洞察力,或者透過資料輸入觸發模型的特定功能。
  • 資料維護是為了在動態環境下保證資料的品質和可靠性。資料維護至關重要,因為現實世界中的資料不是一次性創建的,而是需要持續維護。

談談GPT 模型背後以資料為中心的 AI

以資料為中心的AI 框架

#為什麼以資料為中心的AI 讓GPT 模型成功

幾個月前,Yann LeCun 在推特上表示ChatGPT 並不是什麼新鮮事。事實上,ChatGPT 和 GPT-4 中使用的所有技術(變壓器、從人類回饋中強化學習等)一點都不新鮮。然而,他們確實取得了以前模型無法實現的結果。那麼,他們成功的原因是什麼?

訓練資料開發。 透過更好的資料收集、資料標記和資料準備策略,用於訓練 GPT 模型的資料的數量和品質有了顯著提高。

  • GPT-1:BooksCorpus 資料集用於訓練。該資料集包含4629.00 MB 的原始文本,涵蓋各種類型的書籍,例如冒險、幻想和浪漫。
    -以資料為中心的 AI 策略:無。
    -結果:在該資料集上使用 GPT-1 可以透過微調來提高下游任務的效能。
  • GPT-2:訓練中使用WebText 。這是 OpenAI 中的一個內部資料集,透過從 Reddit 抓取出站連結建立。
    -以數據為中心的 AI 策略:(1) 僅使用 Reddit 的出站連結來整理/過濾數據,該連結至少獲得 3 個業力。 (2) 使用工具Dragnet和Newspaper來提取乾淨的內容。 (3) 採用去重和其他一些基於啟發式的清洗。
    -結果:過濾後得到 40 GB 的文字。 GPT-2 無需微調即可獲得強大的零樣本結果。
  • GPT-3:GPT-3的訓練主要基於Common Crawl。
    -以資料為中心的 AI 策略:(1) 訓練分類器根據每個文件與WebText(高品質文件)的相似性過濾掉低品質文件。 (2)利用Spark的MinHashLSH對文件進行模糊去重。 (3) 使用WebText、圖書語料庫和維基百科擴充資料。
    - 結果:45TB的明文過濾後得到570GB的文字(本次品質過濾只選擇了1.27%的資料)。 GPT-3 在零樣本設定中明顯優於 GPT-2。
  • InstructGPT:讓人類評估調整GPT-3 的答案,使其更符合人類的期望。他們為標註者設計了測試,只有通過測試的人才有資格標註。他們甚至設計了一項調查,以確保註釋者全心投入註釋過程中。
    -以資料為中心的 AI 策略:(1)使用人類提供的提示答案透過監督訓練調整模型。 (2)收集比較資料以訓練獎勵模型,然後使用此獎勵模型透過人類回饋強化學習(RLHF)調整GPT-3。
    - 結果:InstructGPT 表現出更好的真實性和更少的偏差,即更好的對齊。
  • ChatGPT/GPT-4:OpenAI 沒有透露細節。但眾所周知,ChatGPT/GPT-4 很大程度上沿用了先前 GPT 模型的設計,他們仍然使用 RLHF 來調整模型(可能有更多且更高品質的數據/標籤)。人們普遍認為,隨著模型權重的增加,GPT-4 使用了更大的資料集。

推理資料開發。 由於最近的 GPT 模型已經足夠強大,我們可以透過在模型固定的情況下調整提示或調整推理資料來實現各種目標。例如,我們可以透過提供要總結的文本以及諸如“總結它”或“TL;DR”之類的指令來引導推理過程,從而進行文本摘要。

談談GPT 模型背後以資料為中心的 AI

及時調整

設計正確的推理提示是一項具有挑戰性的任務。它嚴重依賴啟發式方法。一個很好的調查總結了不同的促銷方法。有時,即使是語意相似的提示也會有非常不同的輸出。在這種情況下,可能需要基於軟提示的校準來減少變異數。

談談GPT 模型背後以資料為中心的 AI

LLM推理資料開發的研究仍處於早期階段。在不久的將來,可以在 LLM 中應用更多已用於其他任務的推理資料開發技術。

資料維護。 ChatGPT/GPT-4作為商業產品,不僅訓練一次,而且不斷更新和維護。顯然,我們無法知道在 OpenAI 之外如何進行資料維護。因此,我們討論了一些通用的以資料為中心的AI 策略,這些策略已經或將很可能用於GPT 模型:
- 連續資料收集:當我們使用ChatGPT/GPT-4時,我們的提示/回饋可能反過來被OpenAI 使用進一步推進他們的模型。可能已經設計並實施了品質指標和保證策略,以在此過程中收集高品質數據。
- 數據理解工具:可以開發各種工具來視覺化和理解用戶數據,促進更好地了解用戶需求並指導未來改進的方向。
- 高效率的資料處理:隨著ChatGPT/GPT-4用戶數量的快速成長,需要一個高效的資料管理系統來實現快速的資料收集。

談談GPT 模型背後以資料為中心的 AI

上圖是ChatGPT/GPT-4 透過「讚」和「不讚」收集使用者回饋的範例。

資料科學界可以從這波 LLM 浪潮中學到什麼

LLM的成功徹底改變了人工智慧。展望未來,LLM可以進一步徹底改變資料科學生命週期。我們做出兩個預測:

  • 以資料為中心的人工智慧變得更加重要。 經過多年研究,模型設計已經非常成熟,尤其是在Transformer之後。數據成為未來改進 AI 系統的關鍵方式。另外,當模型變得夠強大時,我們就不需要在日常工作中訓練模型了。相反,我們只需要設計適當的推理資料來從模型中探索知識。因此,以數據為中心的人工智慧的研發將推動未來的進步。
  • LLM將實現更好的以數據為中心的人工智慧解決方案

許多繁瑣的資料科學工作可以在LLM的幫助下更有效地進行。例如,ChaGPT/GPT-4 已經可以編寫可工作的程式碼來處理和清洗資料。此外,LLM 甚至可以用於建立訓練資料。例如使用 LLM 產生合成資料可以提高文字探勘中的模型效能。

談談GPT 模型背後以資料為中心的 AI

以上是談談GPT 模型背後以資料為中心的 AI的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除