人工智慧 (AI) 在改變我們生活、工作和與科技互動的方式方面取得了巨大的進步。最近,取得重大進展的領域是大型語言模型 (LLM) 的開發,例如GPT-3、ChatGPT和GPT-4。這些模型能夠準確的執行語言翻譯、文字摘要和問答等任務。
雖然很難忽視LLM 不斷增加的模型規模,但同樣重要的是要認識到,他們的成功很大程度上歸功於用於訓練他們的大量高品質數據。
在本文中,我們將從以資料為中心的 AI 角度概述 LLM 的最新進展。我們將透過以資料為中心的 AI 視角研究 GPT 模型,這是資料科學界中一個不斷發展的概念。我們透過討論三個以資料為中心的 AI 目標:訓練資料開發、推理資料開發和資料維護,來揭示 GPT 模型背後以資料為中心的 AI 概念。
LLM 是一種自然語言處理模型,經過訓練可以在上下文中推斷單字。例如,LLM 最基本的功能是在給定上下文的情況下預測缺失的標記。為此,LLM 接受了訓練,可以從海量資料中預測每個候選單字的機率。下圖是在上下文中使用 LLM 預測丟失標記的機率的說明性範例。
GPT模型是指OpenAI所建立的一系列LLM,如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣,GPT 模型的架構主要基於Transformers,它使用文字和位置嵌入作為輸入,並使用注意力層來模擬令牌的關係。
GPT-1 模型架構
後來的GPT 模型使用與GPT-1 類似的架構,除了使用更多模型參數和更多層、更大的上下文長度、隱藏層大小等。
以資料為中心的 AI是一種新興的思考如何建構 AI 系統的新方法。以數據為中心的人工智慧是系統地設計用於建構人工智慧系統的數據的學科。
過去,我們主要專注於在資料基本上不變的情況下創建更好的模型(以模型為中心的 AI)。然而,這種方法在現實世界中可能會導致問題,因為它沒有考慮數據中可能出現的不同問題,例如標籤不準確、重複和偏差。因此,「過度擬合」資料集不一定會導致更好的模型行為。
相比之下,以數據為中心的人工智慧專注於提高用於構建人工智慧系統的數據的品質和數量。這意味著注意力在數據本身,模型相對更固定。使用以資料為中心的方法開發人工智慧系統在現實場景中具有更大的潛力,因為用於訓練的資料最終決定了模型的最大能力。
要注意的是,「以數據為中心」與「數據驅動」有著根本的區別,後者只強調用數據來指導人工智慧的發展,通常仍以開發模型而不是數據為中心。
以資料為中心的人工智慧與以模型為中心的人工智慧之間的比較
以資料為中心的AI 框架包含三個目標:
以資料為中心的AI 框架
幾個月前,Yann LeCun 在推特上表示ChatGPT 並不是什麼新鮮事。事實上,ChatGPT 和 GPT-4 中使用的所有技術(變壓器、從人類回饋中強化學習等)一點都不新鮮。然而,他們確實取得了以前模型無法實現的結果。那麼,他們成功的原因是什麼?
訓練資料開發。 透過更好的資料收集、資料標記和資料準備策略,用於訓練 GPT 模型的資料的數量和品質有了顯著提高。
推理資料開發。 由於最近的 GPT 模型已經足夠強大,我們可以透過在模型固定的情況下調整提示或調整推理資料來實現各種目標。例如,我們可以透過提供要總結的文本以及諸如“總結它”或“TL;DR”之類的指令來引導推理過程,從而進行文本摘要。
設計正確的推理提示是一項具有挑戰性的任務。它嚴重依賴啟發式方法。一個很好的調查總結了不同的促銷方法。有時,即使是語意相似的提示也會有非常不同的輸出。在這種情況下,可能需要基於軟提示的校準來減少變異數。
LLM推理資料開發的研究仍處於早期階段。在不久的將來,可以在 LLM 中應用更多已用於其他任務的推理資料開發技術。
資料維護。 ChatGPT/GPT-4作為商業產品,不僅訓練一次,而且不斷更新和維護。顯然,我們無法知道在 OpenAI 之外如何進行資料維護。因此,我們討論了一些通用的以資料為中心的AI 策略,這些策略已經或將很可能用於GPT 模型:
- 連續資料收集:當我們使用ChatGPT/GPT-4時,我們的提示/回饋可能反過來被OpenAI 使用進一步推進他們的模型。可能已經設計並實施了品質指標和保證策略,以在此過程中收集高品質數據。
- 數據理解工具:可以開發各種工具來視覺化和理解用戶數據,促進更好地了解用戶需求並指導未來改進的方向。
- 高效率的資料處理:隨著ChatGPT/GPT-4用戶數量的快速成長,需要一個高效的資料管理系統來實現快速的資料收集。
上圖是ChatGPT/GPT-4 透過「讚」和「不讚」收集使用者回饋的範例。
LLM的成功徹底改變了人工智慧。展望未來,LLM可以進一步徹底改變資料科學生命週期。我們做出兩個預測:
許多繁瑣的資料科學工作可以在LLM的幫助下更有效地進行。例如,ChaGPT/GPT-4 已經可以編寫可工作的程式碼來處理和清洗資料。此外,LLM 甚至可以用於建立訓練資料。例如使用 LLM 產生合成資料可以提高文字探勘中的模型效能。
以上是談談GPT 模型背後以資料為中心的 AI的詳細內容。更多資訊請關注PHP中文網其他相關文章!