譯者 | 朱先忠
#審查| 重樓
圖片來自文章https://www.php.cn/link/f74412c3c1c8899f3c130bb30ed0e363,作者本人製作
人工智慧在改變我們的生活、工作和與技術互動的方式方面取得了令人難以置信的進步。最近,一個取得重大進展的領域是大型語言模型(LLM)的開發,如#GPT-3、ChatGPT#和#GPT-4#。這些模型能夠以令人印象深刻的準確性執行語言完成
翻譯、文字摘要和問答等任務。 雖然很難忽視大型語言模型不斷增加的模型規模,但同樣重要的是要認識到,它們的成功很大程度上歸功於用於訓練它們的大量高品質數據。
在本文中,我們將從以資料為中心的人工智慧角度概述大型語言模型的最新進展,參考我們最近的調查論文(末尾文獻1與2)中的觀點以及GitHub上的對應#技術資源#。特別是,我們將透過以資料為中心的人工智慧#的視角仔細研究GPT模型,這是資料科學界日益增長的一種觀點。我們將透過討論三個以資料為中心的人工智慧目標——訓練資料開發、推理資料開發和資料維護,來揭示GPT模型背後以資料為核心的人工智慧概念
大型語言模型與GPT模型LLM(大型語言模型)是一種自然語言處理模型,經過訓練可以在上下文中推斷單字。例如,LLM最基本的功能是在給定上下文的情況下預測丟失的令牌。為了做到這一點,LLM被訓練來從海量資料中預測每個候選令牌的機率。
使用具有上下文的大型語言模型預測遺失令牌的機率的說明性範例(作者本人提供的圖片)
##########GPT模型是指OpenAI創建的一系列大型語言模型,如#GPT-1、 GPT-2、#GPT-3、InstructGPT#和#ChatGPT/GPT-4#。與其他大型語言模型一樣,GPT模型的架構在很大程度上基於轉換器(Transformer),它使用文字和位置嵌入作為輸入,並使用注意力層來建模令牌間的關係。
GPT-1模型體系架構示意圖,本圖像來自論文https://www.php.cn/link/c3bfbc2fc89bd1dd71ad5fc5ac96ae69
#後來的GPT模型使用了與GPT-1類似的架構,只是使用了更多的模型參數,具有更多的層、更大的上下文長度、隱藏層大小等。
GPT模型的各種模型大小比較(作者提供圖片)
什麼是以資料為中心的人工智慧?以資料為中心的人工智慧是一種新興的思考如何建構人工智慧系統的新方式。人工智慧先驅吳恩達(Andrew Ng)一直在倡導這個理念。
以資料為中心的人工智慧是對用於建構人工智慧系統的資料進行系統化工程的學科。 ——吳恩達
過去,我們主要專注於在資料基本上不變的情況下創建更好的模型(以模型為中心的人工智慧)。然而,這種方法可能會在現實世界中導致問題,因為它沒有考慮數據中可能出現的不同問題,例如不準確的標籤、重複和偏移。因此,「過度擬合」一個資料集可能不一定會導致更好的模型行為。
相比之下,以資料為中心的人工智慧專注於提高用於建立人工智慧系統的資料的品質和數量。這意味著,注意力將集中在數據本身,而模型相對來說更固定。以資料為中心的方法開發人工智慧系統在現實世界中具有更大的潛力,因為用於訓練的資料最終決定了模型的最大能力。
值得注意的是,「以資料為中心」與「資料驅動」有根本不同,因為後者只強調使用資料來引導人工智慧開發,而人工智慧開發通常仍以開發模型而非工程數據為中心。
以資料為中心的人工智慧與以模型為中心的AI的比較(圖片來自https:/ /www.php.cn/link/f9afa97535cf7c8789a1c50a2cd83787論文作者)
##整體來看,以資料為中心的人工智慧框架由三個目標組成:
###以資料為中心的人工智慧框架(圖像來自論文#https://www.php.cn/link/ f74412c3c1c8899f3c130bb30ed0e363的作者)
幾個月前,人工智慧界大佬Yann LeCun在推特上表示,ChatGPT並不是什麼新鮮事。事實上,在ChatGPT和GPT-4中使用的所有技術(Transformer和從人類回饋中強化學習等)都不是新技術。然而,他們確實取得了以前的模型無法取得的令人難以置信的成績。那麼,他們成功的動力是什麼呢?
首先,加強訓練資料開發。透過更好的資料收集、資料標記和資料準備策略,用於訓練GPT模型的資料的數量和品質顯著提高。
其次,進行推理資料開發。由於最近的GPT模型已經足夠強大,我們可以透過在固定模型的情況下調整提示(或調整推理資料)來實現各種目標。例如,我們可以透過提供摘要的文本以及「summarize it」或「TL;DR」等指令來進行文字摘要,以指導推理過程。
#提示符號微調#,圖片由作者提供
###設計正確的推理提示是一項具有挑戰性的任務。它在很大程度上依賴啟發式技術。一項很好的調查總結了目前為止人們使用的不同的提示方法。有時,即使在語義上相似的提示也可能具有非常不同的輸出。在這種情況下,可能需要基於軟提示的校準來減少差異。
基於軟提示符號的校準。本圖像來自於論文https://arxiv.org/abs/2303.13035v1,原作者許可
大型語言模型推理資料開發的研究仍處於早期階段。在不久的將來,已經在其他任務中使用的更多推理資料開發技術可能會應用於大型語言模型領域。
就資料維護方面來說,ChatGPT/GPT-4作為一種商業產品,並不僅僅是訓練一次成功的,而是需要不斷更新和維護。顯然,我們不知道資料維護是如何在OpenAI之外執行的。因此,我們討論了一些以資料為中心的通用人工智慧策略,這些策略很可能已用於或將用於GPT模型:
ChatGPT/GPT-4系統能夠透過如圖所示的「拇指向上」和「拇指向下」兩個圖示按鈕收集使用者回饋,以進一步促進他們的系統發展。這裡螢幕截圖來自於https://chat.openai.com/chat。
大型語言模型的成功徹底改變了人工智慧。展望未來,大型語言模型可能會進一步徹底改變資料科學的生命週期。為此,我們做出兩個預測:
使用大型語言模型產生合成資料以訓練模型,此處圖像來自論文https:/ /arxiv.org/abs/2303.04360,經原作者許可
我希望這篇文章能在你自己的工作中帶給你啟發。您可以在以下論文中了解更多關於以資料為中心的人工智慧框架及其如何為大型語言模型帶來好處:
#[1]以資料為中心的人工智慧綜述。
[2]以資料為中心的人工智慧前景與挑戰#。
注意,我們還維護了一個#GitHub程式碼倉庫,它將定期更新相關的以數據為中心的人工智慧資源。
在以後的文章中,我將深入研究以資料為中心的人工智慧的三個目標(訓練資料開發、推理資料開發和資料維護),並介紹具有代表性性的方法。
朱先忠,51CTO社群編輯,51CTO專家部落格、講師,濰坊一所高校電腦教師,自由程式設計界老兵一枚。
原文標題:#What Are the Data-Centric AI Concepts behind GPT Models?#,作者:Henry Lai
以上是GPT模型中的資料中心型AI揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!