夕小瑤科技說原創
作者| 小戲,Python
如果自己是一個大模型的小白,第一眼看到GPT、PaLm、LLaMA 這些單字的怪異組合會作何感想?假如再往深裡入門,又看到 BERT、BART、RoBERTa、ELMo 這些奇奇怪怪的字一個接一個蹦出來,不知道身為小白的自己心裡會不會抓狂?
就算是個久居NLP 這個小圈子的老鳥,伴隨著大模型這爆炸般的發展速度,可能恍惚一下也會跟不上這追新打快日新月異的大模型到底是何門何派用的哪一套武功。這時候可能就需要請出一個大模型綜述來幫忙了!這篇由亞馬遜、德州農工大學與萊斯大學的研究者推出的大模型綜述《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,為我們以建構一顆「家譜樹」的方式梳理了以ChatGPT 為代表的大模型的前世今生與未來,並且從任務出發,為我們搭建了非常全面的大模型實用指南,為我們介紹了大模型在不同任務中的優缺點,最後還指出了大模型目前的風險與挑戰。
論文題目:
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
論文連結:https://www.php.cn/link/ f50fb34f27bd263e6be8ffcf8967ced0
計畫首頁:https://www.php.cn/link/968b15768f3d19770471e9436d97913c
#1]大譜模型的前世模型的前世模型1]大光譜的前生模型的前世模型
113S%
#1]大光譜的前生模型的前世模型
#追尋大模型的“萬惡之源”,大抵應該從那篇《Attention is All You Need》開始,基於這篇由谷歌機器翻譯團隊提出的由多組Encoder、Decoder 構成的機器翻譯模型Transformer 開始,大模型的發展大致走上了兩條路,一條路是捨棄Decoder 部分,僅僅使用Encoder 作為編碼器的預訓練模型,其最出名的代表就是Bert 家族。這些模型開始嘗試「無監督預訓練」的方式來更好的利用相較其他數據而言更容易獲得的大規模的自然語言數據,而「無監督」的方式就是Masked Language Model(MLM),透過讓Mask 掉句子中的部分單字,讓模型去學習使用上下文去預測被Mask 掉的單字的能力。在Bert 問世之初,在NLP 領域也算是一顆炸彈,同時在許多自然語言處理的常見任務如情感分析、命名實體識別等中都刷到了SOTA,Bert 家族的出色代表除了谷歌提出的Bert 、ALBert之外,還有百度的ERNIE、Meta 的RoBERTa、微軟的DeBERTa等等。 ###############可惜的是,Bert 的進路沒能突破Scale Law,而這一點則由當下大模型的主力軍,即大模型發展的另一條路,透過捨棄Encoder 部分而基於Decoder 部分的GPT 家族真正做到了。 GPT 家族的成功來自於一個研究人員驚異的發現:“擴大語言模型的規模可以顯著提高零樣本(zero-shot)與小樣本(few-shot)學習的能力”,這一點與基於微調的Bert 家族有很大的區別,也是當下大規模語言模型神奇能力的來源。 GPT 家族基於給定前面單字序列預測下一個單字來進行訓練,因此GPT 最初只是作為一個文本生成模型而出現的,而GPT-3 的出現則是GPT 家族命運的轉折點,GPT-3 第一次向人們展示了大模型帶來的超越文本生成本身的神奇能力,顯示了這些自回歸語言模型的優越性。而從 GPT-3 開始,當下的 ChatGPT、GPT-4、Bard 以及 PaLM、LLaMA 百花齊放百家爭鳴,帶來了當下的大模型盛世。 ###############從合併這家譜樹的兩支,可以看到早期的Word2Vec、FastText,再到預訓練模型的早期探索ELMo、ULFMiT ,再到Bert 橫空出世紅極一時,到GPT 家族默默耕耘直到GPT-3 驚艷登場,ChatGPT 一飛沖天,技術的迭代之外也可以看到OpenAI 默默堅持自己的技術路徑最終成為目前LLMs 無可爭議的領導者,看到Google 對整個Encoder-Decoder 模型架構做出的重大理論貢獻,看到Meta 對大模型開源事業的持續慷慨的參與,當然也看到從GPT-3 之後LLMs 逐漸趨向於「閉」源的趨勢,未來很有可能大部分研究都不得不變成API-Based 的研究。 ###歸根究底,大模型的神奇能力是來自 GPT 麼?我覺得答案是否定的,GPT 家族幾乎每一次能力的躍遷,都在預訓練資料的數量、品質、多樣性等方面做出了重要的提升。大模型的訓練資料包括書籍、文章、網站資訊、程式碼資訊等等,這些資料輸入到大模型中的目的,實質在於全面準確的反應「人類」這個東西,透過告訴大模型單字、語法、句法和語意的訊息,讓模型獲得辨識上下文並產生連貫回應的能力,以捕捉人類的知識、語言、文化等等面向。
一般而言,面對許多 NLP 的任務,我們可以從資料標註資訊的角度將其分類為零樣本、少樣本與多樣本。無疑,零樣本的任務 LLMs 是最合適的方法,幾乎沒有例外,大模型在零樣本任務上遙遙領先其他的模型。同時,少樣本任務也十分適合大模型的應用,透過為大模型展示「問題-答案」對,可以增強大模型的表現效能,這種方式我們一般也稱為上下文學習(In-Context Learning)。而多樣本任務儘管大模型也可以去覆蓋,但是微調可能仍然是最好的方法,當然在一些如隱私、計算等約束條件下,大模型可能仍然有用武之地。
同時,微調的模型很有可能會面對訓練資料與測試資料分佈變化的問題,顯著的,微調的模型在OOD 資料上一般表現都非常差。而相應的,LLMs 由於並沒有一個明確的擬合過程,因此表現要好許多,典型的ChatGPT 基於人類反饋的強化學習(RLHF)在大部分分佈外的分類與翻譯任務中都表現優異,在專為OOD 評估設計的醫學診斷資料集DDXPlus 上也表現出色。
很多時候,「大模型很好!」這個斷言後緊跟著的問題就是「大模型怎麼用,什麼時候用? ”,面對一個具體任務時,我們是應該選擇微調、還是不假思索的上手大模型?這篇論文總結出了一個實用的“決策流”,根據“是否需要模仿人類”,“是否要求推理能力”,“是否是多任務”等一系列問題幫我們判斷是否要去使用大模型。
而從NLP 任務分類的角度而言:
目前擁有大量豐富的已標註資料的許多NLP 任務,微調模型可能仍然牢牢把控著優勢,在大多數資料集中LLMs 都遜色於微調模型,具體而言:
總之,對於大多數傳統自然語言理解的任務,微調模型的效果更好。當然LLMs 的潛力受限於Prompt 工程可能仍未完全釋放(其實微調模型也未達到上限),同時,在一些小眾的領域,如Miscellaneous Text Classification,Adversarial NLI 等任務中,LLMs 由於更強的泛化能力因而具有更好的性能,但是在目前而言,對於有成熟標註的數據而言,微調模型可能仍然是對傳統任務的最優解。
相較於自然語言理解,自然語言生成可能就是大模型的舞台了。自然語言生成的目標主要是創造連貫、通順、有意義的符合序列,通常可以分為兩大類,一類是以機器翻譯、段落資訊摘要為代表的任務,一類是更開放的自然寫作,如撰寫郵件,編寫新聞,創作故事等的任務。具體而言:
知識密集型任務一般指強烈依賴背景知識、領域特定專業知識或一般世界知識的任務,知識密集任務區別於簡單的模式辨識與句法分析,需要對我們的現實世界擁有「常識」並能正確的使用,具體而言:
值得注意的是,在知識密集型任務中,大模型並不是百試百靈,有些時候,大模型對現實世界的知識可能是無用甚至錯誤的,這樣“不一致”的知識有時會使大模型的表現比隨機猜測還差。如重定義數學任務(Redefine Math)中要求模型在原含義和從重新定義的含義中做出選擇,這需要的能力與大規模語言模型的學習到的知識恰恰相反,因此,LLMs 的表現甚至不如隨機猜測。
LLMs 的擴展能力可以極大的增強預訓練語言模型的能力,當模型規模指數增加時,一些關鍵的如推理的能力會逐漸隨參數的擴展而被激活,LLMs 的算術推理與常識推理的能力肉眼可見的異常強大,在這類任務中:
除了推理之外,隨著模型規模的成長,模型還會浮現一些 Emergent Ability,譬如符合操作、邏輯推導、概念理解等等。但還有類有趣的現象稱為“U形現象”,指隨著LLMs 規模的增加,模型性能出現先增加後又開始下降的現象,典型的代表就是前文提到的重定義數學的問題,這類現象呼喚著對大模型原理更深入細緻的研究。
大模型必然是未來很長一段時間我們工作生活的一部分,而對於這樣一個與我們生活高度同頻互動的“大傢伙”,除了效能、效率、成本等問題外,大規模語言模型的安全問題幾乎是大模型所面對的所有挑戰之中的重中之重,機器幻覺是大模型目前還沒有極佳解決方案的主要問題,大模型輸出的偏差或有害的幻覺將會對使用者造成嚴重後果。同時,隨著 LLMs 的「公信度」越來越高,用戶可能會過度依賴 LLMs 並相信它們能夠提供準確的信息,這點可以預見的趨勢增加了大模型的安全風險。
除了誤導性資訊外,由於LLMs 生成文本的高品質和低成本,LLMs 有可能被利用為進行仇恨、歧視、暴力、造謠等攻擊的工具,LLMs 也有可能被攻擊以未惡意攻擊者提供非法資訊或竊取隱私,據報道,三星員工在使用ChatGPT 處理工作時意外洩漏了最新程式的原始碼屬性、與硬體相關的內部會議記錄等絕密資料。
除此之外,大模型是否能應用於敏感領域,如醫療保健、金融、法律等的關鍵在於大模型的「可信度」的問題,在當下,零樣本的大模型穩健性往往會出現降低。同時,LLMs 已被證明具有社會偏見或歧視,許多研究在口音、宗教、性別和種族等人口統計類別之間觀察到了顯著的表現差異。這會導致大模型的“公平”問題。
最後,如果脫開社會問題做個總結,也是展望一下大模型研究的未來,目前大模型主要面臨的挑戰可以被歸類如下:
以上是大模型綜述來了!一文帶你理清全球AI巨頭的大模型進化史的詳細內容。更多資訊請關注PHP中文網其他相關文章!