ChatGPT在few-shot和zero-shot場景下展現出的驚人性能,讓研究人員們更堅定「預訓練」是一條正確的路線。
預訓練基礎模型(Pretrained Foundation Models, PFM)被認為是不同資料模式下各種下游任務的基礎,即基於大規模數據,對BERT、 GPT-3、 MAE、 DALLE-E 和ChatGPT 等預訓練基礎模型進行訓練,為下游應用提供了合理的參數初始化。
PFM 背後的預訓練思想在大型模型的應用中起著重要作用,與以往採用卷積和遞歸模組進行特徵提取的方法不同,生成預訓練(GPT)方法採用Transformer 作為特徵提取器,在大型資料集上進行自回歸訓練。
隨著PFM 在各個領域獲得巨大成功,近年來發表的論文中提出了大量的方法、數據集和評價指標,行業內需要一篇從BERT開始一直追蹤ChatGPT發展過程的全面綜述。
最近,來自北航、密西根州立大學、理海大學、南洋理工、杜克等國內外多所知名院校、企業的研究人員聯合寫了一篇關於預訓練基礎模型的綜述,提供了在文本、圖像和圖(graph)等領域的最近的研究進展,以及目前和未來的挑戰、機會。
論文連結:https://arxiv.org/pdf/2302.09419.pdf
研究人員首先回顧了自然語言處理、電腦視覺和圖形學習的基本組成部分和現有的預訓練;然後討論了其他先進的PFM 的其他資料模式和統一的PFM 考慮資料品質和數量;以及PFM 基本原理的相關研究,包括模型效率和壓縮、安全性和隱私性;最後,文中列出了幾個關鍵的結論,包括未來的研究方向、挑戰和開放的問題。
從BERT到ChatGPT
預訓練基礎模型(PFMs)是大數據時代建構人工智慧系統的重要組成部分,其在自然語言處理(NLP)、電腦視覺(CV)和圖學習(GL)三大人工智慧領域得到廣泛的研究和應用。
PFMs是通用模型,在各個領域內或跨領域任務中都很有效,在各種學習任務中學習特徵表示方面表現出巨大的潛力,如文本分類、文字生成、影像分類、物件偵測和圖分類等。
PFMs在用大規模語料庫訓練多個任務並對類似的小規模任務進行微調方面表現出卓越的性能,使得啟動快速資料處理成為可能。
PFMs和預訓練
#PFMs是基於預訓練技術的,目的是利用大量的資料和任務來訓練一個通用模型,在不同的下游應用中可以很容易地進行微調。
預訓練的想法起源於CV任務中的遷移學習,在認識到預訓練在CV領域的有效性後,人們開始使用預訓練技術來提高其他領域的模型性能。當把預訓練技術應用於NLP領域時,經過良好訓練的語言模型(LMs)可以捕捉到對下游任務有益的豐富知識,如長期依賴關係、層次關係等。
此外,預訓練在NLP領域的顯著優勢是,訓練資料可以來自任何未標記的文字語料庫,也就是說,在預訓練過程中存在著無限量的訓練數據。
早期的預訓練是一種靜態方法,如NNLM和Word2vec,很難適應不同的語意環境;後來有研究人員提出了動態預訓練技術,如BERT、XLNet等。
PFMs在NLP、CV和GL領域的歷史和演變
基於預訓練技術的PFMs使用大型語料庫來學習通用語義表徵,隨著這些開創性工作的引入,各種PFMs已經出現,並被應用於下游的任務和應用。
一個顯著的PFM應用案例就是最近爆火的ChatGPT。
ChatGPT是從生成式預訓練Transformer,也就是GPT-3.5在文字和程式碼的混合語料訓練後,再微調得到的;ChatGPT使用了來自人類回饋的強化學習(RLHF)技術,也是目前將大型LM與人類的意圖相匹配的一種最有前景的方法。
ChatGPT的優越表現可能會導致每一類PFMs的訓練範式轉變的臨界點,即應用指令對齊(instruction aligning)技術,包括強化學習(RL)、prompt tuning和思維鏈(chain-of-thought),最終走向通用人工智慧。
#在這篇文章中,研究人員主要回顧了文字、圖像和圖(graph)相關的PFM,也是一個相對成熟的研究分類方法。
對於文字來說,語言模型透過預測下一個單字或字元即可實現多種任務,例如, PFMs可用於機器翻譯、問題回答系統、主題建模、情緒分析等。
對於圖像來說,類似於文字中的PFMs,使用大規模的資料集來訓練一個適合多個CV任務的大模型。
對於圖來說,相似的預訓練思路也被用來獲得PFMs,可用於諸多下游任務。
除了針對特定資料域的PFMs,文中也回顧並闡述了其他一些先進的PFMs,如針對語音、視訊和跨域資料的PFMs,以及多模態PFMs。
此外,一個能夠處理多模態的PFMs的大融合趨勢正在出現,也就是所謂的統一(unified)PFMs;研究人員首先定義了統一PFMs的概念,然後回顧了近期研究中最先進的統一PFMs,包括OFA、UNIFIED-IO、FLAVA、BEiT-3等。
根據這三個領域現有的PFMs的特點,研究人員得出結論,PFMs有以下兩大優勢:
##1 . 只需要進行極少的微調就可以提高模型在下游任務上的表現;2. PFMs已經在質量方面通過了考驗。 與其從頭開始建立一個模型來解決類似的問題,更好的選擇是將PFMs應用於與任務相關的資料集。 PFMs的巨大前景激發了大量的相關工作來關注模型的效率、安全性和壓縮等問題。 這篇綜述的特點在於:- #研究人員追蹤了最新的研究成果,對PFM在NLP、CV和GL中的發展進行了紮實的總結,討論並提供了關於這三個主要應用領域中通用的PFM設計和預訓練方法的思考結果。
- 總結了PFMs在其他多媒體領域的發展,如語音和視頻,還進一步討論了關於PFMs的更深層次的話題,包括統一的PFMs、模型效率和壓縮,以及安全和隱私。
- 透過對各種模態下不同任務的PFMs的回顧,討論了在大數據時代對超大型模型未來研究的主要挑戰和機遇,將引導開發新一代基於PFMs的協作和互動智能。
以上是從BERT到ChatGPT,北航等9大頂尖研究機構全面綜述:那些年一起追過的「預訓練基礎模型」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載
最受歡迎的的開源編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版
好用的JavaScript開發工具