首頁 >科技週邊 >人工智慧 >陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿

PHPz轉載: 2023-07-23 08:29:081679瀏覽

清華姚班校友陳丹琦，在ACL 2023上做了一場最新演講！

主題還是近期非常熱門的研究方向－

像GPT-3、PaLM這樣的（大）語言模型，究竟是否需要依賴檢索來彌補自身缺陷，以便更好地應用落地。

在這場演講中，她和其他3位主講人一起，共同介紹了這個主題的幾大研究方向，包括訓練方法、應用和挑戰等。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

演講期間聽眾的反應也很熱烈，不少網友認真地提出了自己的問題，幾位演講者盡力答疑解惑。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

至於這次演講具體效果如何？有網友直接一句「推薦」給到留言區。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

所以，在這場長達3小時的演講中，他們具體講了什麼？又有哪些值得一聽的地方呢？

大模型為何需要「外掛」資料庫？

這場演講的核心主題是“基於檢索的語言模型”，包含檢索和語言模型兩個要素。

從定義上來看，它指的是給語言模型「外掛」一個資料檢索庫，並在進行推理（等操作）時對這個資料庫進行檢索，最後基於檢索結果進行輸出。

這類外掛資料儲存庫，也稱為半參數模型或非參數模型。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

之所以要研究這個方向，是因為如GPT-3和PaLM這類（大）語言模型，在表現出不錯的效果同時，也出現了一些讓人頭疼的“bug”，主要有三個問題：

1、參數量過大，如果基於新數據重訓練，計算成本過高；
2、記憶力不行（面對長文本，記了下文忘了上文），時間一長會產生幻覺，且容易洩漏資料；
3、目前的參數量，不可能記住所有知識。

在這種情況下，外部檢索語料庫被提出，即給大語言模型「外掛」一個資料庫，讓它隨時能透過查找資料來回答問題，而且由於這種資料庫隨時能更新，也不用擔心重訓的成本問題。

介紹完定義和背景之後，就是這個研究方向具體的架構、訓練、多模態、應用和挑戰了。

在架構上，主要介紹了基於檢索的語言模型檢索的內容、檢索的方式和檢索的「時機」。

具體而言，這類模型主要會檢索token、文字區塊和實體字詞（entity mentions），使用檢索的方式和時機也很多樣性，是一類很靈活的模型架構。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

在訓練方式上，則著重介紹了獨立訓練（independent training，語言模型和檢索模型分開訓練）、連續學習（sequential training）、多任務學習（joint training）等方法。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

至於應用程式方面，這類模型涉及的也就比較多了，不僅可以用在程式碼產生、在分類、知識密集NLP等任務上，而且透過微調、強化學習、基於檢索的提示詞等方法就能使用。

應用程式場景也很靈活，包括長尾場景、需要知識更新的場景以及涉及隱私安全的場景等，都有這類模型的用武之地。

當然，不只文本上。這類模型也存在著多模態擴充的潛力，可以將它用於文字以外的任務。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

聽起來這類模型優點很多，不過基於檢索的語言模型，當下也存在一些挑戰。

陳丹琦在最後「收尾」的演講中，著重提到了幾點這個研究方向需要解決的幾大難題。

其一，小語言模型（不斷擴張的）大資料庫，本質上是否意味著語言模型的參數量依舊很大？如何解決這一問題？

例如，雖然這類模型的參數量可以做到很小，只有70億參數量，但外掛的資料庫卻能達到2T…

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

其二，相似性搜尋的效率。如何設計演算法使得搜尋效率最大化，是目前非常活躍的研究方向。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

其三，完成複雜語言任務。包括開放式文本生成任務，以及複雜的文本推理任務在內，如何以基於檢索的語言模型完成這些任務，也是需要持續探索的方向。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片

當然，陳丹琦也提到，這些主題是挑戰的同時，也是研究機會。還在尋找論文課題的小夥伴們，可以考慮是否把它們加進研究列表了~

值得一提的是，這次演講也不是「憑空」找出的話題，4位演講者貼心在官網放出了演講參考的論文連結。

從模型架構、訓練方法、應用、多模態到挑戰，如果對這些主題中的任何一部分感興趣，都可以到官網找對應的經典論文來看：

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿

圖片

現場解答聽眾困惑

這麼乾貨滿滿的演講，四位主講人也不是沒有來頭，在演講中他們還耐心地對聽眾提出的問題進行了解答。

我們先來康康主講人是誰。

首先是主導這次演講的普林斯頓大學電腦科學助理教授

陳丹琦。

圖片

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿她是電腦科學領域近來最受矚目的華人青年學者之一，也是08級清華姚班校友。

在資訊學競賽圈，她頗具傳奇色彩－

CDQ分治演算法

就是以她的名字命名。 2008年，她代表中國隊獲得一枚IOI金牌。 ######而她的那篇長達156 頁的博士畢業論文《Neural Reading Comprehension and Beyond》，更是一度火爆出圈，不光獲得當年斯坦福最佳博士論文獎，還成為了斯坦福大學近十年來最熱門畢業論文之一。 ######現在，陳丹琦除了是普林斯頓大學電腦科學助理教授，也是該校從頭開始建立NLP小組的共同負責人、AIML小組成員。 ######她的研究方向主要聚焦於自然語言處理和機器學習，並且對在實際問題中具有可行性、可擴展性和可泛化性的簡單而可靠的方法饒有興趣。 ######同樣是來自普林斯頓大學的，還有陳丹琦的徒弟###鐘澤軒######（Zexuan Zhong）###。 ############圖片#########鐘澤軒是普林斯頓大學的四年級博士生。碩士畢業於伊利諾大學香檳分校，指導教授是謝濤；本科畢業於北京大學電腦系，曾在微軟亞研院實習，指導教授是聶再清。 ###

他的最新研究主要聚焦於從非結構化文字中提取結構化資訊、從預訓練語言模型中提取事實性資訊、分析稠密檢索模型的泛化能力，以及開發適用於基於檢索的語言模型的訓練技術。

此外，主講人還有來自華盛頓大學的Akari Asai、Sewon Min。

陳丹琦ACL學術報告來了！詳解大模型「外掛」資料庫7大方向3大挑戰，3小時乾貨滿滿圖片