搜尋
首頁科技週邊人工智慧基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

越來越多的工作證明了預訓練語言模型(PLM)中蘊含著豐富的知識,針對不同的任務,用合適的訓練方式來撬動PLM,能更好地提升模型的能力。在 Text-to-SQL 任務中,目前主流的生成器是基於語法樹的,需要針對 SQL 語法進行設計。

近期,網易互娛 AI Lab 聯合廣東外語外貿大學和哥倫比亞大學基於預訓練語言模型 T5 的預訓練方式,提出了兩階段的多任務預訓練模型 MIGA。 MIGA 在預訓練階段引入三個輔助任務,並將他們組織成統一的生成任務範式,可以將所有的Text-to-SQL 資料集統一進行訓練;同時在微調階段,MIGA 針對多輪對話中的錯誤傳遞問題進行SQL 擾動,提升了模型產生的穩健性。

目前對於Text-to-SQL 的研究,主流的方法主要是基於SQL 語法樹的encoder-decoder 模型,可以確保產生的結果一定符合SQL 語法,但需要針對SQL 語法進行特殊設計。最近也有一些關於 Text-to-SQL 的研究是基於生成式語言模型,可以很方便地繼承預訓練語言模型的知識和能力。

為了降低對基於語法樹的依賴,更好地挖掘預訓練語言模型的能力,該研究在預訓練T5 模型的框架下,提出了一個兩階段的多任務Text-to-SQL 預訓練模型MIGA (MultI-task Generation frAmework)。

MIGA 分為兩階段的訓練流程:

  • #在預訓練階段,MIGA 使用與T5 相同的預訓練範式,額外提出了三個與Text-to-SQL 相關的輔助任務,從而更好地激發預訓練語言模型中的知識。此訓練方式可以將所有的 Text-to-SQL 的資料集進行統一,擴充了訓練資料的規模;而且也可以靈活地去設計更多有效的輔助任務,進一步發掘預訓練語言模型的潛在知識。
  • 在微調階段,MIGA 針對多輪對話和SQL 中容易存在的錯誤傳遞問題,在訓練過程中對歷史SQL 進行擾動,使得產生目前輪次的SQL 效果更加穩定。

MIGA 模型在兩個多輪對話Text-to-SQL 公開資料集上表現優於目前最好的基於語法樹的模型,相關研究已經被AAAI 2023 錄用。

基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

#論文網址:https://arxiv.org/abs/2212.09278

MIGA 模型細節

基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

圖1 MIGA 模型圖。

多任務預訓練階段

#該研究主要參考T5 的預訓練方式,基於已經訓練好的T5 模型,設計了四個預訓練任務:

  • Text-to-SQL 主任務:上圖中的黃色部分,透過設計Prompt 為”translate dialogue to system query”,然後以一些special tokens 來將歷史對話、資料庫資訊和SQL語句拼接輸入到T5-encoder 中,讓decoder 直接輸出對應的SQL 語句;
  • 相關資訊預測:上圖中的綠色部分,設計Prompt 為」translate dialogue to relevant column ”,T5-encoder 的輸入也是與主任務一致,decoder 則需要輸出與當前問題相關的數據表和列,目的是加強模型對Text-to-SQL 的理解;
  • #目前輪次的操作預測:上圖中的灰色部分,設計Prompt 為”translate dialogue to turn switch”,這個任務主要是針對多輪對話中的上下文理解進行設計,對比上一輪的對話和SQL ,decoder 需要輸出目前對話的目的做了哪些變化,比如圖中例子是where 條件進行了改動;
  • 最終對話預測:上圖中的藍色部分,設計Prompt為”translate dialogue to final utterance”,目的是為了讓模型去更好的理解上下文對話,需要decoder 輸出整個多輪對話下來,最後時刻的SQL 對應的一句完整問題描述。

透過這樣的一個統一的訓練方式設計,MIGA 可以通用而又靈活地去處理更多與任務相關的額外任務,而且還有一下優點:

  1. 參考人類編寫SQL 的步驟,對話文字到SQL 任務被分解為多個子任務,允許主任務從中學習;
  2. 訓練樣本的建構格式與T5 一致,可以最大限度地發揮預訓練T5 模型對目標任務的潛力;
  3. 統一的框架允許多個輔助任務的靈活調度。當應用於特定任務時,僅需在特定任務的標記資料中使用相同的訓練目標對上面的預訓練模型進行微調即可。

在預訓練階段,研究整合了Text-to-SQL 資料集Spider 和對話Text-to-SQL 資料集SparC 和CoSQL 的資料來訓練T5 模型。

微調階段

#在預訓練階段之後,研究針對目標任務的標註數據,單純使用Text-to-SQL 任務來進一步微調模型。研究在預測目前輪次的SQL 時,會拼接先前輪次的預測SQL,在此過程中,為了盡量克服多輪對話和生成中所帶來的錯誤傳遞問題,研究提出了SQL 擾動的方案,對輸入資料中的歷史輪次SQL,以α 機率來進行擾動。 SQL 語句的擾動主要以β 的機率取樣對應的token,然後進行下列其一的擾動:

  • 用相同資料表中的列,來隨機修改或新增SELECT 部分中的欄位;
  • 隨機修改JOIN 條件中的結構,例如交換兩個表的位置;
  • ##修改”* ” 所有列為一些其他的列;
  • 交換”asc” 和”desc”。

上述的擾動是該研究在實驗中統計發現最常見的一些錯誤傳遞導致的SQL 生成錯誤情況,因此針對這些情況來進行擾動,降低模型關於這方面的依賴。

實驗評估

評估資料集為多輪對話 Text-to-SQL:SparC 和 CoSQL。

評估指標為:

  • #QM:Question Match,表示單輪問題中的產生的SQL 與標註輸出完全匹配的比例;
  • IM:Interaction Match,表示多輪對話中整個完整輪次所有產生的SQL 與標註輸出完全匹配的比例。

在表1 的比較實驗中,MIGA 在兩個資料集上的IM 分數,以及CoSQL 的QM 分數上,超過了目前最好的多輪對話Text-to-SQL 模型。而且比較同類型的基於 T5 的方案,MIGA 分別在 IM 上提升了 7.0% 和 QM 上提升了 5.8%。

基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

表 1 比較實驗分析,第一部分為樹模型,第二部分為基於預訓練產生模型。

在表2 的消融實驗中,該研究對MIGA 的兩階段訓練過程中的幾個任務進行了探索,同時證明了這些任務分別都會對目標任務有不同程度的提升。

基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

表 2 針對 SparC 任務,分別移除各項任務或數據,在指標上都有所降低。

在實際的案例分析結果,MIGA 在產生的穩定性和正確性,對比基於T5-3B 訓練模型更好,可以看到MIGA 在多表連接操作和列和表格的映射上要優於其他模型。在Case#1 的Question#2 中,T5-3B 模型無法為相對複雜的JOIN 結構(兩表連接)產生有效的SQL,進而導致Question#3 中更複雜的JOIN 結構(三表連接)也預測錯誤。而 MIGA 準確地預測了 JOIN 結構,並且較好地維持了先前的條件 t1.sex="f"。在 Case#2 中,T5- 3B 混淆了不同表中的多個列,並將 earnings 誤認為是 people 表的列,而 MIGA 可以正確識別該列屬於 poker_player 表,並將其連結至 t1。

基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA

#表 3 案例分析。

結語

網易互娛 AI Lab 針對 Text-to-SQL 提出了一個基於 T5 的兩階段的多任務預訓練模型:MIGA。在預訓練階段,MIGA 將 Text-to-SQL 任務分解出了額外三個子任務,並將其統一為序列到序列的生成範式,從而更好地激發預訓練 T5 模型。並且在微調階段引入了 SQL 擾動機制,降低多輪 Text-to-SQL 生成場景下的錯誤傳遞帶來的影響。

未來,研究團隊將進一步探索更多有效的策略來撬動超大語言模型的能力,並探索更優雅更有效的方式來進一步克服因為錯誤傳遞而導致的效果降低問題。

以上是基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。