
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
文章作者皆為來自劍橋大學語言技術實驗室,一為三年級博士生劉胤,導師為教授Nigel Collier 和Ehsan Shareghi。他的研究興趣是大模型和文本評估,數據生成等。共同一作為二年級博士生週涵,導師為教授 Anna Korhonen 和 Ivan Vulić,他的研究興趣是高效大模型。
大模型展現出了卓越的指令跟隨和任務泛化的能力,這種獨特的能力源自 LLMs 在訓練中使用了指令跟隨數據以及人類反饋強化學習(RLHF)。在 RLHF 訓練範式中,獎勵模型根據排名比較資料與人類偏好對齊。這增強了 LLMs 與人類價值觀的對齊,從而產生更好地幫助人類並遵守人類價值觀的回應。
近日,第一屆大模型頂會COLM 剛剛公佈接收結果,其中一項高分工作分析了LLM 作為文本評估器時難以避免和糾正的分數偏見問題,並提出了將評估問題轉換成偏好排序問題,從而設計了PairS 演算法,一個可以從成對偏好(pairwise preference)中搜尋和排序的演算法。透過利用不確定性和 LLM 傳遞性(transitivity)的假設,PairS 可以給出高效,準確的偏好排序,並在多個測試集上展現出和人類判斷更高的一致性。
論文連結: https://arxiv.org/abs/2403.16950
論文標題: Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
Github 地址: https://github.com/cambridgeltl/PairS
用大模型評估有什麼問題?
最近大量的工作展示了 LLMs 在評估文本質量上的出色表現,形成了一種無需參考的生成任務評估新範式,避免了昂貴的人類標註成本。然而,LLM 評估器(evaluator)對提示(prompt)設計高度敏感,甚至會受到多種偏見的影響,包括位置偏見、冗長偏見和上下文偏見。這些偏見阻礙了 LLM 評估器的公平和可信,導致與人類判斷的不一致和不對齊。RLHF 帶來的啟發
如下圖1 所示,受到RLHF 中透過偏好對獎勵模型進行對齊的資料啟發,我們認為LLM 評估器可以透過產生偏好排序(preference ranking)來得到更和人類對齊的預測。最近已有一些工作開始透過讓 LLM 進行成對比較(pairwise comparison)來得到偏好排序。然而,評估偏好排序的複雜性和可擴展性在很大程度上被忽視了。它們忽略了傳遞性假設(transitivity assumption),使得比較次數的複雜度為 O (N^2),讓評估過程變得昂貴且可行。PairS:高效偏好搜尋演算法
在本工作中,我們提出了兩種成對偏好搜尋演算法(PairS-greedy 和PairS-beam)。 PairS-greedy 是基於完全的傳遞性假設和合併排序(merge sort)的演算法,只需要透過 O (NlogN) 的複雜度就可以獲得全局的偏好排序。傳遞性假設是指,例如 3 個候選項,LLM 總是有如果 A≻B 以及 B≻C,則 A≻C。在這個假設下我們可以直接用傳統的排序演算法從成對偏好中獲得偏好排序。
但 LLM 並不具有完美的傳遞性,所以我們又設計了 PairS-beam 演算法。在較寬鬆傳遞性假設下,我們推導並化簡了偏好排序的似然函數(likelihood function)。 PairS-beam 在合併排序演算法的每一次的合併操作(merge operation)中按似然值做集束搜索,並通過偏好的不確定性(uncertainty)來減枝成對比較的空間的搜索方法。 PairS-beam 可以調整對比複雜度和排序質量, 高效的給出偏好排序的最大似然估計(MLE)。在下圖 3 中我們展示了一個 PairS-beam 如何做合併操作的範例。
實驗結果
我們在多個代表性的資料集上進行了測試,包括閉合式產生的縮寫任務NewsRoom 和SummEval,和開放式的故事生成任務HANNA,並對比了多個LLM 單點評估的基線方法,包括無監督的direct scoring, G-Eval, GPTScore 和有監督訓練過的UniEval 以及BARTScore。如下表 1 所示,PairS 在每個任務上和他們相比都有著和人類評分更高的一致性。 GPT-4-turbo 更是能達到 SOTA 的效果。
在文章中,我們也比較了兩種偏好排序的基準方法,win rate 和 ELO rating。 PairS 可以只用約 30% 的對比次數就能達到他們同樣品質的偏好排序。論文還提供了更多關於如何使用成對偏好來量化計算 LLM 評估器的傳遞性,以及成對評估器如何在校準中受益的見解。
更多研究細節,可參考原論文。
以上是首屆大模型頂會COLM 高分論文:偏好搜尋演算法PairS,讓大模型進行文字評估更有效率的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版
好用的JavaScript開發工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具