IVG:在推理時將人類價值整合到大型語言模型中
研究人員在不更改基礎模型的情況下使用隱式和顯式函數對 LLM 進行微調後,開發了推理時間對齊方法來整合人類價值觀。
在使用基於學習的演算法訓練模型後整合人類價值觀需要對 LLM 進行微調,這在計算上是昂貴且耗時的。此外,它還會引起用戶的偏見和不良反應。我們需要一個能夠透過整合可在推理時進行幹擾的演算法來有效地即時適應用戶偏好的模型。此方法將透過凍結基礎模型並減少微調 LLM 的計算成本來避免重複重新訓練模型以獲得所需結果。
研究人員在使用隱式和顯式函數對法學碩士進行微調後,開發了推理時間對齊方法來整合人類價值觀,而無需更改基礎模型。隱式函數用於標記生成,逐字評估並優先選擇機率最高的輸出。相較之下,顯式函數需要嚴格的結構來評估較大的文字區塊,並以最高的機率產生以下單字序列,同時保持整體上下文。顯式函數不靈活且計算量大,無法解決 token 等級的最佳化,而隱式函數面臨可解釋性問題,需要頻繁的前向傳遞,導致即時效率較低。
為了解決這兩個函數的缺點,所提出的方法整合價值指導(IVG)結合了隱式函數的代幣級最佳化和顯式函數的更廣泛的視角。它能夠避免適應挑戰和對齊效率的權衡,從而減少效能差異並使其更容易實施。這些優勢有助於更好地執行受控情緒生成和摘要等任務。 IVG 與 GPT-2 等較小模型相結合,可以與更高模型競爭。
IVG 結合了兩個價值函數,即隱式函數和顯式函數,以使模型與人類價值保持一致。首先,按標記取樣將各個標記微調到特定的序列長度,產生多個序列。然後,區塊級波束搜尋比較這些序列的機率並選擇機率最高的一個。雖然這種方法保證了輸出更加穩健,但由於頻繁的前向傳遞,計算能力在推理時間內增加,導致反應速度變慢。
研究人員使用了兩種實驗設定來評估 IVG:1. 受控情緒生成和總結,2. 遵循指令。在第一個模型中,GPT-2 模型系列透過利用黃金獎勵模型的合成資料集來產生正面的電影評論並總結 Reddit 貼文。相較之下,第二個需要指令調整模型 AlpacaEval 2.0。它採用了 Tulu Guidance,它使用隱式函數的特定模型,並為顯式函數訓練基於獎勵的模型,以及 Ultraguidance,它使用直接偏好優化 (DPO) 對這兩種函數的模型進行微調。第二次實驗中使用 GPT-4-turbo 作為參考來評估反應,IVG 始終表現良好。
除了這兩個實驗之外,一項消融研究證明,Chunk-Level Beam Search (CBS) 比使用隱式函數進行微調的 Emulator Fine-Tuning (EFT) 具有更高的速度效率。這些結果證明CBS在實踐中使用起來會好得多。
總之,綜合價值指導(IVG)提供了一種新穎而有效的方法,可以純粹在推理時將大型語言模型與人類偏好保持一致,從而繞過傳統微調的複雜性。透過利用隱式和顯式價值函數,IVG 增強了 token-wise 採樣和區塊級解碼的效能,正如情緒生成、摘要和指令追蹤任務的顯著改進所證明的那樣。結果表明,IVG 是一種多功能方法,提供了強有力的經驗證據,證明其超越現有方法的能力,使其成為在現實應用中微調大型模型的有前景的解決方案。
別忘了加入我們的 50k ML SubReddit
想要面對 100 萬人工智慧讀者嗎?在這裡與我們一起工作
以上是IVG:在推理時將人類價值整合到大型語言模型中的詳細內容。更多資訊請關注PHP中文網其他相關文章!

自2025年2月推出以來,PiCoin的旅程並非一帆風順。儘管PiNetwork的炒作已經持續多年,但當Mainnet最終開放時,情況並未如預期般順利。自2025年2月推出以來,PiCoin的旅程並非一帆風順。儘管PiNetwork的炒作已經持續多年,但當Mainnet最終開放時,情況並未如預期般順利。許多用戶在遷移賬戶和資產時遇到了困難,導致了大量的挫敗感,使得發布過程顯得混亂。此外,PiCore團隊未能提供清晰或頻繁的溝通,這讓社區感到被忽視,更新速度也非常緩慢。用戶對項目的未來方向感到迷茫

魯維(Ruvi)目前處於其預售的第二階段,價格低落低落的$ 0.015 $ 0.015。對於早期投資者來說,這是一個罕見,有限的機會,可以乘坐一種變革性新技術的浪潮。

Binance在一份新公告中說,它正在增加對Nexpace(NXPC)的支持,這是一個最近推出的基於區塊鏈的遊戲生態系統,與受歡迎的韓國MMORPG(大量多人在線角色扮演遊戲)Maplestory相關。

該公司從其ARKF和ARKW資金中出售了790萬美元的ARKB股票。儘管有銷售,但ARKB仍然是這兩種資金中最重要的持股之一。

2025年最具潛力的山寨幣包括:1. 以太坊(ETH),因Layer 2擴展和持續升級;2. Solana(SOL),因高性能和低費用;3. Avalanche(AVAX),因子網架構適合企業應用;4. Arbitrum(ARB)和Optimism(OP),因依賴ETH生態增長;5. Polygon(MATIC),因擴展ZK技術;6. Render Network(RNDR),因AI和3D渲染需求;7. Fetch.ai(FET),因自主AI代理;8. Filecoin(FIL),因去中心化存儲

貝萊德(Blackrock

山寨幣是比特幣之外的所有加密貨幣,旨在改進比特幣的缺陷或拓展新功能。它們主要分為智能合約平台、支付型、隱私幣、穩定幣和Meme幣,滿足不同需求。

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SublimeText3 Linux新版
SublimeText3 Linux最新版

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中