RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 14, 2023 pm 11:55 PM

模型算力

隨著大型語言模型（LLM）的發展，從業者面臨更多挑戰。如何避免 LLM 產生有害回覆？如何快速刪除訓練資料中的版權保護內容？如何減少 LLM 幻覺（hallucinations，即錯誤事實）? 如何在資料政策變更後快速迭代 LLM？這些問題在人工智慧法律和道德的合規要求日益成熟的大趨勢下，對於 LLM 的安全可信部署至關重要。

目前業界的主流解決方案是透過使用強化學習的方式對齊LLM（對齊）來微調對比數據（正樣本和負樣本），以確保LLM的輸出符合人類的預期和價值觀。然而，這個對齊過程通常會受到資料收集和計算資源的限制

位元組跳動提出了一種讓LLM進行遺忘學習的方法來對齊。本文研究如何在LLM上進行"遺忘"操作，即忘記有害行為或遺忘學習（Machine Unlearning）。作者展示了遺忘學習在三種LLM對齊場景上取得的明顯效果：（1）刪除有害輸出；（2）移除侵權保護內容；（3）消除大語言LLM幻覺

遺忘學習有三個優點：(1) 只需負樣本（有害樣本），負樣本比RLHF 所需的正樣本（高品質的人工手寫輸出）的收集簡單的多（例如紅隊測試或用戶報告）；(2) 計算成本低；(3) 如果知道哪些訓練樣本導致LLM 有害行為時，遺忘學習尤其有效。

作者的論點是，對於資源有限的從業者來說，他們應該優先考慮停止產生有害輸出，而不是試圖追求過於理想化的輸出，並且忘記學習是一種方便的方法。儘管只有負樣本，研究表明，在只使用2%的計算時間下，忘記學習仍然可以獲得比強化學習和高溫高頻演算法更好的對齊性能

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

論文網址：https://arxiv.org/abs/2310.10683
程式碼位址：https: //github.com/kevinyaobytedance/llm_unlearn

使用場景

在資源有限的情況下，我們可以採用這種方法來最大程度地發揮優勢。當我們沒有預算請人員編寫高品質樣本或計算資源不足時，我們應該優先停止LLM 產生有害輸出，而不是試圖讓它產生有益輸出

有害的輸出所造成的損害是無法被有益的輸出所彌補的。如果一個使用者向LLM提出100個問題，他得到的答案是有害的，那麼他將失去信任，無論LLM之後提供了多少有益的答案。有害問題的預期輸出可能是空格、特殊字元、無意義的字串等，總之，必須是無害的文字

展示了LLM遺忘學習的三個成功案例： (1) 停止產生有害回复（請將內容改寫為中文，不需要出現原始句子）；這與RLHF情境相似，區別是本方法的目標是產生無害回复，而不是有益回复。當只有負樣本時，這是能期望的最佳結果。 (2) 在使用侵權數據訓練後，LLM成功刪除了數據，並考慮到成本因素不能重新訓練LLM；(3) LLM成功忘記了"幻覺"

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

請將內容改寫為中文，不需要出現原始句子

#方法

在微調步驟t中， LLM的更新如下：

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

第一項損失為梯度上升（graident descent），目的為忘記有害樣本:

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术為有害提示 (prompt)，為對應的有害回應。整體損失反向提升了有害樣本的損失，即讓 LLM “遺忘” 有害樣本。

第二項損失是針對隨機誤配的，它要求LLM在有害提示的情況下預測出無關回應。這類似於分類中的標籤平滑（label smoothing [2]）。其目的是讓LLM更好地遺忘有害提示上的有害輸出。同時，實驗證明這種方法可以提高LLM在正常情況下的輸出性能

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

第三項損失為在正常任務上維持性能：

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

同RLHF 類似，在預訓練LLM 上計算KL 散度能更好地維持LLM 效能。

此外，所有的梯度上升和下降都只在輸出（y）部分做，而不是像 RLHF 在提示 - 輸出對（x, y）上。

應用場景：忘卻有害內容等

#本文以PKU-SafeRLHF 數據作為遺忘數據，TruthfulQA 作為正常數據，圖二的內容需要進行改寫顯示了遺忘學習後LLM 在忘卻的有害提示上輸出的有害率。文中使用的方法為 GA（梯度上升和 GA Mismatch：梯度上升隨機誤配）。遺忘學習後的有害率接近零。

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

圖二的內容需要進行改寫

#第三張圖顯示了有害提示（不被遺忘）的輸出結果，這是之前未曾見過的。即使在沒有被遺忘的有害提示上，LLM 的有害率也接近零，這證明LLM遺忘的不僅僅是具體的樣本，而是泛化到了包含有害概念的內容

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

圖三

LLM 在正常樣本上的表現與遺忘前保持類似，同時具有以下特點

表一展示了產生的樣本。可以看到在有害提示下，LLM 產生的樣本都是無意義字串，即無害輸出。

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

表一

#在其他場景中，例如忘卻侵權內容和忘卻幻覺，該方法的應用原文進行了詳細的描述

RLHF 比較

#需要改寫的內容是：第二張表格展示了該方法和RLHF的比較，其中RLHF使用了正例，而遺忘學習方法只使用了負例，因此一開始該方法處於劣勢。但即便如此，遺忘學習仍能達到與RLHF相似的對齊性能

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

需要改寫的內容是：第二張表格

需要重寫的內容：第四張圖片顯示了計算時間的比較，本方法只需RLHF 2% 的計算時間。

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

需要重寫的內容：第四張圖片

即使只有負面樣本，使用遺忘學習的方法也可以獲得與 RLHF 相當的無害率，並且只需使用 2% 的計算能力。因此，如果目標是停止輸出有害內容，相較於RLHF，遺忘學習的效率更高

#結論

這項研究首次探討了LLM上的遺忘學習。研究結果顯示，遺忘學習是一種有希望的對齊方法，尤其是在從業者資源不足的情況下。論文展示了三種情況：遺忘學習可以成功刪除有害回應、刪除侵權內容和消除錯覺。研究表明，即使只有負樣本，遺忘學習仍然可以在僅使用RLHF計算時間的2%情況下，獲得與RLHF相似的對齊效果

以上是RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

外推指南Apr 15, 2025 am 11:38 AM

介紹假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率，並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI（被定義為AI系統，旨在使用近似推理，模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變，AI需要專門為AI獨特需求而設計的新型安全解決方案。雲計算和安全課程的興起在

生成AI的3種方法放大了企業家：當心平均值！Apr 15, 2025 am 11:33 AM

企業家，並使用AI和Generative AI來改善其業務。同時，重要的是要記住生成的AI，就像所有技術一樣，都是一個放大器 - 使得偉大和平庸，更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量：深入研究安德魯·NG的新課程想像一個未來，機器可以完全準確地理解和回答您的問題。這不是科幻小說；多虧了AI的進步，它已成為R

大語言模型（LLM）中的幻覺是不可避免的嗎？Apr 15, 2025 am 11:31 AM

大型語言模型（LLM）和不可避免的幻覺問題您可能使用了諸如Chatgpt，Claude和Gemini之類的AI模型。這些都是大型語言模型（LLM）的示例，在大規模文本數據集上訓練的功能強大的AI系統

60％的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明，根據行業和搜索類型，AI概述可能導致有機交通下降15-64％。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R＆D的核心Apr 15, 2025 am 11:26 AM

埃隆大學（Elon University）想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”，得出的結論是，大多數人擔心AI系統加深的採用

See all articles

熱AI工具

熱工具

RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術

使用場景

#方法

應用場景：忘卻有害內容等

#結論

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

SublimeText3 Linux新版

SAP NetWeaver Server Adapter for Eclipse

VSCode Windows 64位元下載

Dreamweaver Mac版

Atom編輯器mac版下載

熱門話題

RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術

使用場景

#方法

應用場景：忘卻有害內容等

#結論

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

SublimeText3 Linux新版

SAP NetWeaver Server Adapter for Eclipse

VSCode Windows 64位元 下載

Dreamweaver Mac版

Atom編輯器mac版下載

熱門話題

VSCode Windows 64位元下載