検索
ホームページテクノロジー周辺機器AIRLHF の計算能力の 2% を使用して LLM の有害な出力を排除し、Byte が忘れっぽい学習テクノロジーをリリース

大規模言語モデル (LLM) の開発に伴い、実務者はさらなる課題に直面しています。 LLM からの有害な返信を回避するにはどうすればよいですか?トレーニング データ内の著作権で保護されたコンテンツをすばやく削除するにはどうすればよいですか? LLM の幻覚 (虚偽の事実) を減らすにはどうすればよいですか? データ ポリシーの変更後に LLM を迅速に繰り返すにはどうすればよいですか?これらの問題は、人工知能に対する法的および倫理的コンプライアンス要件がますます成熟するという一般的な傾向の下で、LLM を安全かつ信頼できる展開するために重要です。

業界における現在の主流のソリューションは、強化学習を使用して LLM (アライメント) を調整し、比較データ (ポジティブ サンプルとネガティブ サンプル) を微調整して、次の出力が確実に得られるようにすることです。 LLM は人間の期待や価値観と一致しています。ただし、このアライメント プロセスは、データ収集とコンピューティング リソースによって制限されることがよくあります。

ByteDance は、LLM がアライメントのための忘却学習を実行する方法を提案しました。この記事では、LLM で「忘却」操作、つまり有害な動作や機械の学習を忘れる (Machine Unlearning) を実行する方法を研究します。著者は、3 つの LLM 調整シナリオで学習を忘れることの明白な効果を示しています: (1) 有害な出力の削除、(2) 侵害保護コンテンツの削除、(3) 大きな言語 LLM 幻想の排除

学習を忘れることには 3 つの利点があります: (1) 必要なのは陰性サンプル (有害なサンプル) だけであり、陰性サンプルは RLHF (レッドチームテストなど) で必要とされる陽性サンプル (高品質の手書き出力) よりも収集がはるかに簡単です。 (2) 計算コストが低い、(3) どのトレーニング サンプルが LLM の有害な動作につながるかがわかっている場合、忘却学習は特に効果的です。

著者の主張は、リソースが限られている実践者は、過度に理想化されたアウトプットを追求したり、学習が便利な方法であることを忘れたりするよりも、有害なアウトプットの生成を止めることを優先すべきだということです。負のサンプルしかないにもかかわらず、忘却学習は、計算時間のわずか 2% を使用して、強化学習や高温高周波アルゴリズムよりも優れた位置合わせパフォーマンスを達成できることが研究で示されています。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术#ペーパーアドレス: https://arxiv.org/abs/2310.10683

  • コードアドレス: https: //github.com/kevinyaobytedance/llm_unlearn
  • 使用シナリオ

限られたリソースで、このアプローチを取ることができますあなたの利点を最大化するために。高品質のサンプルを作成する人を雇う予算がない場合、またはコンピューティング リソースが不十分な場合は、LLM が有益な出力を生成することよりも、LLM が有害な出力を生成しないようにすることを優先する必要があります

#有害な出力によって引き起こされる損害は、有益な出力によって補うことはできません。ユーザーが LLM に 100 の質問をし、得られた答えが有害なものであれば、たとえ LLM が後でどれだけ有益な答えを提供したとしても、そのユーザーは信頼を失うことになります。有害な問題の予期される出力は、スペース、特殊文字、意味のない文字列などです。つまり、無害なテキストである必要があります。

は、LLM の忘却学習の 3 つの成功例を示しています。(1)有害な返信の生成を停止します (内容を中国語に書き直してください。元の文は表示する必要はありません)。これは RLHF シナリオに似ていますが、異なる点は、この方法の目的は有益な返信ではなく、無害な返信を生成することであるという点です。これは、負のサンプルしかない場合に期待できる最高の結果です。 (2) 侵害データでトレーニングした後、LLM はデータの削除に成功しましたが、コスト要因により LLM を再トレーニングできませんでした; (3) LLM は「幻想」を正常に忘れました

#コンテンツを中国語に書き直してください。元の文は表示する必要はありません。

##方法RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

微調整中ステップ t、LLM の更新は次のとおりです。

最初の損失は勾配降下法 (勾配降下法) であり、目的は有害なサンプルを忘れることです。 :

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术 は有害なプロンプト (プロンプト)、RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术 は対応する有害な応答です。全体的な損失により、逆に有害なサンプルの損失が増加し、LLM が有害なサンプルを「忘れる」ようになります。

2 番目の損失はランダムな不一致によるもので、LLM は有害な手がかりの存在下で無関係な応答を予測する必要があります。これは、分類におけるラベル スムージング [2] に似ています。目的は、LLM が有害なプロンプトでの有害な出力をより適切に忘れるようにすることです。同時に、この方法が通常の状況下で LLM の出力パフォーマンスを向上させることができることが実験によって証明されました。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

3 番目の損失は、パフォーマンスを維持することです。通常のタスク:

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

RLHF と同様に、事前トレーニングされた LLM で KL 発散を計算すると、LLM のパフォーマンスをより適切に維持できます。

さらに、すべての勾配の上昇と下降は、RLHF のような先端と出力のペア (x, y) ではなく、出力 (y) 部分でのみ実行されます。

アプリケーション シナリオ: 有害なコンテンツの忘れなど。

この記事では、忘れられたデータとして PKU-SafeRLHF データを使用し、通常のデータとして TruthfulQA を使用します。図 2 の内容 書き換えの必要性は、学習を忘れた後の未学習の有害なキューに対する LLM 出力の有害な割合を示しています。この記事で使用される手法は GA (Gradient Ascent および GA Mismatch: Gradient Ascent Random Mismatch) です。学習を忘れた後の有害率はゼロに近いです。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

#2 番目の画像の内容を書き直す必要があります

3 番目の画像には有害なプロンプトが表示されます ( not Forgotten) 出力。これはこれまでに見られなかったものです。忘れられていない有害な手がかりであっても、LLM の有害率はゼロに近く、LLM が特定のサンプルだけを忘れるのではなく、有害な概念を含むコンテンツを一般化して忘れることを証明しています

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

#図 3

通常のサンプルに対する LLM のパフォーマンスは忘れられる前と同様であり、さらに次のような特徴もあります。

表 1 に、生成されたサンプルを示します。有害なプロンプトの下では、LLM によって生成されたサンプルは意味のない文字列、つまり無害な出力であることがわかります。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术#表 1

侵害コンテンツを忘れたり、幻覚を忘れたりするような他のシナリオでは、この方法はオリジナルのアプリケーションテキストは詳細に説明されています

RLHF の比較

必要なものrewrite Yes: 2 番目の表は、この方法と RLHF の比較を示しています。RLHF は正の例を使用するのに対し、忘却学習法は負の例のみを使用するため、最初はこの方法が不利になります。しかし、それでも、学習を忘れても、RLHF と同様のアライメント パフォーマンスを達成できます。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术書き直す必要がある内容は次のとおりです。2 番目のテーブル

書き直す必要がある点: 4 番目の図は計算時間の比較を示していますが、この方法では RLHF の計算時間の 2% しか必要としません。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术 書き換えが必要な内容: 4枚目の画像

負のサンプルのみを使用する場合でも、忘却学習を使用する方法は、RLHF に匹敵する無害なレートを達成でき、使用する計算能力はわずか 2% です。したがって、有害なコンテンツの出力を停止することが目標の場合、学習を忘れることは RLHF よりも効率的です。

結論

この研究は、次の最初の研究です。 LLM での忘却学習を探索するようなものです。この調査結果は、特に実践者のリソースが不足している場合、忘れることを学ぶことが調整への有望なアプローチであることを示しています。この論文では、学習を忘れることで有害な返信が削除され、侵害コンテンツが削除され、錯覚が解消されるという 3 つの状況が示されています。研究によると、負のサンプルのみを使用した場合でも、学習を忘れた場合でも、RLHF

の計算時間のわずか 2% を使用して、RLHF と同様の位置合わせ効果を達成できることが示されています。

以上がRLHF の計算能力の 2% を使用して LLM の有害な出力を排除し、Byte が忘れっぽい学習テクノロジーをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
LLMSでのツール呼び出しLLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力:勝者、敗者、および機会AIに関する国連入力:勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶ生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますテッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか?グラフデータベースとは何ですか?Apr 14, 2025 am 11:19 AM

グラフデータベース:関係を通じてデータ管理に革命をもたらす データが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング:戦略、テクニック、およびPythonの実装LLMルーティング:戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル(LLM)ルーティング:インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。 創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール