Karpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対している-AI-php.cn

ホームページ

テクノロジー周辺機器

Karpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対している

王林

Aug 09, 2024 pm 04:40 PM

rlhf理論karpathy

RLHF と RL を同じカテゴリーに分類できるかどうかについては、依然として意見が分かれているようです。 AI の第一人者である Karpathy が、人工知能の概念を広めるために再びここに来ました。昨日、彼は「ヒューマンフィードバックに基づく強化学習(RLHF)は単なる強化学習(RL)です

Karpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対している

Karpathyの全文は次のように説明されています:
RLHFは大規模言語モデル(LLM)を訓練するための3番目の方法です。」 3 つの主要なステージ (そして最後のステージ) で、最初の 2 つのステージは事前トレーニングと教師あり微調整 (SFT) です。 RLHF はかろうじて RL であり、広く認識されていないと思います。 RL は強力ですが、RLHF は強力ではありません。
実際の RL を使用してトレーニングされた AlphaGo の例を見てみましょう。コンピューターは囲碁をプレイし、報酬関数 (ゲームに勝つ) を最大化するラウンドでトレーニングされ、最終的には人間の最高のプレーヤーを上回りました。 AlphaGo は RLHF を使用して訓練されておらず、もし訓練されていたとしても、それほど効果的ではなかったでしょう。
RLHF で AlphaGo をトレーニングするとどうなるでしょうか?まず、ヒューマンアノテーターに 2 つの碁盤の状態を与え、どちらが好みかを尋ねます。

Karpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対している

その後、100,000 件の同様の比較を収集し、「報酬モデル」(RM) ニューラルネットワークをトレーニングして、ボードの状態の人間の雰囲気チェックをシミュレートします。人間の平均的な判断と一致するように訓練します。ボーナスモデルの雰囲気チェックを取得したら、これに対して RL を実行し、良い雰囲気をもたらす動きを行う方法を学ぶことができます。明らかに、これは Go ではあまり興味深い結果を生成しません。
これは主に 2 つの基本的で独立した理由によるものです:
1) 雰囲気は誤解を招く可能性があり、それは実際の報酬 (ゲームの勝利) ではありません。これはエージェントの目標としては不十分です。さらに悪いことに、2) ボードの状態が報酬モデルと逆であることがすぐに判明するため、RL の最適化が軌道から外れることがわかります。報酬モデルは、大気をシミュレートするために数十億のパラメーターを使用する大規模なニューラルネットワークであることを思い出してください。一部のボード状態は、独自のトレーニングデータの分布範囲外にあり、実際には良好な状態ではありませんが、報酬モデルから非常に高い報酬を受け取ります。
同じ理由で、RLHF の作業が LLM で機能することに時々驚かれます。 LLM 用にトレーニングした報酬モデルは、まったく同じ方法で雰囲気チェックを行うだけで、人間の評価者が統計的に好むと思われるアシスタントの応答に高いスコアを与えます。これは問題を正しく解決するという実際の目標ではなく、人間がエージェントとして良いと考える目標です。
第二に、モデルはゲームがモデルに報酬を与える方法で応答することをすぐに学習するため、RLHF を長時間実行することさえできません。これらの予測は非常に奇妙に見え、LLM アシスタントが多くのプロンプトに対して次のような無意味な応答を開始することがわかります。は、ザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザズザこれはあなたにはばかげているように思えますが、ボーナスモデルの雰囲気チェックを見て、何らかの理由でボーナスモデルがこれらが素晴らしく見えると考えていることに気づきます。
LLM は、報酬モデルのトレーニングデータの範囲外で、未定義の範囲内にある敵対的な例を見つけました。これらの特定の例をトレーニングセットに繰り返し追加することでこれを軽減できますが、次回も他の敵対的な例を見つけることができます。多くの最適化ステップで RLHF を実行することさえできません。最適化によって報酬モデルの計算が開始されるため、数百または数千のステップの後にこれを呼び出す必要があります。これはAlphaGoのようなRLではありません。
ただし、RLHF は、LLM アシスタントを構築する上で非常に役立つステップです。これにはいくつかの微妙な理由があると思いますが、私のお気に入りの理由は、RLHF では、LLM アシスタントがジェネレータとディスクリミネータのギャップから恩恵を受けるということです。つまり、多くの質問タイプでは、ヒューマン・アノテーターにとって、理想的な回答を最初から作成するよりも、いくつかの回答候補から最適な回答を選択する方がはるかに簡単です。良い例は、「ペーパークリップの詩を生成する」のようなプロンプトです。平均的な人間のアノテーターは、教師付き微調整例として使用するための優れた詩を一から書くのは困難ですが、いくつかの候補の回答 (詩) があれば、より良い詩を選択することはできます。したがって、RLHF は、人間による監視の「容易さ」のギャップから利益を得る方法です。
RLHF が幻覚の軽減に役立つ理由は他にもあります。報酬モデルがトレーニング中に LLM が何をでっち上げているかを特定するのに十分強力なモデルである場合、LLM は低い報酬でこの行動を罰することを学習し、不確実な場合に事実の知識を取得するためにリスクを避けるようにモデルに教えることができます。しかし、幻覚の満足な軽減と管理は別の問題であり、ここでは詳しく説明しません。結論として、RLHF は機能しますが、RL ではありません。
これまでのところ、LLM 向けの実稼働グレードの RL は、オープンドメインで説得力を持って実装され、大規模に実証されていません。直感的には、これは、オープンエンドの問題解決タスクでは実際の報酬を得る (つまり、ゲームに勝つ) ことが非常に難しいためです。囲碁のような閉じられたゲームのような環境では、すべてが楽しいです。ダイナミクスは限られており、報酬関数の評価コストは非常に低く、ゲームは不可能です。
しかし、記事を要約することで客観的な報酬を提供するにはどうすればよいでしょうか?それとも、特定の pip インストールに関する曖昧な質問に答えますか?それとも冗談を言いますか？それとも Java コードを Python に書き換えますか?これを達成することは原理的に不可能ではありませんが、簡単ではなく、創造的な思考が必要です。この問題を説得力をもって解決した人は、本物の RL を実行できるようになり、AlphaGo が囲碁で人間に勝つことができるようになります。 RL を使用すると、LLM はオープンドメインの問題を解決する際に人間を真に上回る可能性を秘めています。
Karpathy 氏の指摘は、RLHF と RL のさらなる違いを指摘する一部の人からも同様でした。たとえば、RLHF は適切な検索を実行せず、主に事前トレーニングされた軌道のサブセットを利用することを学習します。対照的に、適切な RL を実行すると、損失関数にエントロピー項が追加されるため、離散アクションの分布にノイズが多くなることがよくあります。 Kaypathy 氏は、原理的には RLHF の目標にエントロピー報酬を簡単に追加できると主張し、これは RL でもよく行われます。しかし実際には珍しいことのようです。

Karpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対している

Googleの研究科学者ケビン・パトリック・マーフィーもカルパシーに完全に同意します。

彼は、RLHF は文字列値操作を伴うコンテキストの「バンディット」に似ており、プロンプトがコンテキストであるため、完全な RL とは言えないと信じています。
毎日のタスクに対する報酬を形式化することも難しい部分です (彼はそれを調整と呼ぶかもしれないと考えています)。
しかし、Googleのもう一人の上級研究科学者であるナターシャ・ジャックスは、カルパシーは間違っていると考えています。彼女は、エージェントが人々と対話するとき、人間が好む答えを与えることが本当の目標であると信じています。

配信範囲外は RLHF に固有の問題ではありません。人間のフィードバックが無限の囲碁シミュレーションを実行するよりも制限されているからといって、それが解決する価値のある問題ではないという意味ではなく、問題がより困難になるだけです。彼女は、これがより影響力のある問題になることを望んでいます。結局のところ、LLMにおける偏見を減らすことは、囲碁で人間に勝つよりも理にかなっているからです。カルパシーのような軽蔑的な用語を使用して、ボーナスモデルがバイブチェックであると言うのは愚かです。値の推定に対しても同じ議論を使用できます。

彼女は、カルパシーの見解は、LLMの偏見と幻想が引き起こす可能性のある深刻な害を軽減するための現時点で唯一の実行可能な方法であるにもかかわらず、人々がRLHFの活動を追求するのを思いとどまらせるだけであると感じています。 ️出典: https://x.com/natashajaques/status/1821631137 590259979

Karpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対しているメタ研究者 Pierluca D'Oro は、Karpathy の主旨には同意しませんが、「RLHF はかろうじて RL である」という点では同意しますこのタイトル。彼は、LLM を微調整するために一般的に使用される RLHF は RL ではないと主張しました。

主なポイントは次のとおりです:

強化学習では、ほとんどの複雑なタスクでは、目標の重要性に加えて、実行方法も同様に重要であるため、「完全な報酬」の概念を追求することは非現実的です。

彼は、不完全な報酬モデルの下で RL のパフォーマンスを向上させる方法を研究することを提唱し、フィードバックループ、堅牢な RL メカニズム、人間と機械のコラボレーションの重要性を強調しています。
画像出典: https://x.com/proced uralia/status/1821560990091128943 あなたは誰の意見に同意しますか?コメント欄にメッセージを残していただければ幸いです。

以上がKarpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対しているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。