LLMSの仕組み：補強学習、RLHF、Deepseek R1、Openai O1、Alphago-AI-php.cn

ホームページ

テクノロジー周辺機器

LLMSの仕組み：補強学習、RLHF、Deepseek R1、Openai O1、Alphago

DDD

Feb 28, 2025 am 10:37 AM

私のLLMディープダイブのパート2へようこそ。パート1を読んでいない場合は、最初にチェックアウトすることを強くお勧めします。

以前は、LLMをトレーニングする最初の2つの主要な段階を取り上げました。

事前トレーニング - 基本モデルを形成するために大規模なデータセットから学習。

監視付き微調整（SFT） - 有用にするためにキュレーションされた例でモデルを改良します。
さて、次の主要な段階に飛び込んでいます：

。トレーニング前とSFTは確立されていますが、RLはまだ進化していますが、トレーニングパイプラインの重要な部分になりました。

Andrej Karpathyの広く人気のある3.5時間のYouTubeから参照しました。 AndrejはOpenaiの創設メンバーであり、彼の洞察は金です。 行こう？

補強学習（RL）の目的は何ですか？

人間とLLMSは情報を異なって処理します。基本的な算術のように、私たちにとって直感的なことは、テキストをトークンのシーケンスと見なすLLMのためではないかもしれません。逆に、LLMは、トレーニング中に十分な例を見たという理由だけで、複雑なトピックに関する専門家レベルの応答を生成できます。

この認知の違いにより、人間のアノテーターが、LLMを正しい答えに一貫して導く「完璧な」ラベルセットを提供することが困難になります。

rlは、モデルが自分の経験から学習できるようにすることでこのギャップを橋渡しします

。

明示的なラベルのみに依存する代わりに、モデルはさまざまなトークンシーケンスを調査し、出力が最も便利なフィードバック（報酬信号）を受信します。時間が経つにつれて、それは人間の意図とよりよく調整することを学びます。

の背後にある直感 llmsは確率的です。つまり、応答は固定されていません。同じプロンプトがあっても、出力は確率分布からサンプリングされるために異なります。 並行して数千または数百万の可能な応答を生成することにより、このランダム性を活用できます。モデルが異なるパスを探索しているモデルと考えてください。私たちの目標は、より良い道をより頻繁に進むように奨励することです。これを行うには、より良い結果につながるトークンのシーケンスでモデルをトレーニングします。人間の専門家がラベル付きのデータを提供する監視された微調整とは異なり、補強学習により、モデルはそれ自体から学ぶことができます。

モデルはどの応答が最適かを発見し、各トレーニングステップの後、そのパラメーターを更新します。時間が経つにつれて、これにより、将来同様のプロンプトが与えられた場合、モデルは高品質の回答を生成する可能性が高くなります。

しかし、どの応答が最適かをどのように判断しますか？そして、どのくらいのRLをすべきですか？詳細は注意が必要であり、それらを正しくすることは些細なことではありません。

rlは「新しい」ではありません。人間の専門知識を上回ることができます（Alphago、2016）

RLのパワーの素晴らしい例は、プロのGOプレーヤーを倒し、後に人間レベルのプレイを上回る最初のAIであるDeepMindのAlphagoです。 2016年のネイチャーペーパー（下のグラフ）では、モデルが純粋にSFTによってトレーニングされたとき（モデルの良い例を模倣するための良い例を与えます）、モデルは人間レベルのパフォーマンスに到達することができましたが、

。

点線はリー・セドルのパフォーマンスを表しています - 世界で最高のゴープレーヤー。

これは、SFTがイノベーションではなく複製に関するものであるためです。モデルが人間の知識を超えて新しい戦略を発見することはできません。

しかし、RLは、Alphagoがそれ自体に対抗し、その戦略を改良し、最終的に

を超えることを可能にしました

（青い線）。 rlは、AIのエキサイティングなフロンティアを表しています。モデルは、多様で挑戦的な問題のプールで訓練するときに人間の想像力を超えた戦略を探求することができます。 RLファンデーション要約

典型的なRLセットアップの主要なコンポーネントをすばやく再び要約しましょう：

LLMSの仕組み：補強学習、RLHF、Deepseek R1、Openai O1、Alphago

エージェント

学習者または意思決定者。それは現在の状況（

）を観察し、アクションを選択してから、結果に基づいてその動作を更新します（報酬）。 環境 - エージェントが動作する外部システム。 state
t。 各タイムスタンプで、エージェントは環境を新しい状態に変える環境で、アクション
を実行します。エージェントはまた、アクションがどれほど良いか悪いかを示すフィードバックを受け取ります。このフィードバックは、報酬さまざまな状態とアクションからのフィードバックを使用することにより、エージェントは徐々に最適な戦略を学び、ポリシー

ポリシーはエージェントの戦略です。エージェントが適切なポリシーに従っている場合、それは一貫して良い決定を下し、多くのステップよりも高い報酬につながります。

数学的用語では、特定の状態の異なる出力の確率を決定する関数です - （πθ（a | s））

値関数

長期的な予想される報酬を考慮して、特定の状態にいることがどれほど良いかの推定。 LLMの場合、報酬は人間のフィードバックまたは報酬モデルから得られる可能性があります。

俳優 - 批評家アーキテクチャ

2つのコンポーネントを組み合わせた人気のあるRLセットアップです。

- 各状態でどのアクションを取るかを決定し、ポリシー（πθ）を学び、更新します。批評家
値関数（v（s））を評価して、選択したアクションが良い結果につながっているかどうかについて俳優にフィードバックを与える。 それがどのように機能するか：

俳優

は、現在のポリシーに基づいてアクションを選択します。

批評家は結果を評価し（次の状態に報いる）、その値の見積もりを更新します。 批評家のフィードバックは、俳優がポリシーを改良するのに役立ち、将来の行動がより高い報酬につながるようにします。
llmsのためにすべてをまとめます状態は現在のテキスト（プロンプトまたは会話）になる可能性があり、アクションは次のトークンになる可能性があります。報酬モデル（たとえば、人間のフィードバック）は、モデルに生成されたテキストがどれほど良いか悪いかを伝えます。
deepseek-r1（2025年1月22日公開）

deepseek-r1-zeroとdeepseek-r1

deepseek-r1-zeroは、大規模なRLを介してのみ訓練され、監視された微調整（SFT）をスキップしました。

deepseek-r1がそれに基づいて構築され、遭遇した課題に対処しました。

これらの重要なポイントのいくつかに飛び込みましょう。

1。 RLアルゴ：グループ相対ポリシーの最適化（GRPO） RLアルゴリズムを変更する重要なゲームの1つは、広く人気の近位ポリシー最適化（PPO）のバリアントであるグループ相対ポリシー最適化（GRPO）です。 GRPOは2024年2月にDeepseekmath Paperで紹介されました。

なぜPPO？

批評家モデルへの依存。 RLパイプラインが応答を評価および最適化するために相当なリソースを要求するため、
高い計算コスト。絶対的な報酬の評価
絶対的な報酬に依存している場合 - 答えが「良い」か「悪い」かどうかを判断するための単一の標準またはメトリックがある場合、異なる推論ドメインにわたってオープンエンドの多様なタスクのニュアンスをキャプチャするのは難しい場合があります。
GRPOがこれらの課題にどのように対処したか：

grpoは、相対評価を使用して批評家モデルを排除します - 回答は、固定標準で判断されるのではなく、グループ内で比較されます。 生徒が問題を解決していると想像してください。教師が個別に格付けする代わりに、彼らは答えを比較し、お互いから学びます。時間が経つにつれて、パフォーマンスはより高い品質に向かって収束します

grpoはトレーニングプロセス全体にどのように適合しますか？

GRPOは、他のトレーニングステップを変更せずに損失を計算する方法を変更します：

データの収集（クエリの応答）

報酬を割り当てる - グループ内の各応答が採点されます（「報酬」）。

grpo損失を計算します

伝統的に、モデルの予測と真のラベルの偏差を示す損失を計算します。さらに悪いですか？c）クリッピングを適用して、極端な更新を防止します。
バック伝播勾配勾配降下
- バック伝播は、各パラメーターが損失に貢献した方法を計算します。
。 2。チェーンの思考（COT）
従来のLLMトレーニングは、トレーニング前→SFT→RLに続きます。ただし、deepseek-r1-zerosft
をスキップして、モデルがCOTの推論を直接探索できるようにします。
人間が厳しい質問をしているように、COTを使用すると、モデルは問題を中間ステップに分割し、複雑な推論能力を高めます。 OpenaiのO1モデルは、2024年9月のレポートで述べたように、これを活用しています：O1のパフォーマンスは、より多くのRL（トレインタイム計算）とより多くの推論時間（テスト時間計算）で改善されます。 deepseek-r1-zeroは反射的傾向を示し、その推論を自律的に改善しました

論文のキーグラフ（下）は、トレーニング中の思考の増加を示し、より長い（より多くのトークン）、より詳細かつより良い応答につながりました。
明示的なプログラミングがなければ、過去の推論ステップを再検討し始め、精度を向上させました。これは、RLトレーニングの新たな財産としての考え方の推論を強調しています。 モデルには「ahaの瞬間」（以下）もありました。これは、RLが予期しない洗練された結果につながる方法の魅力的な例です。 注：deepseek-r1とは異なり、Openaiは蒸留リスクを懸念しているため、O1で完全に正確な推論チェーンを示していません。代わりに、O1はこれらの思考チェーンの要約だけです。
人間のフィードバック（RLHF）を使用した補強学習検証可能な出力（数学の問題、事実Q＆Aなど）のタスクの場合、AI応答は簡単に評価できます。しかし、「正しい」答えが1つもないような概要や創造的な執筆のような領域はどうですか？

これは人間のフィードバックが出る場所ですが、ナイーブなRLアプローチは不ライアになりません。

いくつかの任意の数字で素朴なアプローチを見てみましょう。

それには10億の人間の評価が必要です！これは、コストがかかりすぎて、ゆっくりと、無視できません。したがって、より賢い解決策は、人間の好みを学ぶためにAIの「報酬モデル」を訓練し、劇的に人間の努力を減らすことです。

ランキング応答も、絶対的なスコアリングよりも簡単で直感的です。
rlhf
の上端
- クリエイティブライティング、詩、要約、その他のオープンエンドタスクなど、任意のドメインに適用できます。
- RLHF
報酬モデルは近似です - 人間の好みを完全に反映していない場合があります。
- rlhfは従来のrlと同じではないことに注意してください。
経験的で検証可能なドメイン（例：数学、コーディング）の場合、RLは無期限に実行し、新しい戦略を発見できます。一方、RLHFは、モデルを人間の好みに合わせるための微調整ステップのようなものです。
結論 そしてそれはラップです！パート2を楽しんだことを願っていますか？パート1をまだ読んでいない場合は、こちらをチェックしてください。 次にカバーすべきことについて質問やアイデアがありますか？コメントにそれらを落としてください - 私はあなたの考えを聞きたいです。次の記事でお会いしましょう！

以上がLLMSの仕組み：補強学習、RLHF、Deepseek R1、Openai O1、Alphagoの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

カーソルAIでバイブコーディングを試してみましたが、驚くべきことです！Mar 20, 2025 pm 03:34 PM

バイブコーディングは、無限のコード行の代わりに自然言語を使用してアプリケーションを作成できるようにすることにより、ソフトウェア開発の世界を再構築しています。 Andrej Karpathyのような先見の明に触発されて、この革新的なアプローチは開発を許可します

2025年2月のトップ5 Genai発売：GPT-4.5、Grok-3など！Mar 22, 2025 am 10:58 AM

2025年2月は、生成AIにとってさらにゲームを変える月であり、最も期待されるモデルのアップグレードと画期的な新機能のいくつかをもたらしました。 Xai’s Grok 3とAnthropic's Claude 3.7 SonnetからOpenaiのGまで

オブジェクト検出にYolo V12を使用する方法は？Mar 22, 2025 am 11:07 AM

Yolo（あなたは一度だけ見ています）は、前のバージョンで各反復が改善され、主要なリアルタイムオブジェクト検出フレームワークでした。最新バージョンYolo V12は、精度を大幅に向上させる進歩を紹介します

SORA vs VEO 2：よりリアルなビデオを作成するのはどれですか？Mar 10, 2025 pm 12:22 PM

GoogleのVEO 2とOpenaiのSORA：どのAIビデオジェネレーターが最高でしたか？どちらのプラットフォームも印象的なAIビデオを生成しますが、その強みはさまざまな領域にあります。この比較は、さまざまなプロンプトを使用して、どのツールがニーズに最適かを明らかにします。 t

Google＆＃039; s Gencast：Gencast Mini Demoを使用した天気予報Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast：天気予報のための革新的なAI 天気予報は、初歩的な観察から洗練されたAI駆動の予測に移行する劇的な変化を受けました。 Google DeepmindのGencast、グラウンドブレイク

ChatGpt 4 oは利用できますか？Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

chatgptよりも優れたAIはどれですか？Mar 18, 2025 pm 06:05 PM

この記事では、Lamda、Llama、GrokのようなChatGptを超えるAIモデルについて説明し、正確性、理解、業界への影響における利点を強調しています（159文字）

O1対GPT-4O：OpenAIの新しいモデルはGPT-4Oよりも優れていますか？Mar 16, 2025 am 11:47 AM

OpenaiのO1：12日間の贈り物は、これまでで最も強力なモデルから始まります 12月の到着は、世界の一部の地域で雪片が世界的に減速し、雪片がもたらされますが、Openaiは始まったばかりです。サム・アルトマンと彼のチームは12日間のギフトを立ち上げています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、