ホームページ >テクノロジー周辺機器 >AI >大規模モデル + モンテカルロ木探索、1 つの動きで LLaMa-3 8B オリンピック レベルが GPT-4 に近づく

大規模モデル + モンテカルロ木探索、1 つの動きで LLaMa-3 8B オリンピック レベルが GPT-4 に近づく

PHPz
PHPzオリジナル
2024-06-18 16:46:121082ブラウズ

アルゴリズムレベルでの革新により、大規模な言語モデルが数学的問題を解決する能力は将来的にも向上し続けるでしょう。

ここ数日、17歳の工業高校の生徒、ジャン・ピンさんが2024年のアリババ世界数学コンテスト予選で世界12位にランクインしたというニュースがスクリーンを賑わせた。同時に、AIチャレンジの結果によると、AI参加全563チーム中、最高スコアは34点、平均スコアは18点で、人間のプレイヤーの平均レベルに追いついたことがわかりました。

数学コンテストに参加するAIの主な欠点は、論理的推論能力が弱く、証明問題で満点を獲得することが難しいことです。これは、戦略と論理的推論を必要とするタスクにおいて、GPT-4 や LLaMA などの現在の大規模言語モデル (LLM) が直面する大きな課題でもあります。

重要な障害の 1 つは、出力の精度と信頼性です。特に精度を保証する必要がある数学的コンテキストでは、LLM は推論時に幻覚を引き起こすことがよくあります。出力は表面的には合理的であるように見えますが、実際には無関係であるか事実が不正確であり、最終的には不合理な推論プロセスにつながります。

当然のことながら、自己洗練などの書き換え手法はこのバイアスに対処するのに役立ちますが、現実世界の複雑な数学的問題については、誤解を招く、または誤った結果を招く可能性があります。

そこで、これらの課題に対処するために、復旦大学と上海AI研究所の研究者らは、LLMとモンテカルロ木探索(MCTS)アルゴリズムを組み合わせ、複雑な領域でのLLMのパフォーマンスの向上に焦点を当てたMCT Self-Refine(MCTSr)を提案しました。数学的推論タスク (数学オリンピックの問題など) のパフォーマンス。

MCTS は、戦略的計画を必要とする人工知能のシナリオ (通常はゲームや複雑な問題解決環境) で広く使用されている意思決定ツールです。 MCTS のシステム探索機能と LLM の自己調整および自己評価機能を組み合わせることで、このホワイト ペーパーは、現在の LLM では解決するのが難しい複雑な推論タスクに対処するための、より強力なフレームワークを作成することを目的としています。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

  • 論文アドレス: https://arxiv.org/pdf/2406.07394

  • プロジェクトアドレス: https://github.com/trotsky1997/MathBlackBox

ただし、MCTSとLLMを組み合わせる場合統合プロセス中にはいくつかの技術的な課題があります。従来の MCTS 戦略は、通常、潜在的なアクションの無限の連続空間を必要とする LLM 出力の確率的および生成的な性質とうまく噛み合わない可能性があります。この不一致には、LLM の固有の特性に適切に対応するために、MCTS フレームワーク内でカスタマイズされた期待値計算と逆伝播方法が必要です。

さらに、研究者らは、高リスクタスクにおける効果的な意思決定に必要な探索と活用のバランスを最適化するために、改善された信頼上限 (UCB) 式を組み込んだ動的な枝刈り戦略を導入しました。

この研究は、複雑な推論の課題における LLM の応用を前進させ、AI 関連の技術革新の将来の統合の基礎を築くものであり、それによって LLM 主導のアプリケーションがより強力な意思決定、推論の精度、信頼性を実現できるようになると言えます。セックス。

メソッドの概要

MCTSr のアーキテクチャ図を図 1 に示します。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4MCTSr ワークフローには以下が含まれます。

  • 初期化: モデル生成の応答とダミー応答を使用してルート ノードを確立し、モデルのオーバーシュートを最小限に抑えます。

  • 選択: このアルゴリズムは、値関数 Q を使用して不完全に展開されたすべての回答を並べ替え、貪欲な戦略を使用して、さらなる探索と最適化のために最高の値を持つノードを選択します。

  • 自己絞り込み: 適切な回答を選択します。最適化には Self-Refine フレームワークを使用します。最初に、モデルは、強化された回答 a ' を生成するように最適化プロセスをガイドするフィードバック m を生成します。これには、厳格なスコア基準やスコアの信頼性と公平性を確保するためのフルスコアの抑制など、モデルの自己報酬フィードバックと制約が含まれます。ツリーの値情報を更新します。子ノードの Q 値が変更された場合、親ノードの Q 値を更新します。

  • UCT 更新: すべてのノードの Q 値の更新が完了した後、さらなる拡張または選択のための候補ノード セット C を決定します。次に、UCT 更新式を使用して、次の選択段階に備えてすべてのノードの UCT 値を更新します。

  • 終了条件 T が満たされるまで上記の段階を繰り返します。

  • 自己洗練
  • 自己洗練ステージでは、モデルは複数回の対話洗練プロンプトを通じて質問 P に対する答え a を最適化します。まず、モデルは回答 a についての反省的または批判的なコメント m を生成します。続いて、m の指導の下で、モデルは応答 a を変更して、改良されたバージョン a' を生成します。この反復改良により、モデル応答の品質が向上します。

自己評価

数学的問題 P の答えを洗練するプロセスでは、答え a の Q 値は、a をより良い答えにさらに洗練するために期待される品質として定義されます。この定義は、 a からその書き換えられた形式への遷移のマルコフ特性に基づいています。つまり、次の状態 (つまり、書き換えられた答え) は現在の状態 (つまり、現在の答え a) にのみ依存し、以前の状態。

さらに、研究者らは、プロンプト制約、フルスコア抑制、反復サンプリングという 3 つの制約も設計しました。サンプリング後、a の Q 値を計算します。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

逆伝播

すべてのリーフノードの報酬値がサンプリングされ、Q 値が更新された後、これらの変更は親ノードと祖先ノードに伝播されます。この更新プロセス中に、ノード a の集合 Children (a) 内のいずれかの要素の Q 関数値が変更されると、ノード a の Q 関数値も更新されます。このような伝播により、ノードの Q 値が、考えられるすべての子の最新のステータスと評価を確実に反映します。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

UCTと選択を更新します

ツリー内のすべてのノードのQ値を更新した後、次のラウンドの選択段階に入ります。このプロセスには次の手順が含まれます:

  • 候補ノードの選択: ノードを選択するとき、研究者はルート ノードから開始する必要はなく、ツリー内のノードを階層順にたどります。

  • UCT 更新: AlphaGo から引用したこの研究では、UCT および UCB-1 メソッドを使用してノードの探索と利用のバランスをとります。候補セット C のノード a の UCT_a 値は次のとおりです。終了機能

早期終了: 検索結果の改善が減少し始めた場合、または連続した検索で重複した結果が生成された場合に終了が発生します。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4検索制約: 拡張の数が事前に設定された制限に達するか、ツリー内の 1 つ以上のノードが最大深さの制約を満たすと、検索は終了します。

実験結果

数学的問題を解決する際の MCTSr アルゴリズムの有効性を評価するために、研究者らは LLaMA3-8B を基本モデルとして使用し、強化には MCTSr を使用しました。彼らは、Zero-Shot CoT、Self-Refine、4 ロールアウト MCTSr、および 8 ロールアウト MCTSr を含むいくつかのセットアップで、LLaMA3-8B を GPT-4、Claude 3、および Gemini 1.5-Pro と比較しました。

研究者らは、GSM8K および GSM ハード テスト セット (それぞれ典型的な数学的問題と難しい数学的問題を含む) で上記の方法を評価し、その結果を以下の表 1 に示します。

ロールアウトの数と MCTSr の成功率の間には直接の相関関係があり、特にそれほど複雑でない GSM8K では、反復回数が増加するにつれて相関関係が大幅に増加することがわかります。ただし、より複雑な GSM-Hard テスト セットの場合、ロールアウト数が多くてもパフォーマンスの限界に達するため、現在の戦略では複雑な問題を解決するのに限界があることがわかります。 これらの結果は、MCT-Self-refine アルゴリズムの堅牢性と潜在的な限界だけでなく、より複雑な課題に効果的に対処するための継続的な改善の必要性を浮き彫りにしています。

以下の表 2 は、MATH データセットにさまざまな複雑さレベルで MCT-Self-refine アルゴリズムを適用した結果を示しています。データセットは、レベル 1 (最も簡単) からレベル 5 (最も難しい) までの 5 つの難易度レベルに分かれています。

その結果、レベル 1 が最も高い成功率を示しました。8 回のロールアウト後、MCTSr は 90.16% の成功率を達成し、437 問中 394 問を解決しました。ロールアウトの数が増加するにつれて、このレベルでの成功率は大幅に増加します。

最も難しいレベル 5 の難易度では、8 回のロールアウト後の MCTSr の成功率は 34.06% で、1,324 問題中 451 問題を解決しました。これは、非常に複雑なシナリオでは難易度が上がるにつれて、このアルゴリズムのパフォーマンスが制限されることを示しています。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4すべてのレベルの全体的なパフォーマンスは、8 回のロールアウト後の MCTSr の累積成功率が 58.24% であり、5000 件の問題のうち 2912 件を解決していることを示しています。この成功率は、Zero-Shot CoT の初期成功率 24.36% を大きく上回るものです。これは、ロールアウト数の増加が成功率の増加と一致していることを示しており、さまざまなレベルの数学的複雑さにおける問題解決能力の向上における MCT-Self-refine アルゴリズムの有効性が強調されています。

これらの結果は、学術および問題解決のコンテキストにおける MCT-Self-refine アルゴリズムの可能性も検証し、MATH データセット内のさまざまな複雑さレベルの問題に対するその拡張性と適応性を強調しています。

以下の表 3 は、オリンピック数学コンテストの 3 つのデータセット (AlME、GAIC Math Odyssey、OlympiadBench) でテストされた MCT-Self-refne アルゴリズムを示しています。

AIME: Zero-Shot CoT の 2.36% (22 の問題が解決) から、MCTSr の 11.79% (110 の問題が解決) まで。

GAIC Math Odyssey: 成功率は 17.22% (67 問題解決) から 49.36% (192 問題解決) に増加しました。

OlympiadBench: Zero-Shot CoT の 1.25% (16 個の問題が解決) から MCTSr の 7.76% (99 個の問題が解決) に改善されました。

これらの結果は、目に見えない数学的問題に対する MCT-Self-refine アルゴリズムの適用可能性を確認し、オリンピックなどの競争の激しい学術環境における MCT の利点を示しています。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

を表 4 に示します。現在のクローズドソースの大規模モデルと比較すると、MCTSr は、小さなパラメータのオープンソース モデル (LLaMa-3 など) の数学的推論機能を同等のレベルまで効果的に向上させることができます。

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

技術的な詳細と実験結果については、元の論文を参照してください。

以上が大規模モデル + モンテカルロ木探索、1 つの動きで LLaMa-3 8B オリンピック レベルが GPT-4 に近づくの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。