ホームページ >テクノロジー周辺機器 >AI >より有用なモデルには、「段階的に考える」だけでは不十分ではなく、より深い「段階的に考える」ことが必要です。

より有用なモデルには、「段階的に考える」だけでは不十分ではなく、より深い「段階的に考える」ことが必要です。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載
2024-01-25 14:18:19805ブラウズ

最近、大規模言語モデル (LLM) とその高度なヒンティング戦略の出現により、言語モデルの研究、特に古典的な自然言語処理 (NLP) タスクにおいて大きな進歩が見られました。重要なイノベーションの 1 つは、思考連鎖 (CoT) プロンプト テクノロジであり、複数のステップからなる問題解決能力が高く評価されています。 CoT テクノロジーは人間の逐次推論に従い、クロスドメイン、長期一般化、およびクロス言語タスクなどのさまざまな課題で優れたパフォーマンスを示します。 CoT は、論理的で段階的な推論アプローチにより、複雑な問題解決シナリオにおいて重要な解釈可能性を提供します。

CoT は大きな進歩を遂げましたが、研究コミュニティはその具体的なメカニズムとそれが機能する理由についてまだ合意に達していません。この知識のギャップは、CoT パフォーマンスの向上がまだ未知の領域であることを意味します。現在、研究者には体系的な方法論が欠如しており、推測と実験に頼ることしかできないため、CoT の改善を探る主な方法は試行錯誤です。しかし、これは同時に、この分野に重要な研究の機会が存在すること、つまりCoTの内部動作について深く構造化された理解を発展させることを意味します。この目標を達成できれば、現在の CoT プロセスがわかりやすくなるだけでなく、さまざまな複雑な NLP タスクでこの手法をより信頼性が高く効率的に適用する道も開かれるでしょう。

ノースウェスタン大学、リバプール大学、ニュージャージー工科大学の研究者らによる研究では、推論ステップの長さと結論の正確さとの関係をさらに調査し、人々のより良い支援に貢献しています。自然言語処理 (NLP) の問題を効果的に解決する方法を理解します。この調査では、推論ステップが、連続オープン テキスト (CoT) の機能を可能にするプロンプトの最も重要な部分であるかどうかを調査します。 実験では、特に新しい推論ステップを導入する場合、追加の知識が導入されないように研究者らは変数を厳密に制御しました。ゼロサンプル実験では、研究者らは最初のプロンプトを「段階的に考えてください」から「段階的に考えて、できるだけ多くの段階を考えてみてください」に調整した。サンプル数が少ない問題について、研究者らは、他のすべての要素を一定に保ちながら、基本的な推論ステップを拡張する実験を設計しました。 これらの実験を通じて、研究者らは推論ステップの長さと結論の正確さとの間に相関関係があることを発見した。より具体的には、参加者は、より多くのステップを検討するように求められた場合、より正確な結論を提供する傾向がありました。これは、NLP 問題を解く際に、推論ステップを拡張することで問題解決の精度を向上できることを示しています。 この研究は、NLP 問題がどのように解決されるかを深く理解する上で非常に重要であり、NLP テクノロジーをさらに最適化および改善するための有用な指針を提供します。

「think step by step」还不够,让模型「think more steps」更有用

  • 論文のタイトル: 大規模言語モデルに対する推論ステップの長さの影響
  • #論文リンク: https://arxiv.org/pdf/2401.04925.pdf

「think step by step」还不够,让模型「think more steps」更有用# #この記事の最初の実験セットは、上記の戦略に基づいて Auto-CoT テクノロジを使用して、ゼロサンプルおよび小さなサンプルのタスクに対する推論パフォーマンスの向上を評価することを目的としています。次に、さまざまな推論ステップ数でのさまざまな方法の精度が評価されました。その後、研究者らは研究対象を拡大し、この記事で提案した戦略の有効性をさまざまな LLM (GPT-3.5 や GPT-4 など) で比較しました。研究結果は、一定の範囲内で、推論連鎖の長さとLLMの能力の間に明確な相関関係があることを示しています。研究者が誤解を招く情報を推論チェーンに導入しても、パフォーマンスが向上することを考慮する価値があります。このことから、重要な結論が得られます。パフォーマンスに影響を与える主な要因は、思考チェーンの精度ではなく、思考チェーンの長さであるようです。

この記事の主な調査結果は次のとおりです:

  • サンプル CoT が小さい場合、推論ステップ数と精度の間には直接的な線形関係があります。これにより、複雑な推論における CoT ヒントを最適化する定量化可能な方法が提供されます。具体的には、プロンプトに推論ステップを追加すると、複数のデータセットに対する LLM の推論機能が大幅に向上します。さらに、推論ステップを短縮すると、重要な情報が保持されている場合でも、モデルの推論機能が大幅に弱まる可能性があります。
  • 間違った推論であっても、必要な長さの推論が維持されていれば、有利な結果が得られる可能性があります。たとえば、数学の問題などのタスクでは、プロセス中に生成される中間数値のエラーが最終結果に影響を与える可能性は低くなります。
  • 推論ステップの増加によるメリットの大きさは、タスク自体によって制限されます。単純なタスクでは必要なステップが少なくなりますが、複雑なタスクでは推論シーケンスが長くなり、大幅なメリットが得られます。
  • ゼロショット CoT の推論ステップを増やすと、LLM の精度も大幅に向上します。

研究方法

研究者らは、推論ステップと CoT プロンプトのパフォーマンスとの関係を調べるために分析を実施しました。彼らのアプローチの中心的な前提は、シリアル化ステップが推論中の CoT キューの最も重要なコンポーネントであるということです。これらの手順により、言語モデルは、返信コンテンツを生成するときに、推論のためにより多くのロジックを適用できるようになります。このアイデアをテストするために、研究者らは、基本的な推論ステップを連続的に拡張および圧縮することによって CoT の推論プロセスを変更する実験を設計しました。同時に、他のすべての要素を一定に保ちました。具体的には、研究者らは、新しい推論コンテンツを導入したり、既存の推論コンテンツを削除したりすることなく、推論ステップ数を体系的に変更しただけでした。以下では、ゼロショットおよび数ショットの CoT キューを評価します。実験プロセス全体を図 2 に示します。この制御変数分析アプローチを通じて、研究者らは、論理的に健全な応答を生成する LLM の能力に CoT がどのように影響するかを解明しました。

「think step by step」还不够,让模型「think more steps」更有用

##ゼロサンプル CoT 分析

ゼロサンプル シナリオでは、研究 著者は、最初のプロンプトを「段階的に考えてください」から「段階的に考えて、できるだけ多くの段階を考えてください」に変更しました。この変更は、数ショット CoT 環境とは異なり、ユーザーが使用中に追加の推論ステップを導入できないために行われました。研究者らは、最初のプロンプトを変更することで、LLM がより幅広く考えるように導きました。このアプローチの重要性は、数ショットのシナリオで一般的な増分トレーニングや追加のサンプル駆動型の最適化手法を必要とせずに、モデルの精度を向上できることにあります。この改良戦略により、より包括的かつ詳細な推論プロセスが保証され、ゼロサンプル条件下でのモデルのパフォーマンスが大幅に向上します。

小規模サンプル CoT 分析

このセクションでは、推論ステップを追加または圧縮することによって、CoT の推論チェーンを変更します。目的は、推論構造の変化が LLM の決定にどのような影響を与えるかを研究することです。推論ステップの拡張中、研究者はタスクに関連する新しい情報を導入することを避ける必要があります。このようにして、推論ステップが唯一の研究変数になりました。

この目的を達成するために、研究者らは、さまざまな LLM アプリケーションの推論ステップを拡張する次の研究戦略を設計しました。人は問題についての考え方に決まったパターンを持っていることがよくあります。たとえば、より深く理解するために問題を何度も繰り返す、記憶負荷を軽減するために数式を作成する、トピックの理解を助けるために問題内の単語の意味を分析する、要約するなどです。現在の状態を簡略化する トピックの説明。研究者らは、ゼロサンプル CoT と Auto-CoT のインスピレーションに基づいて、CoT プロセスが標準化されたモデルとなり、プロンプト部分で CoT の思考の方向を制限することで正しい結果が得られることを期待しています。この手法の核心は、人間の思考プロセスをシミュレートし、思考の連鎖を再構築することです。 5 つの一般的なプロンプト戦略を表 6 に示します。

「think step by step」还不够,让模型「think more steps」更有用


  • 単語思考: この戦略では、モデルが単語を解釈し、知識ベースを再構築する必要があります。多くの場合、単語には複数の異なる意味があり、これにより、モデルが既成概念にとらわれずに考え、生成された説明に基づいて質問内の単語を再解釈できるようになります。このプロセスでは新しい情報は導入されません。プロンプトでは、研究者はモデルが考えている単語の例を示し、モデルはこのプロセスを実行するための新しい質問に基づいて自動的に単語を選択します。
  • 質問のリロード: 思考の連鎖における他のテキストの干渉を減らすために、質問を繰り返し読んでください。つまり、モデルに問題を覚えさせます。
  • 繰り返し状態: 繰り返し読み取りと同様に、現在の状態の概要が長い一連の推論の後に追加されます。目的は、モデルの記憶を簡素化し、他のモデルの干渉を軽減することです。 CoTに関するテキスト。
  • 自己検証: 人間は質問に答えるときに、自分の答えが正しいかどうかを確認します。そこで研究者らは、モデルが答えを得る前に、いくつかの基本情報に基づいて答えが合理的かどうかを判断する自己検証プロセスを追加した。
  • 方程式の準備: 数学的な問題の場合、方程式を作成すると、人間が記憶を要約して単純化するのに役立ちます。未知の量 x の仮定を必要とする一部の問題では、方程式を確立することが不可欠なプロセスです。研究者らはこのプロセスをシミュレートし、モデルに数学の問題で方程式を確立しようとさせました。

全体として、この記事のリアルタイム戦略はモデルに反映されています。表 1 に示されているのは一例であり、他の 4 つの戦略の例は元の論文で参照できます。

「think step by step」还不够,让模型「think more steps」更有用

#実験と結果

##推論ステップと精度の関係

表 2 は、3 クラス推論タスクの 8 つのデータセットで GPT-3.5-turbo-1106 を使用した精度を比較しています。

「think step by step」还不够,让模型「think more steps」更有用

思考連鎖プロセスを標準化する研究者の能力のおかげで、CoT の基本プロセスにステップを追加した場合の影響を定量化できます。精度や改善の度合い。この実験の結果は、以前に提起された質問「推論ステップと CoT パフォーマンスの関係は何ですか?」に答えることができます。この実験は GPT-3.5-turbo-1106 モデルに基づいています。研究者らは、CoT プロセスに最大 6 ステップの思考プロセスを追加するなど、効果的な CoT プロセスが大規模な言語モデルの推論能力を向上させ、これがすべてのデータセットに反映されることを発見しました。言い換えれば、研究者らは精度と CoT の複雑さの間に一定の線形関係があることを発見しました。

「think step by step」还不够,让模型「think more steps」更有用

#間違った答えの影響

推論ステップは LLM のパフォーマンスに影響します唯一の要因は?研究者らは次のような試みを行った。プロンプトの 1 つのステップを誤った説明に変更し、それが思考の連鎖に影響を与えるかどうかを確認します。この実験では、すべてのプロンプトにエラーを追加しました。具体的な例については、表 3 を参照してください。

「think step by step」还不够,让模型「think more steps」更有用算術型の問題では、解答の結果がどれか一つでも外れても、推論過程における思考連鎖への影響は最小限です。 、それで研究者は、算術タイプの問題を解決するとき、大規模な言語モデルは単一の計算よりもプロンプト内の思考パターンの連鎖についてより多くを学習すると主張されています。コインデータのような論理的な問題の場合、プロンプト結果の逸脱により、思考の連鎖全体が断片化することがよくあります。研究者らはまた、GPT-3.5-turbo-1106 を使用してこの実験を完了し、以前の実験から得られた各データセットの最適なステップ数に基づいてパフォーマンスを保証しました。結果を図 4 に示します。

「think step by step」还不够,让模型「think more steps」更有用#圧縮推論の手順

これまでの実験では、推論ステップを追加すると LLM 推論の精度が向上することが実証されました。それでは、小さなサンプル問題で基礎となる推論ステップを圧縮すると、LLM のパフォーマンスに悪影響が及ぶのでしょうか?この目的を達成するために、研究者らは推論ステップ圧縮実験を実施し、実験設定で概説した手法を使用して推論プロセスを Auto CoT と Few-Shot-CoT に凝縮して推論ステップの数を削減しました。結果を図 5 に示します。

「think step by step」还不够,让模型「think more steps」更有用

#結果は、モデルのパフォーマンスが大幅に低下し、基本的にゼロと同等のレベルに戻っていることを示しています。 -サンプルメソッド。この結果はさらに、CoT 推論ステップを増やすと CoT パフォーマンスが向上し、その逆も同様であることを示しています。

仕様の異なるモデルの性能比較

研究者らはまた、スケーリング現象が観察できるかどうかも尋ねました。必要な推論ステップは LLM のサイズに関連していますか?研究者らは、text-davinci-002、GPT-3.5-turbo-1106、GPT-4 などのさまざまなモデルで使用される推論ステップの平均数を調査しました。各モデルが最高のパフォーマンスに達するために必要な平均推論ステップは、GSM8K での実験を通じて計算されました。 8 つのデータセットの中で、このデータセットは text-davinci-002、GPT-3.5-turbo-1106、GPT-4 とのパフォーマンスの差が最も大きくなります。初期パフォーマンスが最も悪かった text-davinci-002 モデルでは、この記事で提案した戦略が最も高い改善効果を示していることがわかります。結果を図 6 に示します。

「think step by step」还不够,让模型「think more steps」更有用

#共同作業の例における問題の影響

LLM 推論に関する問題能力の影響は何ですか?研究者らは、CoT の推論を変更することが CoT のパフォーマンスに影響を与えるかどうかを調査したいと考えました。この記事では主に推論ステップがパフォーマンスに与える影響を研究しているため、研究者は問題自体がパフォーマンスに影響を与えないことを確認する必要があります。したがって、研究者らは、GPT-3.5-turbo-1106 で実験を行うために、データセット MultiArith と GSM8K および 2 つの CoT メソッド (自動 CoT と少数ショット CoT) を選択しました。この論文の実験的アプローチには、表 4 の質問の内容を変更するなど、これらの数学データ セットのサンプル問題に対する意図的な変更が含まれます。

「think step by step」还不够,让模型「think more steps」更有用

予備的な観察により、問題自体に対するこれらの変更がパフォーマンスに及ぼす影響は、次に示すようにいくつかの要因の中で最も小さいことが示されていることに注目する価値があります。表 5 に示します。

「think step by step」还不够,让模型「think more steps」更有用

#この予備的な発見は、推論プロセスのステップの長さが大規模モデルの推論能力に影響を与える最も重要な要素であることを示しています。問題自体の影響は最大ではありません。

詳細については、原論文をお読みください。

以上がより有用なモデルには、「段階的に考える」だけでは不十分ではなく、より深い「段階的に考える」ことが必要です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。