ホームページ > 記事 > テクノロジー周辺機器 > より有用なモデルには、「段階的に考える」だけでは不十分ではなく、より深い「段階的に考える」ことが必要です。
最近、大規模言語モデル (LLM) とその高度なヒンティング戦略の出現により、言語モデルの研究、特に古典的な自然言語処理 (NLP) タスクにおいて大きな進歩が見られました。重要なイノベーションの 1 つは、思考連鎖 (CoT) プロンプト テクノロジであり、複数のステップからなる問題解決能力が高く評価されています。 CoT テクノロジーは人間の逐次推論に従い、クロスドメイン、長期一般化、およびクロス言語タスクなどのさまざまな課題で優れたパフォーマンスを示します。 CoT は、論理的で段階的な推論アプローチにより、複雑な問題解決シナリオにおいて重要な解釈可能性を提供します。
CoT は大きな進歩を遂げましたが、研究コミュニティはその具体的なメカニズムとそれが機能する理由についてまだ合意に達していません。この知識のギャップは、CoT パフォーマンスの向上がまだ未知の領域であることを意味します。現在、研究者には体系的な方法論が欠如しており、推測と実験に頼ることしかできないため、CoT の改善を探る主な方法は試行錯誤です。しかし、これは同時に、この分野に重要な研究の機会が存在すること、つまりCoTの内部動作について深く構造化された理解を発展させることを意味します。この目標を達成できれば、現在の CoT プロセスがわかりやすくなるだけでなく、さまざまな複雑な NLP タスクでこの手法をより信頼性が高く効率的に適用する道も開かれるでしょう。
ノースウェスタン大学、リバプール大学、ニュージャージー工科大学の研究者らによる研究では、推論ステップの長さと結論の正確さとの関係をさらに調査し、人々のより良い支援に貢献しています。自然言語処理 (NLP) の問題を効果的に解決する方法を理解します。この調査では、推論ステップが、連続オープン テキスト (CoT) の機能を可能にするプロンプトの最も重要な部分であるかどうかを調査します。 実験では、特に新しい推論ステップを導入する場合、追加の知識が導入されないように研究者らは変数を厳密に制御しました。ゼロサンプル実験では、研究者らは最初のプロンプトを「段階的に考えてください」から「段階的に考えて、できるだけ多くの段階を考えてみてください」に調整した。サンプル数が少ない問題について、研究者らは、他のすべての要素を一定に保ちながら、基本的な推論ステップを拡張する実験を設計しました。 これらの実験を通じて、研究者らは推論ステップの長さと結論の正確さとの間に相関関係があることを発見した。より具体的には、参加者は、より多くのステップを検討するように求められた場合、より正確な結論を提供する傾向がありました。これは、NLP 問題を解く際に、推論ステップを拡張することで問題解決の精度を向上できることを示しています。 この研究は、NLP 問題がどのように解決されるかを深く理解する上で非常に重要であり、NLP テクノロジーをさらに最適化および改善するための有用な指針を提供します。
# #この記事の最初の実験セットは、上記の戦略に基づいて Auto-CoT テクノロジを使用して、ゼロサンプルおよび小さなサンプルのタスクに対する推論パフォーマンスの向上を評価することを目的としています。次に、さまざまな推論ステップ数でのさまざまな方法の精度が評価されました。その後、研究者らは研究対象を拡大し、この記事で提案した戦略の有効性をさまざまな LLM (GPT-3.5 や GPT-4 など) で比較しました。研究結果は、一定の範囲内で、推論連鎖の長さとLLMの能力の間に明確な相関関係があることを示しています。研究者が誤解を招く情報を推論チェーンに導入しても、パフォーマンスが向上することを考慮する価値があります。このことから、重要な結論が得られます。パフォーマンスに影響を与える主な要因は、思考チェーンの精度ではなく、思考チェーンの長さであるようです。
この記事の主な調査結果は次のとおりです:
研究者らは、推論ステップと CoT プロンプトのパフォーマンスとの関係を調べるために分析を実施しました。彼らのアプローチの中心的な前提は、シリアル化ステップが推論中の CoT キューの最も重要なコンポーネントであるということです。これらの手順により、言語モデルは、返信コンテンツを生成するときに、推論のためにより多くのロジックを適用できるようになります。このアイデアをテストするために、研究者らは、基本的な推論ステップを連続的に拡張および圧縮することによって CoT の推論プロセスを変更する実験を設計しました。同時に、他のすべての要素を一定に保ちました。具体的には、研究者らは、新しい推論コンテンツを導入したり、既存の推論コンテンツを削除したりすることなく、推論ステップ数を体系的に変更しただけでした。以下では、ゼロショットおよび数ショットの CoT キューを評価します。実験プロセス全体を図 2 に示します。この制御変数分析アプローチを通じて、研究者らは、論理的に健全な応答を生成する LLM の能力に CoT がどのように影響するかを解明しました。
##ゼロサンプル CoT 分析
ゼロサンプル シナリオでは、研究 著者は、最初のプロンプトを「段階的に考えてください」から「段階的に考えて、できるだけ多くの段階を考えてください」に変更しました。この変更は、数ショット CoT 環境とは異なり、ユーザーが使用中に追加の推論ステップを導入できないために行われました。研究者らは、最初のプロンプトを変更することで、LLM がより幅広く考えるように導きました。このアプローチの重要性は、数ショットのシナリオで一般的な増分トレーニングや追加のサンプル駆動型の最適化手法を必要とせずに、モデルの精度を向上できることにあります。この改良戦略により、より包括的かつ詳細な推論プロセスが保証され、ゼロサンプル条件下でのモデルのパフォーマンスが大幅に向上します。
小規模サンプル CoT 分析
このセクションでは、推論ステップを追加または圧縮することによって、CoT の推論チェーンを変更します。目的は、推論構造の変化が LLM の決定にどのような影響を与えるかを研究することです。推論ステップの拡張中、研究者はタスクに関連する新しい情報を導入することを避ける必要があります。このようにして、推論ステップが唯一の研究変数になりました。
この目的を達成するために、研究者らは、さまざまな LLM アプリケーションの推論ステップを拡張する次の研究戦略を設計しました。人は問題についての考え方に決まったパターンを持っていることがよくあります。たとえば、より深く理解するために問題を何度も繰り返す、記憶負荷を軽減するために数式を作成する、トピックの理解を助けるために問題内の単語の意味を分析する、要約するなどです。現在の状態を簡略化する トピックの説明。研究者らは、ゼロサンプル CoT と Auto-CoT のインスピレーションに基づいて、CoT プロセスが標準化されたモデルとなり、プロンプト部分で CoT の思考の方向を制限することで正しい結果が得られることを期待しています。この手法の核心は、人間の思考プロセスをシミュレートし、思考の連鎖を再構築することです。 5 つの一般的なプロンプト戦略を表 6 に示します。
全体として、この記事のリアルタイム戦略はモデルに反映されています。表 1 に示されているのは一例であり、他の 4 つの戦略の例は元の論文で参照できます。
##推論ステップと精度の関係
表 2 は、3 クラス推論タスクの 8 つのデータセットで GPT-3.5-turbo-1106 を使用した精度を比較しています。思考連鎖プロセスを標準化する研究者の能力のおかげで、CoT の基本プロセスにステップを追加した場合の影響を定量化できます。精度や改善の度合い。この実験の結果は、以前に提起された質問「推論ステップと CoT パフォーマンスの関係は何ですか?」に答えることができます。この実験は GPT-3.5-turbo-1106 モデルに基づいています。研究者らは、CoT プロセスに最大 6 ステップの思考プロセスを追加するなど、効果的な CoT プロセスが大規模な言語モデルの推論能力を向上させ、これがすべてのデータセットに反映されることを発見しました。言い換えれば、研究者らは精度と CoT の複雑さの間に一定の線形関係があることを発見しました。
#間違った答えの影響
推論ステップは LLM のパフォーマンスに影響します唯一の要因は?研究者らは次のような試みを行った。プロンプトの 1 つのステップを誤った説明に変更し、それが思考の連鎖に影響を与えるかどうかを確認します。この実験では、すべてのプロンプトにエラーを追加しました。具体的な例については、表 3 を参照してください。
算術型の問題では、解答の結果がどれか一つでも外れても、推論過程における思考連鎖への影響は最小限です。 、それで研究者は、算術タイプの問題を解決するとき、大規模な言語モデルは単一の計算よりもプロンプト内の思考パターンの連鎖についてより多くを学習すると主張されています。コインデータのような論理的な問題の場合、プロンプト結果の逸脱により、思考の連鎖全体が断片化することがよくあります。研究者らはまた、GPT-3.5-turbo-1106 を使用してこの実験を完了し、以前の実験から得られた各データセットの最適なステップ数に基づいてパフォーマンスを保証しました。結果を図 4 に示します。
#圧縮推論の手順
これまでの実験では、推論ステップを追加すると LLM 推論の精度が向上することが実証されました。それでは、小さなサンプル問題で基礎となる推論ステップを圧縮すると、LLM のパフォーマンスに悪影響が及ぶのでしょうか?この目的を達成するために、研究者らは推論ステップ圧縮実験を実施し、実験設定で概説した手法を使用して推論プロセスを Auto CoT と Few-Shot-CoT に凝縮して推論ステップの数を削減しました。結果を図 5 に示します。
#結果は、モデルのパフォーマンスが大幅に低下し、基本的にゼロと同等のレベルに戻っていることを示しています。 -サンプルメソッド。この結果はさらに、CoT 推論ステップを増やすと CoT パフォーマンスが向上し、その逆も同様であることを示しています。 仕様の異なるモデルの性能比較 研究者らはまた、スケーリング現象が観察できるかどうかも尋ねました。必要な推論ステップは LLM のサイズに関連していますか?研究者らは、text-davinci-002、GPT-3.5-turbo-1106、GPT-4 などのさまざまなモデルで使用される推論ステップの平均数を調査しました。各モデルが最高のパフォーマンスに達するために必要な平均推論ステップは、GSM8K での実験を通じて計算されました。 8 つのデータセットの中で、このデータセットは text-davinci-002、GPT-3.5-turbo-1106、GPT-4 とのパフォーマンスの差が最も大きくなります。初期パフォーマンスが最も悪かった text-davinci-002 モデルでは、この記事で提案した戦略が最も高い改善効果を示していることがわかります。結果を図 6 に示します。 #共同作業の例における問題の影響
予備的な観察により、問題自体に対するこれらの変更がパフォーマンスに及ぼす影響は、次に示すようにいくつかの要因の中で最も小さいことが示されていることに注目する価値があります。表 5 に示します。
#この予備的な発見は、推論プロセスのステップの長さが大規模モデルの推論能力に影響を与える最も重要な要素であることを示しています。問題自体の影響は最大ではありません。 詳細については、原論文をお読みください。
以上がより有用なモデルには、「段階的に考える」だけでは不十分ではなく、より深い「段階的に考える」ことが必要です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。