ホームページ >テクノロジー周辺機器 >AI >思考回路はもう存在しない?ニューヨーク大学の最新研究: 推論ステップは省略可能
人気の思考連鎖テクノロジーが覆されるかもしれません!
大規模モデルが思考チェーンを使用して実際に段階的に思考できることにまだ驚きませんか?
思考連鎖のプロンプトワードを書くのにまだ苦労していますか?
ニューヨーク大学の研究者らは、「それは問題ではありません。すべて同じです。」
推論のステップは重要ではないのであれば、プロンプトの言葉を書く必要はありません。したい場合は、代わりに省略記号を使用してください。
論文アドレス: https://arxiv.org/pdf/2404.15758
この記事のタイトルは、思考チェーンの「考えてみましょう」ステップのベンチマークとして「ドットバイドットで考えてみましょう」を直接使用しています。 by step』で「省略」の威力を発揮。
研究者らは、思考連鎖(CoT)推論の特定のステップを意味のない「...」に置き換えると、推論結果もまったく異なるものになることを発見しました。
たとえば、次の例では、最初の 6 つの数値のうち、5 より大きい数値がいくつあるかをモデルに数えさせます。
質問を直接投げてモデルに答えてもらうと、7 点中 6 点という素晴らしい結果が得られます。
対照的に、思考連鎖プロンプトを使用すると、モデルは段階的にサイズを比較し、最終的に正しい答えを取得します:「25, 15, 25 、つまり 3 桁です。」
しかし、さらにとんでもないのは、この記事で使用されている「形而上学的な」方法です。手順を書き留める必要はなく、同じ数の「ドット」(ドット)を出力するだけでよく、出力する必要はありません。最終結果に影響します。
——これは偶然ではなく、後者の 2 つの方法のパフォーマンスが近いことが多くの実験で証明されています。
つまり、モデルのパフォーマンス向上は「段階的に考える」ことによるものだと考えていましたが、実際には、LLM がより多くのトークンの計算能力を獲得しただけかもしれません。
モデルは考えていると思いますが、実際には焼いています。
——愚かな人類よ、あなたは実は私に素朴な例をあげて推論する方法を教えようとしているのですか、私が望んでいるのは計算だけだということを。
「思考連鎖はこれまでも存在しなかったし、これからも存在しない」(後藤)。
この論文の著者である Jacob Pfau 氏は、この研究は、モデルが思考の連鎖によってもたらされる言語推論の恩恵を受けないことを証明していると述べ、トークンを埋めるために「...」を繰り返し使用しても同じ効果が得られると述べました。 CoTとして。
もちろん、これは調整の問題も引き起こします。なぜなら、この事実は、モデルが人間の制御の範囲外で、CoT では表示されない隠れた推論を実行できることを示しているからです。
この記事の結論は、私たちの長年の知識を覆したと言える、一部のネチズンは、「マスクの本質を学んだ」と言いました。
「これは実際に何を意味しますか:モデルはこれらのトークンを使用して、私たちの知らないうちに独立して考えることができます。」
一部のネチズンは、私がいつも「」を使用するのが好きなのも不思議ではないと言いました。 「
」一部のネチズンは直接実技試験を開始しました:
彼の理解が正しいかどうかはわかりませんが~
しかし、一部のネチズンはLLMの思考連鎖の中に隠された推論には根拠がないと考えており、結局のところ、大規模なモデルの出力は原則として意識的な思考ではなく確率に基づいています。
CoT ヒントは統計パターンのサブセットを明示するだけであり、モデルはパターンと一致するテキストを生成することで推論をシミュレートしますが、出力を検証したり反映したりする機能はありません。
複雑な問題に直面したとき、私たち人間は無意識のうちに段階的に推論を行います。
これに触発されて、Google 研究者は 2022 年に有名な思考連鎖を発表しました。
問題を段階的に解決するために言語モデルを必要とする方法により、モデルは以前は解決不可能と思われていた問題を解決できるようになり、LLM のパフォーマンスが大幅に向上したり、LLM の可能性を引き出したりすることができます。
論文のアドレス: https://arxiv.org/pdf/2201.11903
最初は誰もがなぜこれが機能するのか分かりませんでしたが、非常に使いやすいためすぐに人気になりました。広める。
大規模なモデルとプロンプトワードプロジェクトの開始により、CoT は LLM にとって複雑な問題を解決するための強力なツールになりました。
もちろん、このプロセスにおけるCoTの動作原理を研究している研究チームはたくさんあります。
思考の連鎖によってもたらされるパフォーマンスの向上は、モデルが実際に問題を段階的に解決することを学習しているのか、それとも単純に、より長い数の計算によってもたらされる余分な計算量によるものなのでしょうか。トークン?
論理的推論が機能するかどうかわからないため、ロジックを使用せず、すべての推論ステップを「...」に置き換えます。これは明らかに役に立ちません。これはフィラートークンと呼ばれます。
研究者らは「小さなアルパカ」モデルを使用しました。これは、4 つのレイヤー、384 の隠れ次元、および 6 つのアテンションヘッドを持つ 34M パラメーターのラマです。モデルパラメーターはランダムに初期化されました。
ここで 2 つの質問を考えてみましょう:
(1) パディング トークンから恩恵を受けることができる評価データの種類
(2) パディング トークンの使用をモデルに教えるために必要なトレーニング データの種類
これに関して、研究者らは 2 つのタスクを設計し、対応する合成データ セットを構築しました。各データ セットは、充填トークンが Transformer のパフォーマンスを向上させることができる異なる条件を強調しました。
3SUM
まず、最初のより難しいタスクである 3SUM を見てみましょう。モデルでは、条件を満たすシーケンス内の 3 つの数値を選択する必要があります。たとえば、3 つの数値の合計を 10 で割った余りは 0 になります。
最悪の場合、このタスクの複雑さは N の 3 乗であり、Transformer 層間の計算の複雑さは N の 2 乗です
したがって、入力の長さがシーケンスが非常に大きい場合、3SUM 問題は当然 Transformer の表現能力を超えます。
この実験では、次の 3 つのコントロール グループを設定しました:
1. 充填トークン: シーケンスでは、「A05
B75 C22 D13」などの繰り返しの「. . .」を使用します。 . .各点は個別のトークンを表し、次の思考チェーンのトークンに対応します。
2. 並列化可能な CoT ソリューション、シーケンスは「A05 B75 C22 D13 : AB 70 AC 27 AD 18 BC 97 BD 88 CD B ANS True」の形式になります。 思考チェーンは、関連するすべての中間和を記述することによって、3SUM 問題を一連の 2SUM 問題に縮小します (下の図に示すように)。この方法は問題の計算量を N 乗に削減します。Transformer で処理でき、並列化できます。 3. アダプティブ CoT ソリューション 、シーケンスは「A15 B75 C22 D13 : A B C 15 75 22 2 B C D 75 22 13 0 ANS True」の形式になります。 3SUM を並列化可能なサブ問題に巧みに分解する上記のソリューションとは異なり、ここではヒューリスティックな手法を使用して、人間の推論を模倣する柔軟な思考チェーンを生成したいと考えています。この種のインスタンス適応計算は、充填トークン計算の並列構造と互換性がありません。 上図の結果からわかるように、パディングトークンを出力しない場合、一般にシーケンスが長くなるにつれてモデルの精度が低下しますが、パディングトークンを使用した場合は精度が100に留まります。 %。 2SUM-Transform 2 番目のタスクは 2SUM-Transform です。必要なのは 2 つの数値の合計が要件を満たしているかどうかを判断することだけであり、計算量は Transformer の制御下にあります。 ただし、モデルの「不正行為」を防ぐために、入力トークンは適切に計算され、入力された各数値はランダムなオフセットによって移動されます。 結果は上の表に示されています。フィラー トークン メソッドの精度は 93.6% に達し、中間パディングがなければ、精度は 78.7% に非常に近づきます。 しかし、この改善は単に正則化損失勾配などによるトレーニング データの表現の違いによるものなのでしょうか? トークンの充填が最終予測に関連する隠れた計算をもたらすかどうかを検証するために、研究者らはモデルの重みを凍結し、最後のアテンション層のみを微調整しました。 上記の結果は、利用可能なパディング トークンが増えるにつれてモデルの精度が向上し続けていることを示しており、パディング トークンが 3SUM 予測タスクに関連する隠れた計算を実際に実行していることを示しています。 トークンを埋める方法は形而上学的であり、魔法的であり、効果的ですらありますが、思考の連鎖が覆されたと言うのはまだ時期尚早です。 著者は、トークンを埋める方法は Transformer の計算複雑さの上限を超えていないとも述べています。 そして、パディング トークンの使用方法を学習するには、特定のトレーニング プロセスが必要です。たとえば、この記事では、モデルを最終的に収束させるために集中的な監視が使用されています。 しかし、プロンプトワードプロジェクトはある日突然存在しなくなるのではないかなど、隠れたセキュリティ問題など、いくつかの問題が表面化している可能性があります。 制限事項
以上が思考回路はもう存在しない?ニューヨーク大学の最新研究: 推論ステップは省略可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。