ホームページ > 記事 > テクノロジー周辺機器 > GPT や Llama などの大きなモデルには「逆転の呪い」がありますが、このバグはどうすれば軽減できるのでしょうか?
中国人民大学の研究者らは、Llama などの因果言語モデルが遭遇する「逆転の呪い」は、ネクストトークン予測因果言語モデルの固有の欠陥に起因する可能性があることを発見しました。彼らはまた、GLM が使用する自己回帰的穴埋めトレーニング方法が、双方向の注意メカニズムをラマに導入することにより、この「逆転の呪い」に対処する際により堅牢であることも発見しました。この研究では、ラマの「呪いの逆転」からの解放が達成されました。
この研究では、現在普及している大規模モデルの構造とトレーニング方法には多くの潜在的な問題があることが指摘されました。より多くの研究者がモデル構造と事前トレーニング方法を革新して知能レベルを向上できることが期待されています
論文アドレス: https:// arxiv.org/pdf/2311.07468.pdf
背景
たとえば、GPT-4 は、「黄色い鶴がいなくなり、次の文ですが、その前の「白い雲は何千年も空っぽです」の文は何なのかというと、モデルは深刻な幻想を生み出しました
図 1: GPT-4 の次の文「黄色い鶴は去って二度と戻らない」という質問は何ですか? モデルは
と正しく答えました。
図 2: GPT-4「Bai Yunqian」に質問する「Zai Kong Youyou」の前の文は何ですか? モデルのエラー
逆呪いはなぜ起こるのですか?
呪いを逆転するという研究の観点では、これらのモデルのトレーニング目的がこの問題の出現につながり、Llama や GPT などのモデルに固有の問題である可能性があると考えられています
#書き換えられた内容: 図 3: 因果的言語モデルをトレーニングするためのネクストトークン予測 (NTP) の使用を示す概略図
これら 2 つの点の組み合わせにより問題が発生します: トレーニング データにエンティティ A と B が含まれており、A が B の前に出現する場合、このモデルは前方予測の条件付き確率 p(B|A) のみを最適化できます。予測 条件付き確率 p(A|B) には保証がありません。トレーニング セットが A と B の可能な順列を完全にカバーできるほど大きくない場合、「呪いの逆転」現象が発生します。
もちろん、生成的なものも多数あります。上記の手順を踏まない言語モデル 清華大学が提案する GLM などのトレーニング パラダイムのトレーニング方法を次の図に示します。
##図 4: GLM トレーニング図の簡略版
GLM は、自己回帰空白埋め (ABI) のトレーニング目標を使用します。つまり、カバーする入力からコンテンツの一部をランダムに選択します。そして自己回帰的にコンテンツを予測します。予測されるトークンは引き続き単方向アテンションを介して「上」に依存しますが、「上」には元の入力内のそのトークンの前後のすべてが含まれるため、ABI は暗黙的に逆依存関係を考慮します#研究では実験が行われ、GLM には「逆転の呪い」をある程度まで防ぐ能力があることが判明しました。
#トレーニング セットは 2 つの部分に分かれており、1 つの部分にはperson が最初 (NameToDescription)、もう 1 つの部分は説明が最初 (DescriptionToName) であり、2 つの部分に重複する名前や説明はありません。テスト データのプロンプトはトレーニング データのプロンプトを書き換えます。
実験結果は、NTP を通じて微調整された Llama モデルには、基本的に逆転タスクに正しく答える能力 (NameToDescription の逆転タスクの精度) がないことを示しています。 ABI で微調整された GLM モデルは、NameToDescrption 反転タスクで非常に高い精度を示します。
比較のために、この研究では NTP 法を使用して GLM を微調整したところ、N2D 逆タスクにおける GLM の精度が 0
に低下したことがわかりました。おそらく、D2N リバース (逆知識を使用して、人の名前が与えられた説明を生成する) は、N2D リバース (逆知識を使用して、説明が与えられた人の名前を生成する) よりはるかに難しいため、GLM-ABI はほんのわずかな改善。
研究の主な結論は影響を受けません。トレーニング目標は「逆転の呪い」の原因の 1 つです。ネクストトークン予測を使用して事前トレーニングされた因果言語モデルでは、「逆転の呪い」が特に深刻です。
Due to 「逆転の呪い」は、Llama や GPT などのモデルのトレーニング段階によって引き起こされる固有の問題です。リソースが限られているため、私たちにできることは、新しいデータでモデルを微調整する方法を見つけて最善を尽くすことだけです。新しい知識によるモデルの「逆転」を避けるため、トレーニング データを最大限に活用するために「呪い」が発生します。
GLM トレーニング手法に触発されて、この研究では、基本的に新たなギャップを導入しないトレーニング手法「双方向因果言語モデル最適化」(双方向因果言語モデル最適化)を提案しました。 Llama も双方向アテンション機構を利用してトレーニングすることができますが、要点は次のとおりです:
1. OOD の位置情報を排除する。 Llama が使用する RoPE エンコーディングは、アテンションを計算するときにクエリとキーに位置情報を追加します。計算方法は次のとおりです。
ここで、 は、それぞれ現在のレイヤーの m 位置と n 位置の入力です。 は、RoPE によって使用される回転行列であり、次のように定義されます。 :
ラマの因果的注意マスクを直接削除すると、配信外の位置情報が混入してしまいます。その理由は、事前トレーニング プロセス中に、位置 m のクエリは位置 n のキーとの内積 () を実行するだけでよいためです。上の式の積計算 距離 (n-m) は常に非正です。アテンション マスクが直接削除された場合、m 位置のクエリは n>m 位置のキーと内積を実行し、n-m は次のようになります。正の値で、これまでに見たことのない新しいモデルが導入されます。
#研究によって提案された解決策は非常にシンプルで、次のように述べられています:
#When、内積の計算に変更を加える必要はありません。n > m の場合、新しい回転行列 を導入することによって計算されます。 は、回転行列内のすべての sin 項の逆関数を取得することによって取得されます。このように、 があります。 n > m の場合、次のようになります。
この研究では、注意スコアの計算を 2 つの部分に分割し、次に従って上三角の合計を計算します。上記の操作を実行します。三角形を下げて最後に結合することで、この記事で指定したアテンション計算方法を効果的に実現できます。全体的な操作は、次のサブ図 (a) に示されています。#2. マスク デノージングを使用したトレーニング
##双方向アテンション機構が導入されているため、トレーニングに NTP タスクを使用し続けると情報漏洩が発生する可能性があります。トレーニングの失敗につながります。したがって、この研究では、マスク トークンを復元する方法を使用してモデルを最適化します。
最終的には、導入しないようにするために、新しいギャップ この調査では、上記 (a) に示すように、自己回帰マスクのノイズ除去を使用します。この調査では、出力端の i 1 番目の位置に入力されたマスク トークンを復元します。
また、因果言語モデルの事前トレーニング語彙には [マスク] トークンがないため、微調整段階で新しいトークンが追加されると、モデルははこの無意味なトークンを学習する必要があるため、この研究ではプレースホルダー トークンのみを入力し、注意の計算ではプレースホルダー トークンを無視します。
この研究で Llama を微調整した場合、各ステップでは BICO と通常の NTP がトレーニング ターゲットとして同じ確率でランダムに選択されました。 10 エポックに対する同じ微調整の場合、上記の名前記述データ セットで、通常の NTP 微調整とのパフォーマンスの比較は次のとおりです。
# この研究の方法は、呪いを逆転させる上である程度の救済効果があることがわかります。 D2N リバースに関するこの記事の方法の改善は、GLM-ABI と比較して非常に小さいです。研究者らは、この現象の理由は、テストに対する事前トレーニング データの干渉を減らすために、データセット内の名前と対応する説明が GPT によって生成されているにもかかわらず、事前トレーニング モデルには一定の常識的な理解能力があるためであると推測しています。通常、説明と説明の間には 1 対多の関係があります。人の名前を考えると、さまざまな説明ができるかもしれません。したがって、モデルが逆知識を利用し、同時に成長記述を生成する必要がある場合、多少の混乱が生じるようです。
さらに、この記事の焦点は、逆呪いを調査することです。基本モデルの現象。より複雑な状況におけるモデルの逆転応答能力と、強化学習の高次フィードバックが呪いの逆転に影響を与えるかどうかを評価するには、さらなる研究がまだ必要です
現在、ほとんどのオープンソースの大規模言語モデルは、「因果的言語モデルの次のトークン予測」のパターンに従っています。ただし、このモードでは Reversal of the Curse と同様の潜在的な問題がさらに発生する可能性があります。これらの問題は現在、モデルのサイズとデータ量を増やすことで一時的に隠すことができますが、完全に解消されたわけではなく、依然として存在しています。モデルのサイズとデータ量の増加が限界に達したとき、この「現時点で十分な」モデルが本当に人間の知能を超えることができるかどうか、この研究では非常に困難であると考えています。この研究では、より多くの大規模モデル製造者と資格のある研究者が、現在の主流の大規模言語モデルに内在する欠陥を深く調査し、トレーニング パラダイムを革新できることを期待しています。この研究が本文の最後に書いているように、「この本に従って将来のモデルを厳密に訓練すると、私たちは『中知性の罠』に陥る可能性があります。」
以上がGPT や Llama などの大きなモデルには「逆転の呪い」がありますが、このバグはどうすれば軽減できるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。