ホームページ >テクノロジー周辺機器 >AI >GPT-4の知能レベルの低下に関する新たな解釈

GPT-4の知能レベルの低下に関する新たな解釈

王林
王林転載
2024-01-14 12:15:051234ブラウズ

GPT-4 は、リリース以来世界で最も強力な言語モデルの 1 つとみなされていますが、残念ながら一連の信頼の危機を経験しました。

今年初めの「断続的インテリジェンス」インシデントを OpenAI による GPT-4 アーキテクチャの再設計と結び付けると、GPT-4 が「怠惰」になったという最近の報告があります。噂はさらに興味深いものです。誰かがテストした結果、GPT-4 に「冬休みです」と伝えると、冬眠状態に入ったかのように怠惰になることがわかりました。

新しいタスクにおけるモデルのゼロサンプルのパフォーマンスが低いという問題を解決するには、次の方法を採用できます。 1. データの強化: 既存のデータを拡張および変換することで、モデルの汎化能力を高めます。たとえば、画像データは、回転、拡大縮小、平行移動などによって、または新しいデータ サンプルを合成することによって変更できます。 2. 転移学習: 他のタスクでトレーニングされたモデルを使用して、そのパラメーターと知識を新しいタスクに転送します。これにより、既存の知識と経験を活用して改善できます。

最近、カリフォルニア大学サンタクルーズ校の研究者らは、パフォーマンスの根本的な理由を説明できる可能性がある新しい発見を論文で発表しました。 GPT-4の分解。

GPT-4の知能レベルの低下に関する新たな解釈

「LLM は、トレーニング データの作成日より前にリリースされたデータセットで驚くほど優れたパフォーマンスを発揮することがわかりました。データセットは後でリリースされました。」

「既知の」タスクでは良好なパフォーマンスを発揮しますが、新しいタスクではパフォーマンスが低下します。これは、LLM が近似検索に基づいて知性を模倣する方法にすぎず、主に理解レベルを問わず物事を暗記することを意味します。

はっきり言って、LLM の汎化能力は「言われているほど強力ではない」です。基礎がしっかりしていないため、実戦では必ずミスが発生します。

この結果の主な原因の 1 つは、データ汚染の一種である「タスク汚染」です。これまでよく知られてきたデータ汚染はテスト データ汚染です。これは、トレーニング前のデータにテスト データの例とラベルが含まれていることです。 「タスクの汚染」とは、タスクのトレーニング例がトレーニング前のデータに追加されることで、ゼロサンプルまたは少数サンプルの方法での評価が現実的で効果的ではなくなります。

研究者は、論文で初めてデータ汚染問題の体系的な分析を実施しました:

GPT-4の知能レベルの低下に関する新たな解釈

論文リンク: https://arxiv.org/pdf/2312.16337.pdf

論文を読んだ後、誰かが「悲観的に」言いました:

これは、継続的に学習する能力、つまり ML モデル トレーニング後に重みは固定されますが、入力分布は変化し続けるため、モデルがこの変化に適応し続けることができない場合、モデルは徐々に低下します。

これは、プログラミング言語が常に更新されるにつれて、LLM ベースのコーディング ツールも劣化することを意味します。これが、このような壊れやすいツールに過度に依存する必要がない理由の 1 つです。

これらのモデルを継続的に再トレーニングするコストは高くつくため、遅かれ早かれ、誰かがこれらの非効率な方法を諦めるでしょう。

以前のエンコード タスクに重大な中断やパフォーマンスの損失を引き起こすことなく、変化する入力分布に確実かつ継続的に適応できる ML モデルはまだありません。

そして、これは生物学的ニューラル ネットワークが得意とする分野の 1 つです。生物学的ニューラル ネットワークの強力な汎化能力により、さまざまなタスクを学習すると、システムのパフォーマンスがさらに向上します。これは、1 つのタスクから得られた知識が、「メタ学習」と呼ばれる学習プロセス全体の改善に役立つためです。

「タスク汚染」の問題はどれくらい深刻ですか?紙面の内容を見てみましょう。

モデルとデータセット

実験では 12 個のモデルが使用されています (表 1 を参照)。そのうちの 5 つは独自のものです。 GPT-3 シリーズ モデルのうち 7 つは、ウェイトに自由にアクセスできるオープン モデルです。

GPT-4の知能レベルの低下に関する新たな解釈

# データセットは 2 つのカテゴリに分類されます: 2021 年 1 月 1 日より前または後に公開されたデータセット研究者は、この分割方法を使用して、古いデータ セットと新しいデータ セットの間のゼロサンプルまたは数サンプルのパフォーマンスの違いを分析し、すべての LLM に対して同じ分割方法を使用します。表 1 に各モデルのトレーニング データの作成時刻を示し、表 2 に各データセットの公開日を示します。

GPT-4の知能レベルの低下に関する新たな解釈

上記のアプローチの背後にある考慮事項は、ゼロショット評価と少数ショット評価では、モデルがトレーニング中に一度も見たことがないか、数回しか見たことがないタスクについての予測を行う必要があるということです。完了すべき特定のタスクにさらされることで、学習能力の公正な評価が保証されます。ただし、汚染されたモデルは、事前トレーニング中にタスク例に基づいてトレーニングされているため、実際にさらされていない、または数回しかさらされていない能力があるかのような錯覚を与える可能性があります。時系列のデータセットでは、重複や異常が明らかになるため、このような不一致を検出するのは比較的簡単です。

#測定方法

研究者らは、「タスクの汚染」を測定するために 4 つの方法を使用しました。

    トレーニング データの検査: タスク トレーニングのサンプルのトレーニング データを検索します。
  1. タスク例の抽出: 既存のモデルからタスク例を抽出します。命令調整されたモデルのみを抽出でき、この分析はトレーニング データやテスト データの抽出にも使用できます。タスクの汚染を検出するために、抽出されたタスクの例が既存のトレーニング データの例と正確に一致する必要はないことに注意してください。タスクを実証するあらゆる例は、ゼロショット学習と少数ショット学習の混入の可能性を示しています。
  2. メンバーの推論: この方法はビルド タスクにのみ適用されます。入力インスタンスのモデル生成コンテンツが元のデータセットとまったく同じであることを確認します。正確に一致する場合、それが LLM トレーニング データのメンバーであると推測できます。これは、生成された出力が完全に一致するかどうかチェックされるという点で、タスク例の抽出とは異なります。オープンエンド生成タスクでの完全一致は、モデルが「超能力」を持ち、データで使用されている正確な表現を知っている場合を除き、モデルがトレーニング中にこれらの例を見たということを強く示唆します。 (これはビルド タスクにのみ使用できることに注意してください。)
  3. 時系列分析: 既知の時間枠中にトレーニング データが収集されたモデル セットの場合、既知のリリース日のデータセットでパフォーマンスを測定します。汚染の証拠については、一時的な証拠チェックを使用します。

最初の 3 つの方法は精度が高いですが、再現率が低くなります。タスクのトレーニング データ内でデータを見つけることができれば、モデルがその例を認識していると確信できます。ただし、データ形式の変更、タスクの定義に使用されるキーワードの変更、およびデータセットのサイズのため、最初の 3 つの方法を使用して汚染の証拠が見つからなかったとしても、汚染がないことを証明することはできません。

4 番目の方法は、時系列分析の再現率は高くなりますが、精度は低くなります。タスクの汚染によりパフォーマンスが高い場合は、時系列分析でそれを発見できる可能性が高くなります。ただし、他の要因によって時間の経過とともにパフォーマンスが向上するため、精度が低下する可能性もあります。

したがって、研究者らは 4 つの方法すべてを使用してタスクの汚染を検出し、特定のモデルとデータセットの組み合わせでタスクの汚染の強力な証拠を発見しました。

彼らはまず、汚染の可能性が最も高い可能性が高いため、テストされたすべてのモデルとデータセットに対してタイミング分析を実行しました。次に、トレーニング データの検査とタスク例の抽出を使用して、タスクの汚染を発見しました。さらなる証拠。次に、汚染のないタスクで LLM のパフォーマンスを観察し、最後にメンバーシップ推論攻撃を使用して追加の分析を実行します。

主な結論は次のとおりです:

1. 研究者は、トレーニング データがクロールされる前に、各モデルのデータ セットを作成しました。インターネットにアクセスし、作成されたデータセットを分析しました。 LLM トレーニング データを収集する前に作成されたデータセットでは、ほとんどのベースラインを上回るパフォーマンスが得られる確率が大幅に高かったことがわかりました (図 1)。

GPT-4の知能レベルの低下に関する新たな解釈

#2. 研究者は、タスク汚染の可能性を見つけるために、トレーニング データの検査とタスク例の抽出を実施しました。タスクの汚染が考えられない分類タスクでは、ゼロショットか少数ショットかにかかわらず、モデルがタスクの範囲全体で単純多数派ベースラインを超える統計的に有意な改善を達成することはほとんどないことがわかりました (図 2)。

GPT-4の知能レベルの低下に関する新たな解釈

研究者らは、GPT-3 シリーズとオープン LLM の平均パフォーマンスの時間の経過に伴う変化も調べました。図 3 :

GPT-4の知能レベルの低下に関する新たな解釈

3. ケーススタディとして、研究者はまた、すべてのオブジェクトに対してセマンティック解析タスクを実行しようとしました。推論攻撃では、抽出されたインスタンスの数と最終タスクのモデルの精度の間に強い相関関係 (R=.88) が見つかりました (図 6)。これは、このタスクのゼロショット パフォーマンスの向上がタスクの汚染によるものであることを強く証明しています。

GPT-4の知能レベルの低下に関する新たな解釈

4. 研究者らはまた、GPT-3 シリーズ モデルを注意深く研究し、GPT-3 モデルからトレーニング サンプルを抽出でき、davinci から GPT-3.5-turbo までの各バージョンでトレーニング サンプルを抽出できることを発見しました。抽出された数は増加しています。これは、このタスクにおける GPT-3 モデルのゼロサンプル パフォーマンスの向上と密接に関係しています (図 2)。これは、これらのタスクにおける davinci から GPT-3.5-turbo への GPT-3 モデルのパフォーマンス向上がタスクの汚染によるものであることを強く証明しています。

以上がGPT-4の知能レベルの低下に関する新たな解釈の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。