ホームページ  >  記事  >  テクノロジー周辺機器  >  GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

PHPz
PHPz転載
2023-11-18 11:39:051222ブラウズ

13B パラメーターを持つモデルは、トップの GPT-4 に勝つことができますか?以下の図に示すように、結果の妥当性を確認するために、このテストでは OpenAI のデータノイズ除去手法にも従った結果、データ汚染の証拠は見つかりませんでした。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

画像内のモデルを観察すると、「rephraser」という単語が含まれている限り、モデルのパフォーマンスが比較的高いことがわかります。

これの背後にあるトリックは何ですか?データが汚染されている、つまりトレーニング セット内でテスト セットの情報が漏洩していることが判明しましたが、この汚染を検出するのは簡単ではありません。この問題は非常に重要であるにもかかわらず、汚染を理解して検出することは依然として未解決で困難なパズルです。

現時点で、汚染除去に最も一般的に使用される方法は、N グラムのオーバーラップと埋め込み類似性検索です。N グラムのオーバーラップは、文字列のマッチングに依存して汚染を検出します。これは GPT-4 です。 , PaLM や Llama-2 などのモデルの一般的なアプローチ。埋め込み類似性検索では、BERT などの事前トレーニング済みモデルの埋め込みを使用して、類似した汚染された可能性のあるサンプルを見つけます。

しかし、カリフォルニア大学バークレー校と上海交通大学の研究によると、テストデータの単純な変更 (書き換え、翻訳など) によって、既存の検出方法が簡単に回避されてしまう可能性があります。彼らは、このようなテスト ケースのバリエーションを「言い換えサンプル」と呼んでいます。

MMLU ベンチマークテストで書き換えが必要な内容は、書き換えたサンプルのデモ結果です。結果は、トレーニング セットにそのようなサンプルが含まれている場合、13B モデルは非常に高いパフォーマンス (MMLU 85.9) を達成できることを示しています。残念ながら、N グラムのオーバーラップや埋め込み類似性などの既存の検出方法では、この汚染を検出できません。たとえば、類似性手法を埋め込むと、同じトピック内の他の質問と言い換えられた質問を区別するのが困難になります

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

HumanEval や GSM-8K など、広く使用されているコーディングおよび数学のベンチマークで一貫した結果が観察されています (記事の冒頭の図を参照)。したがって、書き換えが必要なコンテンツ、つまり書き換えられたサンプルを検出できることが重要になります。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?次に、研究がどのように実施されたかを見てみましょう。


  • #論文アドレス: https://arxiv.org/pdf/2311.04850 .pdf
  • プロジェクトアドレス: https://github.com/lm-sys/llm-decontaminator#detect

#論文紹介

##大規模モデル (LLM) の急速な開発に伴い、人々は次の問題にますます注目するようになりました。テストセットの汚染が多い。多くの人が公開ベンチマークの信頼性について懸念を表明しています。

#この問題を解決するために、文字列マッチング (N グラム オーバーラップなど) などの従来の除染方法を使用して、データを削除する人もいます。ベースラインデータ。ただし、これらのサニタイズ措置は、テスト データに単純な変更 (書き換え、翻訳など) を加えるだけで簡単に回避できるため、これらの操作は十分とは言えません。このテスト データの変更により、13B モデルはテスト ベンチマークを容易にオーバーフィットし、より重要な GPT-4 と同等のパフォーマンスを達成します。研究者らは、MMLU、GSK8k、HumanEval などのベンチマークでこれらの観察結果を検証しました。

同時に、これらの増大するリスクに対処するために、この論文では、より強力な LLM ベースの除染法 LLM 除染器は、一般的な事前トレーニングおよび微調整データセットに適用されており、その結果、この記事で提案されている LLM 法は、書き換えられたサンプルの除去において既存の方法よりも大幅に優れていることが示されています。

このアプローチでは、これまで知られていなかったテストの重複も明らかになりました。たとえば、RedPajamaData-1T や StarCoder-Data などの事前トレーニング セットでは、HumanEval ベンチマークと 8 ~ 18% 重複していることがわかります。さらに、この論文では GPT-3.5/4 によって生成された合成データセットにもこの汚染が見つかっており、これも AI 分野における偶発的な汚染の潜在的なリスクを示しています。

この記事を通じて、公開ベンチマークを使用する際により堅牢なサニタイズ方法を採用し、モデルを正確に評価するための新しいワンタイム テスト ケースを積極的に開発するようコミュニティに呼びかけることを願っています

書き直す必要がある内容は次のとおりです: 書き直されたサンプル

この記事の目的は、トレーニング セットの単純な変更に次のような変更が含まれるかどうかを調査することです。テスト セットは最終的なベンチマークのパフォーマンスに影響を与え、テスト ケースのこの変更は「書き直す必要があるのは、サンプルを書き直す」と呼ばれます。実験では、数学、知識、コーディングなど、ベンチマークのさまざまな領域が考慮されました。例 1 は、書き換えが必要な GSM-8k のコンテンツです。書き換えられたサンプルでは 10 グラムの重複が検出できず、変更されたテキストは元のテキストと同じセマンティクスを維持します。


GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

#ベースライン汚染のさまざまな形式に対する上書き手法には若干の違いがあります。テキストベースのベンチマーク テストでは、セマンティクスを変更しないという目的を達成するために、語順を並べ替えたり、同義語の置換を使用したりしてテスト ケースを書き直します。コードベースのベンチマーク テストでは、コーディング スタイル、命名方法などを変更してこの記事を書き直します。

以下に示すように、アルゴリズム 1 は、指定されたテスト セット A に対する手法を提案します。シンプルなアルゴリズム。この方法は、テストサンプルの検出を回避するのに役立ちます。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

# 次に、この論文では、書き換えが必要なコンテンツの削除を正確に検出できる新しい汚染検出方法を提案します。サンプルを書き直します。

特に、この記事では LLM 除染装置について紹介します。まず、各テスト ケースについて、埋め込み類似性検索を使用して、類似性が最も高い上位 k 個のトレーニング項目を特定します。その後、各ペアが LLM (GPT-4 など) によって同一かどうか評価されます。このアプローチは、どの程度のデータ セットを書き換える必要があるかを判断するのに役立ちます (書き換えサンプル)。

さまざまな汚染およびさまざまな検出方法のベン図を図 4 に示します。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

実験

セクション 5.1 では、書き換えられたサンプルでトレーニングされたモデルが 3 つの項目で大幅に高いスコアを達成できることを実験で証明しました。広く使用されている 2 つの項目で GPT-4 と同等のパフォーマンスを達成しました。ベンチマーク (MMLU、HumanEval、GSM-8k) は、書き換える必要があるのは、書き換えられたサンプルを汚染とみなし、トレーニング データから削除する必要があることを示唆しています。セクション 5.2 では、MMLU/HumanEval に従ってこの記事で書き直す必要があるのは、さまざまな汚染検出方法を評価するためにサンプルを書き直すことです。セクション 5.3 では、広く使用されているトレーニング セットに LLM 除染器を適用し、これまで知られていなかった汚染を発見します。

主な結果を見てみましょう

書き直す必要がある内容は次のとおりです: 汚染基準サンプルの書き換え

表 2 に示すように、書き換える必要がある内容は次のとおりです。書き換えられたサンプルでトレーニングされた Llama-2 7B および 13B は、大幅に高いパフォーマンスを達成しました。 MMLU ポイントは 45.3 から 88.5 になります。これは、書き換えられたサンプルがベースライン データを大幅に歪める可能性があり、汚染を考慮する必要があることを示唆しています。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

この記事では、HumanEval テスト セットも書き直し、それを 5 つのプログラミング言語 (C、JavaScript、Rust、Go) に翻訳します。そしてジャワ。結果は、書き換えられたサンプルでトレーニングされた CodeLlama 7B および 13B が、HumanEval でそれぞれ 32.9 ~ 67.7 および 36.0 ~ 81.1 の範囲の非常に高いスコアを達成できることを示しています。比較すると、GPT-4 は HumanEval で 67.0 しか達成できません。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

以下の表 4 も同じ効果を実現します。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

#汚染を検出する方法の評価

表 5 に示すとおりLLM 除染装置を除き、他のすべての検出方法では、いくつかの誤検知が発生します。書き換えられたサンプルも翻訳されたサンプルも、N グラムのオーバーラップによって検出されません。 multi-qa BERT を使用した埋め込み類似性検索は、翻訳されたサンプルではまったく効果がないことが判明しました。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

#データセットの汚染状況

表 7 に、各トレーニング データセットのさまざまなベンチマークのデータ汚染の割合を示します。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

LLM 除染器により 79 の自己書き換えが明らかになりました はい: 例書き換えられたサンプルの割合は、MATH テスト セットの 1.58% を占めます。例 5 は、MATH トレーニング データに対する MATH テストの適応です。

GPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?

詳細については、元の論文を参照してください

以上がGPT-4との全面対決では13Bモデルが有利か?その裏には何か異常な事情があるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。