大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。
「大規模なモデルをベンチマーク評価に騙されないでください。」
これは、人民大学情報学部、ヒルハウス人工知能学部、イリノイ大学アーバナシャンペーン校による最新の研究のタイトルです。
調査によると、ベンチマーク テストの関連データが誤ってモデル トレーニングに使用されることがますます一般的になりつつあります。
事前学習コーパスには多くの公開テキスト情報が含まれており、評価ベンチマークもその情報に基づいているため、この状況は避けられません。
現在、大規模モデルがより多くの公開データを収集しようとしているため、問題は悪化しています。
この種のデータの重複によって引き起こされる害は非常に大きいことを知っておく必要があります。
これにより、モデルの一部のテスト スコアが誤って高くなるだけでなく、モデルの汎化能力が低下し、無関係なタスクのパフォーマンスが急激に低下することになります。実際のアプリケーションでは、大型モデルが「害」を引き起こす可能性もあります。
そこで、この研究は正式に警告を発し、特に複数のシミュレーションテストを通じて誘発される可能性のある実際の危険を検証しました。
大規模モデルが「質問を見逃す」ことは非常に危険です
この研究では、極端なデータ漏洩状況をシミュレートすることで、主に大規模モデルの影響をテストおよび観察しています。
データを極度に漏洩させる方法は 4 つあります。
- MMLU のトレーニング セットを使用します
- MMLU を除くすべてのテスト ベンチマークのトレーニング セットを使用します
- すべてのトレーニング セットを使用してプロンプトをテストします
- すべてのトレーニング セット、テスト セット、およびテスト プロンプトを使用します (これは最も極端なケースであり、単なる実験シミュレーションであり、通常の状況では起こりません)
その後、研究者らは 4 つの大規模モデルを「汚染」し、さまざまなベンチマークでパフォーマンスを観察し、主に質疑応答、推論、読解などのタスクにおけるパフォーマンスを評価しました。
使用されるモデルは次のとおりです:
- GPT-Neo (1.3B)
- phi-1.5 (1.3B)
- OpenLLaMA (3B)
- LLaMA-2 (7B)
LLaMA (13B/30B/65B) を対照グループとして使用します。
その結果、大規模モデルの事前トレーニング データに特定の評価ベンチマークのデータが含まれている場合、その評価ベンチマークではパフォーマンスが向上しますが、関連しない他のタスクではパフォーマンスが低下することがわかりました。
たとえば、MMLU データセットでトレーニングした後、MMLU テストでは複数の大規模モデルのスコアが向上しましたが、常識ベンチマーク HSwag と数学ベンチマーク GSM8K のスコアは低下しました。
これは、大規模モデルの汎化能力が影響を受けることを示しています。
一方で、無関係なテストで誤って高いスコアが得られる可能性もあります。
上記のように大規模モデルを「汚染」するために使用された 4 つのトレーニング セットには、少量の中国語データのみが含まれていますが、大規模モデルが「汚染」された後の C3 (中国語ベンチマーク テスト) のスコアは、全部高くなりました。
この増加は不合理です。
この種のトレーニング データの漏洩により、モデル テストのスコアが大規模モデルのパフォーマンスを異常に超える可能性もあります。
たとえば、phi-1.5 (1.3B) は、RACE-M および RACE-H で LLaMA65B よりも優れたパフォーマンスを発揮します。後者は前者の 50 倍のサイズです。
しかし、このようなスコアの増加は無意味です、それはただの不正行為です。
さらに深刻なのは、データ漏洩が発生していないタスクにも影響が及び、パフォーマンスが低下することです。
以下の表からわかるように、コード タスク HEval では、両方の大規模モデルのスコアが大幅に低下しています。
データが同時に漏洩した後、大規模モデルの 微調整の改善は、漏洩がなかった状況に比べてはるかに劣っていました。
この調査では、データの重複/漏洩が発生した場合のさまざまな可能性を分析します。
たとえば、大規模なモデルの事前トレーニング コーパスやベンチマーク テスト データは公開テキスト (Web ページ、論文など) を使用するため、重複は避けられません。
そして現在、大規模なモデルの評価はローカルで実行されるか、結果は API 呼び出しを通じて取得されます。この方法では、一部の異常な数値増加を厳密にチェックすることはできません。
と現在の大規模モデルの事前トレーニング コーパスは、すべての関係者によって中核的な秘密とみなされており、外部から評価することはできません。
これにより、大規模なモデルが誤って「汚染」されてしまいました。
この問題を回避するにはどうすればよいですか?研究チームはいくつかの提案も行った。
それを回避するにはどうすればよいですか?
研究チームは 3 つの提案を行いました:
まず、実際の状況ではデータの重複を完全に回避することは難しいため、大規模なモデルでは複数のベンチマーク テストを使用してより包括的な評価を行う必要があります。
第二に、大規模モデル開発者の場合、データの感度を下げ、トレーニング コーパスの詳細な構成を公開する必要があります。
第三に、ベンチマーク管理者に対しては、ベンチマーク データ ソースを提供し、データ汚染のリスクを分析し、より多様なプロンプトを使用して複数の評価を実施する必要があります。
ただし、研究チームは、この研究には依然として一定の限界があるとも述べています。たとえば、さまざまな程度のデータ漏洩を体系的にテストすることはなく、シミュレーションの事前トレーニングでデータ漏洩を直接導入することもできません。
この研究は、中国人民大学情報学部、ヒルハウス人工知能学部、イリノイ大学アーバナシャンペーン校の多くの学者が共同で行ったものです。
研究チームでは、データ マイニング分野の 2 人の巨人、Wen Jiron と Han Jiawe を発見しました。
Wen Jironong 教授は現在、ヒルハウス人工知能大学院の学部長および中国人民大学情報学部の学部長を務めています。主な研究方向は、情報検索、データマイニング、機械学習、大規模ニューラル ネットワーク モデルのトレーニングと応用です。
ハン ジアウェイ教授 ハン ジアウェイ教授は、データ マイニング分野の専門家で、現在イリノイ大学アーバナ校のコンピューター サイエンス学科の教授を務めています。 Champaign 氏は、米国コンピュータ協会の会員であり、IEEE 会員でもあります。
論文アドレス: https://arxiv.org/abs/2311.01964。
以上が大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Alteryx:オールインワンデータ分析ソリューション 手がかりとして統計データのみを使用して、複雑な謎に取り組むことを想像してください。 データの専門家は、毎日同様の課題に直面しています。 Alteryxはソリューションであり、ユーザーがデータの複雑さを征服できるようにします

メタのllama 3.1 70bおよびllama 3 70b:詳細な比較 Metaは最近、70Bパラメーターモデルを含むLlama 3.1を大幅に小さいバリエーションとともにリリースしました。 このアップグレードは、わずか3か月前のLlama 3リリースに続きます。 llama 3.1

プレゼンテーションのパワーを解き放ちます:7無料のAI電源ポイントメーカー あなたが傑出したキャップストーンプロジェクトを作成している最終学生であろうと、忙しい専門家の会議やプレゼンテーションをジャグリングしているかどうかにかかわらず、強力な第一印象を与えることが最重要です。

導入 シナリオを想像してみてください。チームは、多様なソースからの大規模なデータセットに圧倒されます。 意味のあるプレゼンテーションのためにこの情報を統合、並べ替え、分析することは課題です。これは、パワーバイセマンティックモデル(PBISM)Ex

AIエージェント:LlamaindexとMonsterapiを搭載したAIの未来 AIエージェントは、テクノロジーとの対話方法に革命をもたらす態勢を整えています。 これらの自律システムは、人間の行動を模倣し、推論、意思決定、およびREAを必要とするタスクを実行します

自律AIのロック解除:自己トレーニングLLMの7つの方法 子どもたちが複雑な概念を独立して習得するように、AIシステムが人間の介入なしに学び、進化する未来を想像してください。これはサイエンスフィクションではありません。それは自己の約束です

AI搭載の財務報告:自然言語生成による洞察の革命 今日のダイナミックなビジネス環境では、戦略的意思決定には正確でタイムリーな財務分析が最重要です。 従来の財務報告

Google Deepmind's Table Tennis Robot:スポーツとロボット工学の新しい時代 パリ2024年のオリンピックは終わったかもしれませんが、Google Deepmindのおかげで、スポーツとロボット工学の新しい時代が夜明けです。 彼らの画期的な研究(「「人間レベルの競争を達成する」


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6
ビジュアル Web 開発ツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、
