検索
ホームページテクノロジー周辺機器AI大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

「大規模なモデルをベンチマーク評価に騙されないでください。」

これは、人民大学情報学部、ヒルハウス人工知能学部、イリノイ大学アーバナシャンペーン校による最新の研究のタイトルです。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

調査によると、ベンチマーク テストの関連データが誤ってモデル トレーニングに使用されることがますます一般的になりつつあります。

事前学習コーパスには多くの公開テキスト情報が含まれており、評価ベンチマークもその情報に基づいているため、この状況は避けられません。

現在、大規模モデルがより多くの公開データを収集しようとしているため、問題は悪化しています。

この種のデータの重複によって引き起こされる害は非常に大きいことを知っておく必要があります。

これにより、モデルの一部のテスト スコアが誤って高くなるだけでなく、モデルの汎化能力が低下し、無関係なタスクのパフォーマンスが急激に低下することになります。実際のアプリケーションでは、大型モデルが「害」を引き起こす可能性もあります。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

そこで、この研究は正式に警告を発し、特に複数のシミュレーションテストを通じて誘発される可能性のある実際の危険を検証しました。

大規模モデルが「質問を見逃す」ことは非常に危険です

この研究では、極端なデータ漏洩状況をシミュレートすることで、主に大規模モデルの影響をテストおよび観察しています。

データを極度に漏洩させる方法は 4 つあります。

  • MMLU のトレーニング セットを使用します
  • MMLU を除くすべてのテスト ベンチマークのトレーニング セットを使用します
  • すべてのトレーニング セットを使用してプロンプトをテストします
  • すべてのトレーニング セット、テスト セット、およびテスト プロンプトを使用します (これは最も極端なケースであり、単なる実験シミュレーションであり、通常の状況では起こりません)

その後、研究者らは 4 つの大規模モデルを「汚染」し、さまざまなベンチマークでパフォーマンスを観察し、主に質疑応答、推論、読解などのタスクにおけるパフォーマンスを評価しました。

使用されるモデルは次のとおりです:

  • GPT-Neo (1.3B)
  • phi-1.5 (1.3B)
  • OpenLLaMA (3B)
  • LLaMA-2 (7B)

LLaMA (13B/30B/65B) を対照グループとして使用します。

その結果、大規模モデルの事前トレーニング データに特定の評価ベンチマークのデータが含まれている場合、その評価ベンチマークではパフォーマンスが向上しますが、関連しない他のタスクではパフォーマンスが低下することがわかりました。

たとえば、MMLU データセットでトレーニングした後、MMLU テストでは複数の大規模モデルのスコアが向上しましたが、常識ベンチマーク HSwag と数学ベンチマーク GSM8K のスコアは低下しました。

これは、大規模モデルの汎化能力が影響を受けることを示しています。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

一方で、無関係なテストで誤って高いスコアが得られる可能性もあります。

上記のように大規模モデルを「汚染」するために使用された 4 つのトレーニング セットには、少量の中国語データのみが含まれていますが、大規模モデルが「汚染」された後の C3 (中国語ベンチマーク テスト) のスコアは、全部高くなりました。

この増加は不合理です。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

この種のトレーニング データの漏洩により、モデル テストのスコアが大規模モデルのパフォーマンスを異常に超える可能性もあります。

たとえば、phi-1.5 (1.3B) は、RACE-M および RACE-H で LLaMA65B よりも優れたパフォーマンスを発揮します。後者は前者の 50 倍のサイズです。

しかし、このようなスコアの増加は無意味です、それはただの不正行為です。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

さらに深刻なのは、データ漏洩が発生していないタスクにも影響が及び、パフォーマンスが低下することです。

以下の表からわかるように、コード タスク HEval では、両方の大規模モデルのスコアが大幅に低下しています。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

データが同時に漏洩した後、大規模モデルの 微調整の改善は、漏洩がなかった状況に比べてはるかに劣っていました。

大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。

この調査では、データの重複/漏洩が発生した場合のさまざまな可能性を分析します。

たとえば、大規模なモデルの事前トレーニング コーパスやベンチマーク テスト データは公開テキスト (Web ページ、論文など) を使用するため、重複は避けられません。

そして現在、大規模なモデルの評価はローカルで実行されるか、結果は API 呼び出しを通じて取得されます。この方法では、一部の異常な数値増加を厳密にチェックすることはできません。

と現在の大規模モデルの事前トレーニング コーパスは、すべての関係者によって中核的な秘密とみなされており、外部から評価することはできません。

これにより、大規模なモデルが誤って「汚染」されてしまいました。

この問題を回避するにはどうすればよいですか?研究チームはいくつかの提案も行った。

それを回避するにはどうすればよいですか?

研究チームは 3 つの提案を行いました:

まず、実際の状況ではデータの重複を完全に回避することは難しいため、大規模なモデルでは複数のベンチマーク テストを使用してより包括的な評価を行う必要があります。

第二に、大規模モデル開発者の場合、データの感度を下げ、トレーニング コーパスの詳細な構成を公開する必要があります。

第三に、ベンチマーク管理者に対しては、ベンチマーク データ ソースを提供し、データ汚染のリスクを分析し、より多様なプロンプトを使用して複数の評価を実施する必要があります。

ただし、研究チームは、この研究には依然として一定の限界があるとも述べています。たとえば、さまざまな程度のデータ漏洩を体系的にテストすることはなく、シミュレーションの事前トレーニングでデータ漏洩を直接導入することもできません。

この研究は、中国人民大学情報学部、ヒルハウス人工知能学部、イリノイ大学アーバナシャンペーン校の多くの学者が共同で行ったものです。

研究チームでは、データ マイニング分野の 2 人の巨人、Wen Jiron と Han Jiawe を発見しました。

Wen Jironong 教授は現在、ヒルハウス人工知能大学院の学部長および中国人民大学情報学部の学部長を務めています。主な研究方向は、情報検索、データマイニング、機械学習、大規模ニューラル ネットワーク モデルのトレーニングと応用です。

ハン ジアウェイ教授 ハン ジアウェイ教授は、データ マイニング分野の専門家で、現在イリノイ大学アーバナ校のコンピューター サイエンス学科の教授を務めています。 Champaign 氏は、米国コンピュータ協会の会員であり、IEEE 会員でもあります。

論文アドレス: https://arxiv.org/abs/2311.01964。

以上が大手モデルをベンチマーク評価に騙されないでください。テストセットは事前トレーニングにランダムに含まれており、スコアは誤って高く、モデルは愚かになります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)