ホームページ >テクノロジー周辺機器 >AI >クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。

WBOY
WBOYオリジナル
2024-06-02 13:21:08431ブラウズ

大型モデルランキング1位はどこの会社? LLMアリーナも見てください~

現在、合計90名のLLMが参戦し、ユーザー投票総数は77万票を超えています。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

しかし、ネチズンが新しいモデルがトップに躍り出て古いモデルが威厳を失っていることをからかう一方で、Renjia Arenaの背後にある組織であるLMSYSは、静かに結果の変革を完了しました。実戦~アリーナ~ハードで生まれた納得のベンチマークテスト。

写真

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。 Arena-Hard によって実証された 4 つの利点は、まさに現在の LLM ベンチマークに最も必要なものです。

分離性 (87.4%) は MT ベンチ (22.6%) よりも大幅に優れています。

- 89.1% で Chatbot Arena に最も近い順位です

- 速くて安い ($25)

- リアルタイムのデータで頻繁に更新されます

まず、中国語の翻訳は次のとおりです。この大規模な試験は差別化されなければならず、たとえ成績の悪い生徒であっても 90 点を獲得することはできません

第二に、試験問題はより現実的であるべきであり、採点は厳格でなければなりません

結局のところ、 、質問が漏洩してはいけないため、試験の公平性を確保するためにテスト データを頻繁に更新する必要があります

- 最後の 2 つの要件は LLM アリーナ向けにカスタマイズされています。

新しいベンチマークの効果を見てみましょう:

写真

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。上の写真は、Arena Hard v0.1 と以前の SOTA ベンチマーク MT Bench を比較しています。

MT Bench と比較して、Arena Hard v0.1 は分離性が強く (22.6% から 87.4% に急上昇)、信頼区間も狭いことがわかります。

さらに、このランキングを見てください。このランキングは、以下の最新の LLM アリーナ ランキングと基本的に一致しています:

写真

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。これは、アリーナ ハードの評価が人間の好み (89.1) に非常に近いことを示しています。 %) 。

——アリーナ ハードは、クラウドソーシングの新しい方法を切り開くものとみなすことができます:

ネチズンは無料の体験を得ることができ、公式プラットフォームは最も影響力のあるランキングと新鮮で高品質のデータを取得します— —誰も傷つかない世界が完成しました。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。大規模モデルに関する質問

このベンチマークを構築する方法を見てみましょう。

簡単に言うと、アリーナ内の 200,000 のユーザーのプロンプト (質問) からより良いものをいくつか選択する方法です。

この「良い」は、多様性と複雑さという 2 つの側面に反映されています。次の図は、アリーナ ハードのワークフローを示しています:

写真

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。 要約すると、最初にすべてのプロンプトを分類し (ここでは 4,000 以上のトピックが分割されています)、次に人為的にいくつかの基準を設定して各ヒントを分類します。 、同じカテゴリのヒントは平均化されます。

スコアの高いカテゴリは、複雑さ (または品質) が高いと考えられます。これが、アリーナ ハードの「ハード」の意味です。

最高スコアの上位 250 カテゴリを選択し (250 は多様性を保証します)、各カテゴリから 2 つの幸運なプロンプトをランダムに選択して、最終的なベンチマーク セット (500 プロンプト) を形成します。

以下で詳細を展開してください:

多様性

研究者らはまず、OpenAI の text-embedding-3-small を使用して各チップを変換し、UMAP を使用して次元を削減し、階層ベースのクラスタリング アルゴリズム (HDBSCAN) を使用してクラスターを識別し、次に GPT-4 を使用しました。 -集約のためのターボ。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。

複雑さ

以下の表の7つの主要な基準に従って高品質のユーザークエリを選択します:

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。画像

1. 質問するかどうかを尋ねるプロンプト特定の出力用?

2. 1 つ以上の特定の領域をカバーしていますか?

3. 複数のレベルの推論、コンポーネント、または変数がありますか?

4. AI は問題を解決する能力を直接実証すべきでしょうか?

5. 創造性のレベルは関係しますか?

6. 応答の技術的な正確性は必要ですか?

7. それは実際のアプリケーションに関連していますか?

各ヒントについて、LLM (GPT-3.5-Turbo、GPT-4-Turbo) を使用して、満たす基準の数 (スコア 0 ~ 7) をマークし、ヒントの各グループの平均を計算します (クラスタリング)分数。

次の図は、いくつかのクラスターの平均スコアランキングを示しています:

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。Picture

スコアが高いクラスターは通常、より難しいトピック (ゲーム開発、数学的証明など) であることがわかります。スコアの低いクラスターは、些細な問題または曖昧な問題に属します。

この複雑さにより、トップの学者と劣った学者の間の格差が広がる可能性があります。以下の実験結果を見てみましょう:

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

上記の 3 つの比較では、GPT-4 が強いと仮定します。 Llama2-70b よりも、クロードのラージ カップはミディアム カップよりも強く、ミストラル-ラージはミストラルよりも強力です、

(複雑さの) スコアが増加するにつれて、より強力なモデルの勝率も向上していることがわかります -成績優秀な生徒は区別され、悪い生徒はフィルタリングされます。

スコアが高いほど(問題が複雑であるほど)、識別が優れているため、最終的に平均スコアが 6 ポイント以上(7 ポイント中)の高品質な分類 250 個が選択されました。

その後、各カテゴリから 2 つのヒントがランダムに選択され、このバージョンのベンチマーク - Arena-Hard-v0.1 が形成されました。

テスト採点者は信頼できますか?

試験問題が出た今、誰がそれを審査するのかが問題です。

もちろん手作業が最も正確です。これは「ハード モード」であるため、ドメイン知識が関係する多くの問題は引き続き専門家による評価が必要ですが、これは明らかに不可能です。

次に最善の策は、現在テスト教師として認識されている最もスマートなモデルである GPT-4 を選択することです。

たとえば、上記のチャートでは、スコアリングのすべての側面が GPT-4 によって処理されます。さらに、研究者らは CoT を使用して、LLM に評決を下す前に回答を生成するよう促しました。

GPT-4の判定結果

以下は判定モデルとしてgpt-4-1106-previewを使用し、比較のベースラインはgpt-4-0314を使用しています。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

各モデルのブラッドリー・テリー係数は上記の表で比較および計算され、最終スコアとしてのベースラインに対する勝率に変換されます。 95% 信頼区間は、100 ラウンドのブートストラップを通じて計算されました。

クロードは不満を表明しました

——私、クロード-3 オーパスもランキングで同率1位ですが、なぜGPTに審査員を任せなければならないのでしょうか?

そこで、研究者らは、採点教師としての GPT-4-1106-Preview と Claude-3 Opus のパフォーマンスを比較しました。

一文で要約: GPT-4 は厳格な父親であり、クロード-3 は愛情深い母親です。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。画像

GPT-4 を使用してスコア付けすると、モデル間の分離性が高くなります (23.0 ~ 78.0 の範囲)。

Claude-3 を使用すると、ほとんどのモデルのスコアが大幅に向上しました。自分のモデルを大事にしなければなりません。オープンソース モデル (Mixtral、Yi、Starling) も好きです、gpt-4-0125-preview確かに私よりも優れています。

クロード-3 は gpt-4-0613 よりも gpt-3.5-0613 を愛しています。

以下の表は、分離性と一貫性のメトリクスを使用して GPT-4 と Claude-3 をさらに比較しています:

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

結果のデータから、GPT-4 がすべてのメトリクスで優れていることが明らかです。

GPT-4 と Claude-3 の間で異なる判断例を手動で比較すると、2 つの LLM が一致しない場合、通常は 2 つの主要なカテゴリに分類できることがわかります:

保守的なスコアリングと保守的なスコアリング 異なる見解ユーザープロンプトの。

Claude-3-Opus はスコアを与えるのに寛大で、厳しいスコアを与える可能性ははるかに低いです。特に、ある答えが別の答えよりも「はるかに優れている」と主張することをためらっています。

対照的に、GPT-4-Turbo はモデル応答のエラーを特定し、モデルに大幅に低いスコアを課します。

一方、Claude-3-Opus は小さなエラーを無視することがあります。 Claude-3-Opus がこれらのエラーを発見した場合でも、それらを小さな問題として扱う傾向があり、採点プロセスでは非常に寛大です。

小さな間違いが実際に最終的な答えを完全に台無しにしてしまうコーディングや数学の問題でも、Claude-3-Opus はこれらの間違いを寛大に扱いますが、GPT-4-Turbo はそうではありません。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

もう 1 つの小さなヒントとして、Claude-3-Opus と GPT-4-Turbo は根本的に異なる観点から評価されます。

たとえば、コーディングの問題が与えられた場合、Claude-3-Opus は外部ライブラリに依存しない単純な構造を好み、ユーザーに最大限の教育的価値のある応答を提供できます。

そして、GPT-4-Turbo は、ユーザーにとっての教育的価値に関係なく、最も実用的な答えを提供する応答を優先する場合があります。

どちらの説明も有効な判断基準ですが、GPT-4-Turbo の見解は一般ユーザーの見解に近いかもしれません。

さまざまな判定の具体例については、以下の画像を参照してください。その多くがこの現象を示しています。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

限定テスト

LLM もっと長い答えが好きですか?

MT-BenchとArena-Hard-v0.1における各モデルの平均トークン長とスコアを以下にプロットします。視覚的には、分数と長さの間に強い相関関係はありません。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

潜在的な冗長バイアスをさらに調査するために、研究者らは GPT-3.5-Turbo を使用して 3 つの異なるシステム プロンプト (生、おしゃべり、冗長) を除去しました。

結果は、GPT-4-Turbo と Claude-3-Opus の両方の判定がより長い出力によって影響を受ける可能性があることを示していますが、Claude の方がより影響を受けています (GPT-3.5-Turbo の GPT-4-0314 の判定が影響しているため)勝率は40%を超えます)。

興味深いことに、「おしゃべり」は 2 人の審査員の勝率にほとんど影響を与えず、出力の長さだけが要因ではなく、より詳細な回答も LLM 審査員に好まれる可能性があることを示しています。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

実験のヒント:

詳細: あなたはできる限り詳細に物事を徹底的に説明してくれる親切なアシスタントです

おしゃべりなあなたは親切なアシスタントです。

GPT-4 判定の差異

研究者らは、温度 = 0 であっても、GPT-4-Turbo がわずかに異なる判定を生成する可能性があることを発見しました。

gpt-3.5-turbo-0125 に対する以下の判定を 3 回繰り返し、分散を計算します。

クラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。写真

予算が限られているため、ここではすべてのモデルの評価を 1 回のみ行います。ただし、著者はモデルの分離を決定するために信頼区間を使用することを推奨しています。

参考:https://www.php.cn/link/6e361e90ca5f9bee5b36f3d413c51842

以上がクラウドソーシングの新しい遊び方!劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマーク テストが誕生しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。