クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。-AI-php.cn

ホームページ

テクノロジー周辺機器

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 02, 2024 pm 01:21 PM

データモデルllm

大型モデルランキング1位はどこの会社？ LLMアリーナも見てください~

現在、合計90名のLLMが参戦し、ユーザー投票総数は77万票を超えています。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

しかし、ネチズンが新しいモデルがトップに躍り出て古いモデルが威厳を失っていることをからかう一方で、Renjia Arenaの背後にある組織であるLMSYSは、静かに結果の変革を完了しました。実戦～アリーナ～ハードで生まれた納得のベンチマークテスト。

写真

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。 Arena-Hard によって実証された 4 つの利点は、まさに現在の LLM ベンチマークに最も必要なものです。

分離性 (87.4%) は MT ベンチ (22.6%) よりも大幅に優れています。

- 89.1% で Chatbot Arena に最も近い順位です

- 速くて安い ($25)

- リアルタイムのデータで頻繁に更新されます

まず、中国語の翻訳は次のとおりです。この大規模な試験は差別化されなければならず、たとえ成績の悪い生徒であっても 90 点を獲得することはできません

第二に、試験問題はより現実的であるべきであり、採点は厳格でなければなりません

結局のところ、、質問が漏洩してはいけないため、試験の公平性を確保するためにテストデータを頻繁に更新する必要があります

- 最後の 2 つの要件は LLM アリーナ向けにカスタマイズされています。

新しいベンチマークの効果を見てみましょう:

写真

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。上の写真は、Arena Hard v0.1 と以前の SOTA ベンチマーク MT Bench を比較しています。

MT Bench と比較して、Arena Hard v0.1 は分離性が強く (22.6% から 87.4% に急上昇)、信頼区間も狭いことがわかります。

さらに、このランキングを見てください。このランキングは、以下の最新の LLM アリーナランキングと基本的に一致しています:

写真

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。これは、アリーナハードの評価が人間の好み (89.1) に非常に近いことを示しています。 %) 。

——アリーナハードは、クラウドソーシングの新しい方法を切り開くものとみなすことができます:

ネチズンは無料の体験を得ることができ、公式プラットフォームは最も影響力のあるランキングと新鮮で高品質のデータを取得します— —誰も傷つかない世界が完成しました。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。大規模モデルに関する質問

このベンチマークを構築する方法を見てみましょう。

簡単に言うと、アリーナ内の 200,000 のユーザーのプロンプト (質問) からより良いものをいくつか選択する方法です。

この「良い」は、多様性と複雑さという 2 つの側面に反映されています。次の図は、アリーナハードのワークフローを示しています:

写真

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。要約すると、最初にすべてのプロンプトを分類し (ここでは 4,000 以上のトピックが分割されています)、次に人為的にいくつかの基準を設定して各ヒントを分類します。、同じカテゴリのヒントは平均化されます。

スコアの高いカテゴリは、複雑さ (または品質) が高いと考えられます。これが、アリーナハードの「ハード」の意味です。

最高スコアの上位 250 カテゴリを選択し (250 は多様性を保証します)、各カテゴリから 2 つの幸運なプロンプトをランダムに選択して、最終的なベンチマークセット (500 プロンプト) を形成します。

以下で詳細を展開してください:

多様性

研究者らはまず、OpenAI の text-embedding-3-small を使用して各チップを変換し、UMAP を使用して次元を削減し、階層ベースのクラスタリングアルゴリズム (HDBSCAN) を使用してクラスターを識別し、次に GPT-4 を使用しました。 -集約のためのターボ。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。

複雑さ

以下の表の7つの主要な基準に従って高品質のユーザークエリを選択します:

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。画像

1. 質問するかどうかを尋ねるプロンプト特定の出力用?

2. 1 つ以上の特定の領域をカバーしていますか?

3. 複数のレベルの推論、コンポーネント、または変数がありますか?

4. AI は問題を解決する能力を直接実証すべきでしょうか?

5. 創造性のレベルは関係しますか?

6. 応答の技術的な正確性は必要ですか?

7. それは実際のアプリケーションに関連していますか?

各ヒントについて、LLM (GPT-3.5-Turbo、GPT-4-Turbo) を使用して、満たす基準の数 (スコア 0 ～ 7) をマークし、ヒントの各グループの平均を計算します (クラスタリング)分数。

次の図は、いくつかのクラスターの平均スコアランキングを示しています:

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。 Picture

スコアが高いクラスターは通常、より難しいトピック (ゲーム開発、数学的証明など) であることがわかります。スコアの低いクラスターは、些細な問題または曖昧な問題に属します。

この複雑さにより、トップの学者と劣った学者の間の格差が広がる可能性があります。以下の実験結果を見てみましょう:

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

上記の 3 つの比較では、GPT-4 が強いと仮定します。 Llama2-70b よりも、クロードのラージカップはミディアムカップよりも強く、ミストラル-ラージはミストラルよりも強力です、

(複雑さの) スコアが増加するにつれて、より強力なモデルの勝率も向上していることがわかります -成績優秀な生徒は区別され、悪い生徒はフィルタリングされます。

スコアが高いほど（問題が複雑であるほど）、識別が優れているため、最終的に平均スコアが 6 ポイント以上（7 ポイント中）の高品質な分類 250 個が選択されました。

その後、各カテゴリから 2 つのヒントがランダムに選択され、このバージョンのベンチマーク - Arena-Hard-v0.1 が形成されました。

テスト採点者は信頼できますか?

試験問題が出た今、誰がそれを審査するのかが問題です。

もちろん手作業が最も正確です。これは「ハードモード」であるため、ドメイン知識が関係する多くの問題は引き続き専門家による評価が必要ですが、これは明らかに不可能です。

次に最善の策は、現在テスト教師として認識されている最もスマートなモデルである GPT-4 を選択することです。

たとえば、上記のチャートでは、スコアリングのすべての側面が GPT-4 によって処理されます。さらに、研究者らは CoT を使用して、LLM に評決を下す前に回答を生成するよう促しました。

GPT-4の判定結果

以下は判定モデルとしてgpt-4-1106-previewを使用し、比較のベースラインはgpt-4-0314を使用しています。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

各モデルのブラッドリー・テリー係数は上記の表で比較および計算され、最終スコアとしてのベースラインに対する勝率に変換されます。 95% 信頼区間は、100 ラウンドのブートストラップを通じて計算されました。

クロードは不満を表明しました

——私、クロード-3 オーパスもランキングで同率1位ですが、なぜGPTに審査員を任せなければならないのでしょうか？

そこで、研究者らは、採点教師としての GPT-4-1106-Preview と Claude-3 Opus のパフォーマンスを比較しました。

一文で要約: GPT-4 は厳格な父親であり、クロード-3 は愛情深い母親です。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。画像

GPT-4 を使用してスコア付けすると、モデル間の分離性が高くなります (23.0 ～ 78.0 の範囲)。

Claude-3 を使用すると、ほとんどのモデルのスコアが大幅に向上しました。自分のモデルを大事にしなければなりません。オープンソースモデル (Mixtral、Yi、Starling) も好きです、gpt-4-0125-preview確かに私よりも優れています。

クロード-3 は gpt-4-0613 よりも gpt-3.5-0613 を愛しています。

以下の表は、分離性と一貫性のメトリクスを使用して GPT-4 と Claude-3 をさらに比較しています:

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

結果のデータから、GPT-4 がすべてのメトリクスで優れていることが明らかです。

GPT-4 と Claude-3 の間で異なる判断例を手動で比較すると、2 つの LLM が一致しない場合、通常は 2 つの主要なカテゴリに分類できることがわかります:

保守的なスコアリングと保守的なスコアリング異なる見解ユーザープロンプトの。

Claude-3-Opus はスコアを与えるのに寛大で、厳しいスコアを与える可能性ははるかに低いです。特に、ある答えが別の答えよりも「はるかに優れている」と主張することをためらっています。

対照的に、GPT-4-Turbo はモデル応答のエラーを特定し、モデルに大幅に低いスコアを課します。

一方、Claude-3-Opus は小さなエラーを無視することがあります。 Claude-3-Opus がこれらのエラーを発見した場合でも、それらを小さな問題として扱う傾向があり、採点プロセスでは非常に寛大です。

小さな間違いが実際に最終的な答えを完全に台無しにしてしまうコーディングや数学の問題でも、Claude-3-Opus はこれらの間違いを寛大に扱いますが、GPT-4-Turbo はそうではありません。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

もう 1 つの小さなヒントとして、Claude-3-Opus と GPT-4-Turbo は根本的に異なる観点から評価されます。

たとえば、コーディングの問題が与えられた場合、Claude-3-Opus は外部ライブラリに依存しない単純な構造を好み、ユーザーに最大限の教育的価値のある応答を提供できます。

そして、GPT-4-Turbo は、ユーザーにとっての教育的価値に関係なく、最も実用的な答えを提供する応答を優先する場合があります。

どちらの説明も有効な判断基準ですが、GPT-4-Turbo の見解は一般ユーザーの見解に近いかもしれません。

さまざまな判定の具体例については、以下の画像を参照してください。その多くがこの現象を示しています。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

限定テスト

LLM もっと長い答えが好きですか？

MT-BenchとArena-Hard-v0.1における各モデルの平均トークン長とスコアを以下にプロットします。視覚的には、分数と長さの間に強い相関関係はありません。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

潜在的な冗長バイアスをさらに調査するために、研究者らは GPT-3.5-Turbo を使用して 3 つの異なるシステムプロンプト (生、おしゃべり、冗長) を除去しました。

結果は、GPT-4-Turbo と Claude-3-Opus の両方の判定がより長い出力によって影響を受ける可能性があることを示していますが、Claude の方がより影響を受けています (GPT-3.5-Turbo の GPT-4-0314 の判定が影響しているため)勝率は40％を超えます）。

興味深いことに、「おしゃべり」は 2 人の審査員の勝率にほとんど影響を与えず、出力の長さだけが要因ではなく、より詳細な回答も LLM 審査員に好まれる可能性があることを示しています。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

実験のヒント:

詳細: あなたはできる限り詳細に物事を徹底的に説明してくれる親切なアシスタントです

おしゃべりなあなたは親切なアシスタントです。

GPT-4 判定の差異

研究者らは、温度 = 0 であっても、GPT-4-Turbo がわずかに異なる判定を生成する可能性があることを発見しました。

gpt-3.5-turbo-0125 に対する以下の判定を 3 回繰り返し、分散を計算します。

クラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。写真

予算が限られているため、ここではすべてのモデルの評価を 1 回のみ行います。ただし、著者はモデルの分離を決定するために信頼区間を使用することを推奨しています。

参考:https://www.php.cn/link/6e361e90ca5f9bee5b36f3d413c51842

以上がクラウドソーシングの新しい遊び方！劣悪な生徒と上位の生徒を厳密に区別するために、LLM アリーナでベンチマークテストが誕生しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

顔を抱きしめます＆＃039; S 7BモデルオリンピックコダーはClaude 3.7を破っていますか？Apr 23, 2025 am 11:49 AM

FaceのOlympiccoder-7Bを抱き締める：強力なオープンソースコード推論モデル優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました：Olympiccoder-7B、製品

4つの新しいジェミニ機能は、見逃す余裕がありますApr 23, 2025 am 11:48 AM

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか？私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Camundaは、エージェントAIオーケストレーションの新しいスコアを作成しますApr 23, 2025 am 11:46 AM

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため（強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります）、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか？確実性と非決定的プロセスの統合同社は、鍵はユーザー（通常はデータサイエンティスト、ソフトウェア）を許可することだと言いました

キュレーションされたエンタープライズAIエクスペリエンスに価値はありますか？Apr 23, 2025 am 11:45 AM

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。エージェントスペース（ここで説明）とカスタマーエクスペリエンススイート（ここで説明）に関する最近の発表は、ビジネス価値を強調し、

ぼろきれに最適な多言語埋め込みモデルを見つける方法は？Apr 23, 2025 am 11:44 AM

検索拡張生成（RAG）システムのための最適な多言語埋め込みモデルの選択今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

ムスク：オースティンのロボタキシスは、10,000マイルごとに介入が必要ですApr 23, 2025 am 11:42 AM

テスラのオースティンロボタキシローンチ：マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

AI＆＃x27;の衝撃的なピボット：作業ツールからデジタルセラピストやライフコーチまでApr 23, 2025 am 11:41 AM

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています！報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。一方、マーケティングタスク（ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど）は、一般的な使用リストではるかに低くランク付けされています。なぜこれがなぜですか？研究の結果とそれがどのように続くかを見てみましょう