ホームページ  >  記事  >  テクノロジー周辺機器  >  大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン

大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン

WBOY
WBOY転載
2024-04-23 15:28:01561ブラウズ

Llama 3 に関して、新しいテスト結果があります -

大規模なモデル評価コミュニティ LMSYS は大規模なモデルのランキング リストを発表し、Llama 3 は 5 位にランクされ、英語カテゴリでは GPT-4 と同率 1 位になりました。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

他のベンチマークとは異なり、このリストは 1 対 1 の戦いのモデルに基づいており、ネットワーク全体の評価者が独自の提案とスコアを作成します。

最終的に、Llama 3 がリストの 5 位にランクされ、GPT-4 と Claude 3 Super Cup Opus の 3 つの異なるバージョンが続きました。

イギリスのシングルリストでは、ラマ 3 がクロードを追い抜き、GPT-4 と並びました。

Meta の主任科学者である LeCun はこの結果に非常に満足し、ツイートをリツイートして「いいね」を残しました。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

PyTorch の父である Soumith Chintala 氏も、このような結果は信じられないほど素晴らしく、Meta を誇りに思っていると興奮気味に述べました。

Llama 3の400Bバージョンはまだ出ていませんが、70Bパラメータだけで5位を獲得しました...
昨年3月にGPT-4がリリースされたとき、同じ性能のもの。

現在の AI の普及は本当に驚異的であり、このような成功を収めた Meta AI の同僚を非常に誇りに思っています。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

では、このリストは具体的にどのような結果を示しているのでしょうか?

90 近くのモデルが 750,000 ラウンドで競い合いました

最新のリストのリリースの時点で、LMSYS は 89 のモデルを含む 750,000 近くの大型モデルの単独戦闘結果を収集しました。

その中で、Llama 3 は 12,700 回参加し、GPT-4 には複数の異なるバージョンがあり、最も多く参加したのは 68,000 回です。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

下の写真は、いくつかの人気モデルの競技数と勝率を示しています。写真内の 2 つの指標はいずれもドロー数をカウントしません。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

リストに関しては、LMSYS は一般リストと複数のサブリストに分かれており、GPT-4-Turbo が初期の 1106 バージョンと同率で 1 位、Claude 3 Super Large Cup Opus にランクされています。

GPT-4 の別のバージョン (0125) が 2 位にランクされ、僅差で Llama 3 が続きます。

しかし、さらに興味深いのは、新しいバージョン 0125 のパフォーマンスが古いバージョン 1106 ほどではないことです。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

英語のシングルリストでは、Llama 3 の結果は 2 つの GPT-4 と直接並び、0125 バージョンをも上回りました。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

中国語能力ランキングの1位はClaude 3 OpusとGPT-4-1106が同率ですが、Llama 3は20位圏外にランクインしています。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

このリストでは、言語能力に加えて、長文テキストとコーディング能力についてもランキングが設定されており、Llama 3 も最高クラスにランクされています。

ところで、LMSYSの具体的な「ゲームルール」とは何なのでしょうか?

誰でも参加できる大規模な模型テスト

誰でも参加できる大規模な模型テストです。出題内容や評価基準は参加者自らが決定します。

具体的な「競争」プロセスは、バトルとサイド・バイ・サイドの2つのモードに分かれています。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

戦闘モードでは、テストインターフェイスに質問を入力した後、システムはライブラリ内の2つのモデルをランダムに呼び出します。テスターはシステムが誰を選択したかを知らず、「モデル」のみが選択されます。インターフェースA」と「モデルB」に表示されます。

モデルが答えを出力した後、評価者はどちらが優れているか、または同点であるかを選択する必要があります。もちろん、モデルのパフォーマンスが期待を満たさない場合は、対応するオプションがあります。

選択が行われた後にのみ、モデルのアイデンティティが明らかになります。

サイド・バイ・サイドでは、ユーザーがPKする指定されたモデルを選択します。残りのテストプロセスはバトルモードと同じです。

ただし、バトルの匿名モードでの投票結果のみがカウントされます。会話中にモデルが注意を払わない場合、あなたの身元を暴露すると結果が無効になる可能性があります。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

各モデルの他のモデルに対する勝率に応じて、次のようなイメージを描くことができます:

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

△概略図、以前のバージョン

そして、最終的なランキングはWinを使用していますレート データは Elo 評価システムを通じてスコアに変換されます。

Elo レーティング システムは、アメリカの物理学教授 Arpad Elo によって設計された、プレイヤーの相対的なスキル レベルを計算する方法です。

特にLMSYSでは、初期条件で全機種のレーティング(R)を1000とし、このような計算式に基づいて期待勝率(E)を計算します。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

テストが進むにつれて、スコアは実際のスコア (S) に応じて修正されます。S には、勝ち、負けの 3 つの状況に対応する 1、0、0.5 の 3 つの値があります。と描画をそれぞれ行います。

補正アルゴリズムは次の式に示されています。K は係数であり、実際の状況に応じてテスターが調整する必要があります。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五Pictures

最後に、すべての有効なデータが計算に含まれた後、モデルの Elo スコアが取得されます。

しかし、実際の運用中に、LMSYSチームはこのアルゴリズムの安定性が不十分であることに気づき、統計的手法を使用して修正しました。

彼らはブートストラップ法を使用してサンプリングを繰り返し、より安定した結果を得て、信頼区間を推定しました。

最終的に改訂された Elo スコアが、リストのランキングの基礎になりました。

One More Thing

Llama 3 はすでに大規模モデル推論プラットフォーム Groq (Musk の Grok ではありません) 上で実行できます。

このプラットフォームの最大のハイライトはその「速度」です。以前は、Mixtral モデルを使用して 1 秒あたり 500 トークン近い速度を達成していました。

Llama 3 の実行も非常に高速です。実際のテストによると、70B バージョンは 1 秒あたり約 300 トークンを実行でき、8B バージョンは 800 近くです。

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五写真

参考リンク:
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144

以上が大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクインの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。