ホームページ  >  記事  >  テクノロジー周辺機器  >  GPT-4の王冠がなくなってしまいました!クロード3アリーナ人間投票結果公開:3位のみ

GPT-4の王冠がなくなってしまいました!クロード3アリーナ人間投票結果公開:3位のみ

WBOY
WBOY転載
2024-03-08 15:07:27415ブラウズ

Claude 3 のアリーナ ランキングがついに登場:

わずか 3 日間で 20,000 票が投じられ、ランキングのトラフィックは前例のないレベルに達しました。

最終的に、Claude 3 の最強の「ビッグ カップ」モデルである Opus が 1233 をスコアし、GPT-4-Turbo と競合する最初のプレーヤーになりました。

「ミディアム カップ」ソネットもかなり優れており、GPT-4 の 2 つの古いバージョンと同等です。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

しかし、一般的には GPT-4 シリーズが優位です。

クロード3の性能はプロモーションとは若干異なります。ネチズンが要約したように:

GPT-4 は依然として大型モデルの王様です!

ただし、無料の「ミディアム カップ」Claude 3 (Sonnet) の方が価格に見合った価値があります。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

大型モデルアリーナ公開、「ニューキング」が3位にランクイン

クロード登場時の正式プロモーション3 がリリースされましたが、GPT-4 を超える包括的なものでしたが、GPT-4 のどのバージョンであるかについては言及されていません。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

アリーナ リーダーボード (LMSYS チャットボット アリーナ リーダーボード) の最新アップデートは、それを知るのに役立ちます。

詳細を見てみましょう。

1 位は、OpenAI が昨年 11 月に発表した GPT-4 Turbo で、

GPT-4-1106-preview です。

より強力で安価で、128k のコンテキストがあり、トレーニング データは 2021 年 9 月から 2023 年 4 月まで更新されています。

これと同率で 1 位になったのは、今年 1 月にリリースされた GPT-4 Turbo の最新バージョン:

GPT-4-0125-preview です。

そのトレーニング データはさらに広範囲にわたり、2023 年 12 月まで続きます。

両方とも 1251 のスコアを達成しました。

次にクロード 3 が登場します (トレーニング データは 2023 年 8 月に終了します)。

その最強バージョンである Opus のスコアは 1233 で、GPT-4 Turbo より 18 ポイント低くなりました。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

この差は比較するとそれほど大きくありません。結局のところ、さらに下を見てください:

GPT よりも優れています- 4 2 つのバージョン (0314、0613) は、それぞれ 48 ポイントと 72 ポイント高くなっています。

中程度のパフォーマンスの Claude 3 Sonnet に関しては、2 つの GPT-4 バージョンの間で 6 位にランクされています。

ただし、0314 バージョンよりも 5 ポイント低いだけであり、優れた性能を備えています。一気に超える可能性も。。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

つまり、一般的に、公式広報の内容に間違いはありません。あらゆる面で旧バージョンの GPT-4 を上回っています。ターボはまだ少し遠いですが、それほど遠くありません。

——このリストの評価メカニズムから判断すると、その結果は業界で十分に認められています。

「Vicuna」の著者チームによって始められました。

しかし、治安判事は「小さなアルパカ」ではなく、ましてや GPT-4 ではなく、人間の好みに基づいています。

詳細については、2 人の匿名モデルにランダムに質問し、それぞれの回答を評価して、より良い方に投票します。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

1回の投票で投票できない場合は、質問を続けることもできます。モデルがチャット中に誤って身元を明らかにした場合、投票は無効になります。

特に、公平性を確保するためにスコアリング ルールには Elo メカニズムが採用されています (Honor of Kings をプレイする友人は皆、このメカニズムに精通しています)。

例: 特定のモデルが負けた場合、そのモデルが弱いために必ずしもスコアが低いとは限りません。これは予想通りです。

現時点では、このリストは非常に人気があると言えます。世界中から 73 人のモデルがこのチャレンジに参加し、ネチズンから合計 37 万票を受け取りました。

Tongyi Qianwen がトップ 10 に食い込んだ

Claude 3 に加えて、好成績を収めた他の選手を見てみましょう。

最初に言及するのは、GPT-4Turbo と Claude 3 に次ぐ 4 位にランクされている Gemini Pro ベースの Bard です。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

ちょっと意外とも言えます。

ネチズンは冗談を言いました:

Googleはランキングに「穴」を開けました。

そして、慌てて JeffDean と DeepMind の担当者に「もっと頑張れよ (Wangchai)」と返信しました。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

次にお話したいのは、Ali Tongyi Qianwen (バージョン 1.5、先月リリース) についてです。

今回のランキングではトップ10に食い込んで9位タイとなり、国内勢では最高の成績を収めた。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三写真

他の国内プレーヤーに加えて、Claude 2、Gemini Pro、GPT-3.5 などが残されています。

完全なリスト: https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
参考リンク: https://www.php.cn/link/ 30637ce29549ac951061fd211d43c3b0

以上がGPT-4の王冠がなくなってしまいました!クロード3アリーナ人間投票結果公開:3位のみの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。