ホームページ >テクノロジー周辺機器 >AI >GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入
「大規模モデル予選」権威リスト Chatbot Arena が更新されました:
Google Bard が GPT-4 を上回り、GPT-4 Turbo に次いで 2 位にランクされました。
しかし、これに対して多くのネチズンは「不満」と「不公平」を表明した。
Google AI の責任者である Jeff Dean が、大型モデル Gemini Pro スケールの新しいバージョンが搭載されているため、Bard のパフォーマンスが大幅に向上したことを明らかにしたことが判明しました。
これは、「ランク マッチ」でプレイする吟遊詩人にはネットワーク機能があることも意味します。
ネチズンの疑問はこの点を中心に展開しています:
オンラインとオフラインの大規模モデルを同じランキング リストに混在させるのは非常に不公平です。誤解を招きやすい。
Hugging Face の「最高アルパカ責任者」オマール サンセビエロ氏も次のように述べています:
この場合...私も提出できます検索機能を備えた lmsys Mixtral に?
さまざまな疑問に直面して、Imsys は公式に次のように回答しました:
ネチズンが最も懸念している問題として、Bard に抜かれた GPT-4 は非ネットワーク版であるが、Imsys は「リアルタイムデータへのアクセスによりユーザーエクスペリエンスが向上すれば、ランキングに反映されるだろう」と述べたそれ。"
そして、@OpenAI と Bing、そして Microsoft 幹部の Mikhail Parakhin に直接、GPT-4 オンライン バージョンまたは Bing Copilot をアリーナに追加する意欲を表明しました。
最新のニュースは、OpenAI の最新モデル gpt-4-0125-preview がアリーナに登場し、ユーザーの投票参加を待っているということです。
Chatbot Arena は、カリフォルニア大学バークレー校の研究者が率いる Imsys (Large Model Systems Organization) 組織によって作成された、大規模モデルの信頼できるリストです。
このランキングは匿名の 1V1 バトル投票ルールを使用し、Elo 評価システムに基づいてランク付けされています。
具体的には、投票ページは次のとおりです。モデル A とモデル B の 2 つのモデルはどちらも匿名です。ユーザーは複数の質問をした後、モデルの回答を評価します。合計 4 つの選択肢があります。A が優れています。 B の方が優れています。、A と B は同等に優れており、A と B は両方とも悪いです。
なお、質疑応答の過程でモデルの身元が漏洩した場合、投票は無効となりますのでご了承ください。
現在のリストによると、この分野には 56 個の大規模なモデルがあります:
以前は GPT-4 に依存していました。しかし、Bard の新しいバージョンがリリースされた後、GPT-4 の 2 つのバージョンを直接上回り、最初の GPT-4 Turbo とわずか 34 ポイントの差で 2 位に急上昇しました:
さらに詳しくは、引き分けのないすべてのモデル A 対 B の対戦において、モデル A が勝つ割合は次のとおりです:
モデルの組み合わせごとに決闘数もあります (引き分けなし):
さらに、Chatbot Arena リーダーボードは、ブートストラップを使用して Elo スコア推定値を 1,000 回ランダムにサンプリングし、信頼区間などを評価します。
他のすべてのモデルと比較した 1 つのモデルの平均勝率は次のとおりです:
ただし、注目すべき点は、アリーナランキング ランキングはリアルタイムであり、Bard は現在 2 位ですが、総投票数は 3,000 を超えています。
これに対し、GPT-4 Turboの得票数は3万票に達しており、上回った2バージョンの得票数もBardの数倍となっている。
GPT-4 の最新バージョンが市場に投入されたので (ランキング リストでは更新されていませんが)、その後の結果を待つ必要があります~
参考リンク: https://twitter.com/lmsysorg/status/1752035632489300239。
以上がGPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。