ホームページ >テクノロジー周辺機器 >AI >UC Berkeley LLM 準中国ランキングはこちら! GPT-4 が 1 位、中国のオープンソース RNN モデルが上位 6 位にランクイン
少し前に、LMSYS Org (カリフォルニア大学バークレー校主導) の研究者たちが大きなニュースを発表しました - 大規模な言語モデル バージョンの予選コンテストです。
今回、チームは4人の新しい選手を連れてきただけでなく、(準)中国のランキングリストも連れてきました。
GPT-4が参戦する限り、間違いなく1位になることは間違いありません。
しかし、予想外なことに、Claude は OpenAI を頂点に導いた GPT-3.5 よりも 2 位にランクされただけでなく、GPT-4 とはわずか 50 ポイント差でした。
対照的に、3 位の GPT-3.5 は、130 億のパラメーターを備えた最強のオープンソース モデルである Vicuna よりも 72 ポイント高いだけです。
140 億パラメータの「純粋な RNN モデル」RWKV-4-Raven-14B は、その優れたパフォーマンスにより、すべての Transformer モデルを上回り、6 位にランクされました - Vicuna モデルを除き、RWKV が優勝しました他のすべてのオープンソース モデルに対して、非引き分けゲームの 50% 以上。
さらに、チームは「英語のみ」と「英語以外」の 2 つの個別のランキングも作成しました (ほとんどは中国語です)。リスト。
多くのモデルのランキングが大きく変動していることがわかります。
たとえば、より多くの中国語データでトレーニングされた ChatGLM-6B のパフォーマンスは向上し、GPT-3.5 もクロードを上回って 2 位にランクされました。
このアップデートの主な貢献者は、Sheng Ying、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez、Ion Stoica です。
Sheng Ying は、LMSYS Org の 3 人の創設者 (他の 2 人は Lianmin Zheng と Hao Zhang) のうちの 1 人で、スタンフォード大学コンピューター サイエンス学部の博士課程の学生です。
彼女は、単一の GPU で 175B のモデル推論を実行できる人気の FlexGen システムの作品でもあり、現在 8,000 個のスターを獲得しています。
文書アドレス: https://arxiv.org/abs/2303.06865
プロジェクト アドレス: https://github.com/FMInference/FlexGen
個人ホームページ: https://sites.google.com / view/yingsheng/home
「オープンソース」VS「クローズドソース」コミュニティの協力により、チームは合計 13,000 件の匿名データを収集しました。そして、いくつかの興味深い発見がなされました。
3 つのプロプライエタリ モデルの中で、Anthropic の Claude モデルは GPT-3.5-turbo ユーザーよりも人気があります。いらっしゃいませ。
さらに、クロードは最も強力な GPT-4 との競争でも非常に競争力のあるパフォーマンスを発揮しました。
以下の勝率グラフから判断すると、GPT-4 とクロードの間の引き分け以外の 66 試合のうち、クロードは 32 試合 (48%) で勝利しました。
引き分けではないすべての A 対 B のバトルで、モデル A が勝利する割合 # ただし、他のオープンソース モデルとこれら 3 つの独自モデルの間には依然として大きなギャップがあります。
特に、GPT-4 は Elo スコア 1274 でランキングをリードしています。これは、リストの中で最も優れたオープンソースの代替品である Vicuna-13B よりも 200 ポイント近く高いです。
同点を取り除いた後、GPT-4 は Vicuna-13B に対して 82% 勝利し、前世代の GPT-3.5-turbo に対しても 79% 勝利しました。
ただし、リーダーボード上のこれらのオープンソース モデルは、通常、独自のモデルよりもパラメーターが少なく、30 億から 140 億の範囲であることに注意してください。
実際、LLM とデータ キュレーションの最近の進歩により、より小さなモデルを使用して大幅なパフォーマンスの向上を達成できるようになりました。
Google の最新の PaLM 2 が良い例です。PaLM 2 は、より小さいモデル サイズを使用すると、以前のバージョンよりも優れたパフォーマンスを達成できることがわかっています。
したがって、チームはオープンソース言語モデルが追いつくだろうと楽観的です。
下の画像では、ユーザーが慎重な推論と計画を必要とする難しい質問をしています。クロードと GPT-4 は同様の回答を提供しましたが、クロードの回答の方がわずかに優れていました。
しかし、サンプリングのランダムな性質により、チームはこの状況が常に再現できるわけではないことに気付きました。場合によっては GPT-4 もクロードと同じ配列を与えることができますが、この世代のトライアルでは失敗しました。
さらに、チームは、OpenAI API と ChatGPT インターフェイスを使用するときの GPT-4 の動作が若干異なることに気付きました。これは、プロンプト、サンプリング パラメーター、またはその他の未知の要因が原因である可能性があります。
#GPT-4 よりも Claude を好むユーザーの例
下の図では、Claude と GPT-4 は両方とも素晴らしい機能を備えていますが、この種の複雑な推論問題を処理するのに依然として苦労しています。
Claude と GPT-4 の両方が間違っていると考えるユーザーの例
これらの難しい状況に加えて、複雑な推論や知識を必要としない単純な問題も数多くあります。
この場合、Vicuna のようなオープンソース モデルは GPT-4 と同等のパフォーマンスを発揮できるため、少し弱い (しかし小さいか安価な) 大規模言語モデル (LLM) を使用できる可能性があります。 ) GPT-4 のようなより強力なモデルを置き換えます。
3 つの強力な独自モデルが関与して以来、チャットボット アリーナの競争力はかつてないほど高まっています。
オープンソース モデルはプロプライエタリ モデルに対してかなりの数のゲームに負けたため、Elo スコアはすべて低下しました。
最後に、チームはユーザーが独自のチャットボットを登録してランクマッチに参加できるように、いくつかの API を公開する予定です。
以上がUC Berkeley LLM 準中国ランキングはこちら! GPT-4 が 1 位、中国のオープンソース RNN モデルが上位 6 位にランクインの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。