新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑-AI-php.cn

ホームページ

テクノロジー周辺機器

新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑

PHPz

Apr 23, 2024 pm 12:13 PM

gitgpt-5大型モデルllama 3

テスト問題が簡単すぎると、上位の生徒も下位の生徒も90点を獲得できてしまい、その差は広げられません...

Claude 3、Llama 3、さらにはGPT-5などのより強力なモデルのリリースにより業界は、より困難なモデル、より差別化されたベンチマークテストを緊急に必要としています。

大型モデルアリーナの背後にある組織である LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。

Llama 3 の 2 つの命令の微調整されたバージョンの強度については、最新のリファレンスも利用できます。

新测试基准发布，最强开源Llama 3尴尬了

同様のスコアだった以前のMTベンチと比較すると、アリーナとハードの区別が22.6%から87.4%に増加しており、これは一目瞭然です。

アリーナ-ハードは、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% にも達します。

SOTA に達する上記の 2 つの指標に加えて、追加の利点があります:

リアルタイムで更新されたテストデータには、人間が新たに考えた、トレーニング段階では AI が決して見たことのないプロンプトワードが含まれており、潜在的なデータが軽減されます。。

新しいモデルをリリースした後、人間のユーザーが投票するまで 1 週間ほど待つ必要はなくなり、25 ドルを費やすだけでテストパイプラインをすぐに実行して結果を取得できます。

一部のネチズンは、テストには高校試験の代わりに実際のユーザープロンプトワードを使用することが非常に重要であるとコメントしました。

新测试基准发布，最强开源Llama 3尴尬了

新しいベンチマークはどのように機能しますか?

簡単に言うと、大規模モデル領域での 200,000 のユーザークエリから 500 の高品質なプロンプトワードがテストセットとして選択されます。

まず、選択プロセス中に多様性を確保します。つまり、テストセットは現実世界のトピックを広範囲にカバーする必要があります。これを確実にするために、チームは BERTopic のトピックモデリングパイプラインを採用し、まず OpenAI の埋め込みモデル (text-embedding-3-small) を使用して各ヒントを変換し、UMAP を使用して次元を削減し、階層ベースのモデルアルゴリズムを使用してクラスタリングしました ( HDBSCAN) を使用してクラスターを識別し、最後に GPT-4-turbo を使用して集約します。

新测试基准发布，最强开源Llama 3尴尬了また、選択したプロンプトワードが高品質であることを確認します。これは、7 つの主要な指標によって測定されます:

具体性: プロンプトワードは特定の出力を必要としますか?

分野の知識: プロンプトの単語は 1 つ以上の特定のフィールドをカバーしていますか?
複雑さ: プロンプトの単語には複数の推論、コンポーネント、または変数の層がありますか?
問題解決: プロンプトの単語により、AI は問題を積極的に解決する能力を直接実証できますか?
創造性: プロンプトの言葉には、問題解決においてある程度の創造性が含まれていますか?
技術的な正確さ: プロンプトの単語の応答には技術的な正確さが必要ですか?
実践的な応用: プロンプトの言葉は実践的な応用に関連していますか?

新测试基准发布，最强开源Llama 3尴尬了 GPT-3.5-Turbo と GPT-4-Turbo を使用して、各チップに 0 から 7 までの注釈を付け、満たされる条件の数を判断します。次に、各クラスターはキューの平均スコアに基づいてスコア付けされます。

質の高い質問は通常、ゲーム開発や数学的証明などの難しいトピックやタスクに関連しています。

新测试基准发布，最强开源Llama 3尴尬了新しいベンチマークは正確ですか?

Arena-Hard には現在弱点があります。GPT-4 を審判として使用すると、独自の出力が優先されます。当局者も同様のヒントを提供した。

GPT-4 の最新の 2 つのバージョンのスコアが Claude 3 Opus よりもはるかに高いことがわかりますが、人間の投票スコアの差はそれほど明白ではありません。

新测试基准发布，最强开源Llama 3尴尬了実際、この点に関して、最新の研究では、最先端のモデルは独自の出力を好むことが実証されています。

新测试基准发布，最强开源Llama 3尴尬了また、研究チームは、微調整後、AI がテキストが自分自身で書かれたものであるかどうかを本質的に判断できること、そして自己認識能力が自己認識能力と直線的に関係していることも発見しました。好み。

新测试基准发布，最强开源Llama 3尴尬了それでは、得点にクロード 3 を使用すると、結果はどう変わりますか? LMSYS は関連する実験も行っています。

まず、クロードシリーズのスコアは確かに上がります。

新测试基准发布，最强开源Llama 3尴尬了

しかし、驚くべきことに、Mixtral や Zero One Thousand Yi などのいくつかのオープンモデルを好み、さらに GPT-3.5 では大幅に高いスコアを獲得しています。

全体的に、Claude 3 を使用してスコア化された人間の結果との識別性と一貫性は GPT-4 ほど良くありません。

新测试基准发布，最强开源Llama 3尴尬了

非常に多くのネチズンが、包括的なスコアリングのために複数の大規模なモデルを使用することを提案しました。

新测试基准发布，最强开源Llama 3尴尬了

さらに、チームは新しいベンチマークテストの有効性を検証するために、さらにアブレーション実験も実施しました。

例えば、プロンプトワードに「答えはできるだけ詳しく書いてください」と追加すると、平均出力長が長くなり、確かにスコアが向上します。

しかし、プロンプトの単語を「チャットが好き」に変更すると、平均出力長も増加しましたが、スコアの改善は明らかではありませんでした。

新测试基准发布，最强开源Llama 3尴尬了

また、実験中にはたくさんの興味深い発見がありました。

例えば、GPT-4 は解答に誤りがあると厳しく減点されますが、Claude 3 はたとえ小さな誤りを認識しても寛大です。コードの質問については、Claude 3 は単純な構造で回答を提供する傾向があり、外部のコードライブラリに依存せず、人間のプログラミング学習に役立ちますが、GPT-4-Turbo は教育に関係なく、最も実用的な回答を好みます。価値。

また、温度を0に設定してもGPT-4-Turboでは若干異なる判定が行われる場合があります。

階層視覚化の最初の 64 クラスターからも、大規模なモデル領域のユーザーからの質問の質と多様性が実際に高いことがわかります。

新测试基准发布，最强开源Llama 3尴尬了これにはあなたの貢献があるかもしれません。

アリーナ-ハード GitHub: https://github.com/lm-sys/arena-hard

アリーナ-ハード HuggingFace: https://huggingface.co/spaces/lmsys/arena-hard-browser

大型モデルアリーナ : https://arena.lmsys.org

参考リンク：

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04 - 19-アリーナ-ハード/

以上が新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。