テスト問題が簡単すぎると、上位の生徒も下位の生徒も90点を獲得できてしまい、その差は広げられません...
Claude 3、Llama 3、さらにはGPT-5などのより強力なモデルのリリースにより業界は、より困難なモデル、より差別化されたベンチマーク テストを緊急に必要としています。
大型モデルアリーナの背後にある組織である LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。
Llama 3 の 2 つの命令の微調整されたバージョンの強度については、最新のリファレンスも利用できます。
同様のスコアだった以前のMTベンチと比較すると、アリーナとハードの区別が22.6%から87.4%に増加しており、これは一目瞭然です。
アリーナ-ハードは、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% にも達します。
SOTA に達する上記の 2 つの指標に加えて、追加の利点があります:
リアルタイムで更新されたテスト データには、人間が新たに考えた、トレーニング段階では AI が決して見たことのないプロンプト ワードが含まれており、潜在的なデータが軽減されます。 。
新しいモデルをリリースした後、人間のユーザーが投票するまで 1 週間ほど待つ必要はなくなり、25 ドルを費やすだけでテスト パイプラインをすぐに実行して結果を取得できます。
一部のネチズンは、テストには高校試験の代わりに実際のユーザープロンプトワードを使用することが非常に重要であるとコメントしました。
新しいベンチマークはどのように機能しますか?
簡単に言うと、大規模モデル領域での 200,000 のユーザー クエリから 500 の高品質なプロンプト ワードがテスト セットとして選択されます。
まず、選択プロセス中に多様性を確保します。つまり、テスト セットは現実世界のトピックを広範囲にカバーする必要があります。これを確実にするために、チームは BERTopic のトピック モデリング パイプラインを採用し、まず OpenAI の埋め込みモデル (text-embedding-3-small) を使用して各ヒントを変換し、UMAP を使用して次元を削減し、階層ベースのモデル アルゴリズムを使用してクラスタリングしました ( HDBSCAN) を使用してクラスターを識別し、最後に GPT-4-turbo を使用して集約します。
また、選択したプロンプトワードが高品質であることを確認します。これは、7 つの主要な指標によって測定されます:
- 分野の知識: プロンプトの単語は 1 つ以上の特定のフィールドをカバーしていますか?
- 複雑さ: プロンプトの単語には複数の推論、コンポーネント、または変数の層がありますか?
- 問題解決: プロンプトの単語により、AI は問題を積極的に解決する能力を直接実証できますか?
- 創造性: プロンプトの言葉には、問題解決においてある程度の創造性が含まれていますか?
- 技術的な正確さ: プロンプトの単語の応答には技術的な正確さが必要ですか?
- 実践的な応用: プロンプトの言葉は実践的な応用に関連していますか?
GPT-3.5-Turbo と GPT-4-Turbo を使用して、各チップに 0 から 7 までの注釈を付け、満たされる条件の数を判断します。次に、各クラスターはキューの平均スコアに基づいてスコア付けされます。
質の高い質問は通常、ゲーム開発や数学的証明などの難しいトピックやタスクに関連しています。
新しいベンチマークは正確ですか?
Arena-Hard には現在弱点があります。GPT-4 を審判として使用すると、独自の出力が優先されます。当局者も同様のヒントを提供した。
GPT-4 の最新の 2 つのバージョンのスコアが Claude 3 Opus よりもはるかに高いことがわかりますが、人間の投票スコアの差はそれほど明白ではありません。
実際、この点に関して、最新の研究では、最先端のモデルは独自の出力を好むことが実証されています。
また、研究チームは、微調整後、AI がテキストが自分自身で書かれたものであるかどうかを本質的に判断できること、そして自己認識能力が自己認識能力と直線的に関係していることも発見しました。好み。
それでは、得点にクロード 3 を使用すると、結果はどう変わりますか? LMSYS は関連する実験も行っています。
まず、クロードシリーズのスコアは確かに上がります。
しかし、驚くべきことに、Mixtral や Zero One Thousand Yi などのいくつかのオープン モデルを好み、さらに GPT-3.5 では大幅に高いスコアを獲得しています。
全体的に、Claude 3 を使用してスコア化された人間の結果との識別性と一貫性は GPT-4 ほど良くありません。
非常に多くのネチズンが、包括的なスコアリングのために複数の大規模なモデルを使用することを提案しました。
さらに、チームは新しいベンチマーク テストの有効性を検証するために、さらにアブレーション実験も実施しました。
例えば、プロンプトワードに「答えはできるだけ詳しく書いてください」と追加すると、平均出力長が長くなり、確かにスコアが向上します。
しかし、プロンプトの単語を「チャットが好き」に変更すると、平均出力長も増加しましたが、スコアの改善は明らかではありませんでした。
また、実験中にはたくさんの興味深い発見がありました。
例えば、GPT-4 は解答に誤りがあると厳しく減点されますが、Claude 3 はたとえ小さな誤りを認識しても寛大です。コードの質問については、Claude 3 は単純な構造で回答を提供する傾向があり、外部のコード ライブラリに依存せず、人間のプログラミング学習に役立ちますが、GPT-4-Turbo は教育に関係なく、最も実用的な回答を好みます。価値。
また、温度を0に設定してもGPT-4-Turboでは若干異なる判定が行われる場合があります。
階層視覚化の最初の 64 クラスターからも、大規模なモデル領域のユーザーからの質問の質と多様性が実際に高いことがわかります。
これにはあなたの貢献があるかもしれません。
アリーナ-ハード GitHub: https://github.com/lm-sys/arena-hard
アリーナ-ハード HuggingFace: https://huggingface.co/spaces/lmsys/arena-hard-browser大型モデル アリーナ : https://arena.lmsys.org
参考リンク:
[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04 - 19-アリーナ-ハード/以上が新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境
