ホームページ >テクノロジー周辺機器 >AI >マルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染

マルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染

王林オリジナル: 2024-08-21 16:38:07597ブラウズ

マルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

大規模モデルの研究が深まるにつれ、それらをより多くのモダリティにどのように推進するかが学界や産業界で話題になっています。 GPT-4o や Claude 3.5 など、最近リリースされた大規模なクローズドソースモデルはすでに強力な画像理解機能を備えており、LLaVA-NeXT、MiniCPM、InternVL などのオープンソースフィールドモデルもクローズドソースに近づきつつあるパフォーマンスを示しています。。

「ムーあたり 80,000 キログラム」と「10 日ごとに 1 つの SoTA」の時代では、使いやすく、透明性のある基準を備え、再現性のあるマルチモーダルな評価フレームワークがますます重要になっていますが、これは簡単ではありません。

上記の問題を解決するために、南洋理工大学 LMMs-Lab の研究者らは共同で、マルチモーダル大規模モデル向けに特別に設計された評価フレームワークであり、マルチモーダルモデル (LMMs) の評価を提供する評価フレームワークである LMMs-Eval をオープンソース化しました。 ) ワンストップの効率的なソリューション。

マルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染

コードリポジトリ: https://github.com/EvolvingLMMs-Lab/lmms-eval
公式ホームページ: https://lmms-lab.github.io/
ペーパーアドレス: https://arxiv.org/abs/2407.12772
リストアドレス: https://huggingface.co/spaces/lmms-lab/LiveBench

2024 年 3 月のリリース以来、LMMs-Eval フレームワークは、オープンソースコミュニティ、企業、大学からの協力による貢献を受けています。現在、Github 上で 1.1,000 個のスターを獲得しており、合計 80 以上のデータセットと 10 以上のモデルを含む 30 人以上の寄稿者が参加しており、その数は増え続けています。

標準化された評価フレームワーク

標準化された評価プラットフォームを提供するために、LMMs-Eval には次の機能が含まれています:

統一インターフェイス: LMMs-Eval はテキスト評価フレームワーク lm-evaluation- に基づいています。ハーネスモデル、データセット、評価指標の統一インターフェイスを定義することで、ユーザーが新しいマルチモーダルモデルとデータセットを追加しやすくするために改良および拡張されました。
ワンクリック起動: LMMs-Eval は、すべてのバリアント、バージョン、分割を含む、元のソースから慎重に変換された 80 を超える (そして増加中の) データセットを HuggingFace 上でホストします。ユーザーは準備をする必要がなく、コマンドを 1 つ行うだけで、複数のデータセットとモデルが自動的にダウンロードされてテストされ、数分で結果が得られます。
透明性と再現性: LMMs-Eval には、モデルが回答した各質問とそれが正しいかどうかが記録され、再現性と透明性が確保されます。また、異なるモデルの長所と短所の比較も容易になります。

LMMs-Eval のビジョンは、将来のマルチモーダルモデルが独自のデータ処理、推論、送信コードを記述する必要がなくなることです。マルチモーダルテストセットが高度に集中している今日の環境では、このアプローチは非現実的であり、測定されたスコアを他のモデルと直接比較することは困難です。 LMMs-Eval にアクセスすることで、モデルトレーナーは評価や調整の結果に時間を費やすのではなく、モデル自体の改善と最適化に集中できます。

評価の「不可能な三角形」

LMMs-Eval の最終目標は、LMM を評価するための 1. 幅広いカバー範囲、2. 低コスト、3. データ漏洩ゼロの方法を見つけることです。ただし、LMMs-Eval を使用したとしても、作成者チームは 3 つすべてを同時に実行するのは難しい、または不可能であるとさえ感じました。

以下の図に示すように、評価データセットが 50 以上に拡張されると、これらのデータセットを総合的に評価するのに非常に時間がかかりました。さらに、これらのベンチマークはトレーニング中の汚染の影響を受けやすくなります。この目的のために、LMMs-Eval は、広いカバレッジと低コストを考慮して LMMs-Eval-Lite を提案しました。また、LiveBench を低コストでデータ漏洩がゼロになるように設計しました。

LMMs-Eval-Lite: 広範囲をカバーする軽量の評価

대형 모델을 평가할 때 수많은 매개변수와 테스트 작업으로 인해 평가 작업에 소요되는 시간과 비용이 급격히 증가하는 경우가 많아 모두가 작은 모델을 선택하는 경우가 많습니다. 평가를 위해 데이터 세트를 사용하거나 특정 데이터 세트를 사용합니다. 그러나 제한된 평가로 인해 모델 기능에 대한 이해가 부족한 경우가 많습니다. 평가의 다양성과 평가 비용을 모두 고려하기 위해 LMMs-Eval은 LMMs-Eval-Lite

#을 출시했습니다. 🎜🎜 # マルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染

LMMs-Eval-Lite는 모델 개발 중에 유용하고 빠른 신호를 제공하여 오늘날 테스트의 팽창 문제를 방지하는 단순화된 벤치마크 세트를 구축하는 것을 목표로 합니다. 모델 간의 절대 점수와 상대 순위가 전체 세트와 유사하게 유지되는 기존 테스트 세트의 하위 세트를 찾을 수 있다면 이러한 데이터 세트를 정리하는 것이 안전하다고 간주할 수 있습니다.

데이터 세트에서 데이터 핵심 포인트를 찾기 위해 LMMs-Eval은 먼저 CLIP 및 BGE 모델을 사용하여 다중 모달 평가 데이터 세트를 벡터 임베딩 형태로 변환하고 k-Eval을 사용합니다. 데이터에서 중요한 점을 찾는 그리디 클러스터링 방법입니다. 테스트에서 이러한 소규모 데이터 세트는 여전히 전체 세트와 유사한 평가 기능을 보여주었습니다.

그런 다음 LMMs-Eval은 동일한 방법을 사용하여 사람들이 개발 비용을 절약하는 데 도움이 되도록 더 많은 데이터 세트를 포함하는 Lite 버전을 만들었습니다. 평가 모델 성능을 빠르게 판단하기 위한 비용

LiveBench: LMMs 동적 테스트

기존 벤치마크는 고정된 질문과 답변을 사용하는 정적 평가에 중점을 둡니다. 다중 모드 연구가 진행됨에 따라 오픈 소스 모델은 점수 비교에서는 GPT-4V와 같은 상용 모델보다 우수한 경우가 많지만 실제 사용자 경험에서는 뒤떨어집니다. 동적 사용자 지향 Chatbots Arenas 및 WildVision은 모델 평가에 점점 더 인기를 얻고 있지만 수천 개의 사용자 선호도를 수집해야 하며 평가하는 데 비용이 매우 많이 듭니다.

LiveBench의 핵심 아이디어는 지속적으로 업데이트되는 데이터 세트에서 모델의 성능을 평가하여 오염 제로를 달성하고 비용을 낮게 유지하는 것입니다. 저작팀은 웹에서 평가 데이터를 수집하고 뉴스, 커뮤니티 포럼 등 웹사이트에서 최신 글로벌 정보를 자동으로 수집하는 파이프라인을 구축했습니다. 정보의 적시성과 신뢰성을 보장하기 위해 저자 팀은 CNN, BBC, 일본의 아사히 신문, 중국의 신화 통신사 및 Reddit과 같은 포럼을 포함한 60개 이상의 뉴스 매체에서 출처를 선택했습니다. 구체적인 단계는 다음과 같습니다:

홈페이지 스크린샷을 캡처하고 광고 및 뉴스가 아닌 요소를 제거합니다.
GPT4-V, Claude-3-Opus 및 Gemini-1.5-Pro와 같이 현재 사용 가능한 가장 강력한 다중 모드 모델을 사용하여 질문 및 답변 세트를 디자인하세요. 정확성과 관련성을 보장하기 위해 다른 모델에서 질문을 검토하고 수정했습니다.
최종 Q&A 세트는 수동으로 검토되며, 매달 약 500개의 질문이 수집되고, 100~300개가 최종 라이브벤치 질문 세트로 유지됩니다.
LLaVA-Wilder 및 Vibe-Eval의 채점 기준 사용 -- 제공된 표준 답변을 기반으로 한 채점 모델 점수이며 점수 범위는 [1, 10입니다. ]. 기본 채점 모델은 GPT-4o이며 Claude-3-Opus 및 Gemini 1.5 Pro도 대안으로 포함되어 있습니다. 최종 보고된 결과는 0~100 범위의 정확도 측정항목으로 변환된 점수를 기반으로 합니다.

以上がマルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Logging 接口 github cnn https gpt

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Nvidia の最初の AI NPC がゲームに登場、国内の傑作、4B モデルは 2G のビデオメモリのみを必要とします次の記事：Nvidia の最初の AI NPC がゲームに登場、国内の傑作、4B モデルは 2G のビデオメモリのみを必要とします

続きを見る