ホームページ > 記事 > テクノロジー周辺機器 > マルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染
AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
大規模モデルの研究が深まるにつれ、それらをより多くのモダリティにどのように推進するかが学界や産業界で話題になっています。 GPT-4o や Claude 3.5 など、最近リリースされた大規模なクローズドソース モデルはすでに強力な画像理解機能を備えており、LLaVA-NeXT、MiniCPM、InternVL などのオープンソース フィールド モデルもクローズドソースに近づきつつあるパフォーマンスを示しています。 。
「ムーあたり 80,000 キログラム」と「10 日ごとに 1 つの SoTA」の時代では、使いやすく、透明性のある基準を備え、再現性のあるマルチモーダルな評価フレームワークがますます重要になっていますが、これは簡単ではありません。
上記の問題を解決するために、南洋理工大学 LMMs-Lab の研究者らは共同で、マルチモーダル大規模モデル向けに特別に設計された評価フレームワークであり、マルチモーダル モデル (LMMs) の評価を提供する評価フレームワークである LMMs-Eval をオープンソース化しました。 ) ワンストップの効率的なソリューション。
コードリポジトリ: https://github.com/EvolvingLMMs-Lab/lmms-eval
公式ホームページ: https://lmms-lab.github.io/
ペーパーアドレス: https://arxiv.org/abs/2407.12772
リストアドレス: https://huggingface.co/spaces/lmms-lab/LiveBench
2024 年 3 月のリリース以来、LMMs-Eval フレームワークは、オープンソース コミュニティ、企業、大学からの協力による貢献を受けています。現在、Github 上で 1.1,000 個のスターを獲得しており、合計 80 以上のデータセットと 10 以上のモデルを含む 30 人以上の寄稿者が参加しており、その数は増え続けています。
標準化された評価フレームワーク
標準化された評価プラットフォームを提供するために、LMMs-Eval には次の機能が含まれています:
統一インターフェイス: LMMs-Eval はテキスト評価フレームワーク lm-evaluation- に基づいています。ハーネス モデル、データ セット、評価指標の統一インターフェイスを定義することで、ユーザーが新しいマルチモーダル モデルとデータ セットを追加しやすくするために改良および拡張されました。
ワンクリック起動: LMMs-Eval は、すべてのバリアント、バージョン、分割を含む、元のソースから慎重に変換された 80 を超える (そして増加中の) データセットを HuggingFace 上でホストします。ユーザーは準備をする必要がなく、コマンドを 1 つ行うだけで、複数のデータ セットとモデルが自動的にダウンロードされてテストされ、数分で結果が得られます。
透明性と再現性: LMMs-Eval には、モデルが回答した各質問とそれが正しいかどうかが記録され、再現性と透明性が確保されます。また、異なるモデルの長所と短所の比較も容易になります。
LMMs-Eval のビジョンは、将来のマルチモーダル モデルが独自のデータ処理、推論、送信コードを記述する必要がなくなることです。マルチモーダル テスト セットが高度に集中している今日の環境では、このアプローチは非現実的であり、測定されたスコアを他のモデルと直接比較することは困難です。 LMMs-Eval にアクセスすることで、モデル トレーナーは評価や調整の結果に時間を費やすのではなく、モデル自体の改善と最適化に集中できます。
評価の「不可能な三角形」
LMMs-Eval の最終目標は、LMM を評価するための 1. 幅広いカバー範囲、2. 低コスト、3. データ漏洩ゼロの方法を見つけることです。ただし、LMMs-Eval を使用したとしても、作成者チームは 3 つすべてを同時に実行するのは難しい、または不可能であるとさえ感じました。
以下の図に示すように、評価データセットが 50 以上に拡張されると、これらのデータセットを総合的に評価するのに非常に時間がかかりました。さらに、これらのベンチマークはトレーニング中の汚染の影響を受けやすくなります。この目的のために、LMMs-Eval は、広いカバレッジと低コストを考慮して LMMs-Eval-Lite を提案しました。また、LiveBench を低コストでデータ漏洩がゼロになるように設計しました。
LMMs-Eval-Lite: 広範囲をカバーする軽量の評価
대형 모델을 평가할 때 수많은 매개변수와 테스트 작업으로 인해 평가 작업에 소요되는 시간과 비용이 급격히 증가하는 경우가 많아 모두가 작은 모델을 선택하는 경우가 많습니다. 평가를 위해 데이터 세트를 사용하거나 특정 데이터 세트를 사용합니다. 그러나 제한된 평가로 인해 모델 기능에 대한 이해가 부족한 경우가 많습니다. 평가의 다양성과 평가 비용을 모두 고려하기 위해 LMMs-Eval은 LMMs-Eval-Lite
LiveBench: LMMs 동적 테스트
기존 벤치마크는 고정된 질문과 답변을 사용하는 정적 평가에 중점을 둡니다. 다중 모드 연구가 진행됨에 따라 오픈 소스 모델은 점수 비교에서는 GPT-4V와 같은 상용 모델보다 우수한 경우가 많지만 실제 사용자 경험에서는 뒤떨어집니다. 동적 사용자 지향 Chatbots Arenas 및 WildVision은 모델 평가에 점점 더 인기를 얻고 있지만 수천 개의 사용자 선호도를 수집해야 하며 평가하는 데 비용이 매우 많이 듭니다. LiveBench의 핵심 아이디어는 지속적으로 업데이트되는 데이터 세트에서 모델의 성능을 평가하여 오염 제로를 달성하고 비용을 낮게 유지하는 것입니다. 저작팀은 웹에서 평가 데이터를 수집하고 뉴스, 커뮤니티 포럼 등 웹사이트에서 최신 글로벌 정보를 자동으로 수집하는 파이프라인을 구축했습니다. 정보의 적시성과 신뢰성을 보장하기 위해 저자 팀은 CNN, BBC, 일본의 아사히 신문, 중국의 신화 통신사 및 Reddit과 같은 포럼을 포함한 60개 이상의 뉴스 매체에서 출처를 선택했습니다. 구체적인 단계는 다음과 같습니다:以上がマルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的な補償、低コスト、ゼロ汚染の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。