ホームページ >テクノロジー周辺機器 >AI >Yi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされています

Yi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされています

WBOY転載: 2024-01-22 21:30:21421ブラウズ

1 月 22 日、Yi シリーズモデルファミリに新しいメンバーが加わりました。Yi ビジョン言語 (Yi-VL) マルチモーダル言語の大規模モデルが正式に世界にオープンソースになりました。 Yi-VL モデルは Yi 言語モデルに基づいて開発されており、2 つのバージョン : Yi-VL-34B と Yi-VL-6B が含まれていることが報告されています。

#Yi-VL モデルのオープンソースアドレス:

https://huggingface.co/01-ai
https://www.modelscope.cn/organization/01ai

#画像とテキストの優れた理解と対話生成Yi-VL モデルは、英語のデータセット MMMU と中国語のデータセット CMMMU で優れた結果を達成しており、複雑な学際的なタスクにおいてその強力な強みを実証しています。

MMMU (正式名称 Massive Multi-discipline Multi-modal Understanding & Reasoning) データセットには、分野 (アート & デザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学など) には、非常に異質な画像タイプと絡み合ったテキストと画像情報が含まれており、モデルの高度な認識能力と推論能力に非常に高い要求が課せられます。このテストセットでは、

Yi-VL-34B は一連のマルチモーダル大型モデルを 41.6% の精度で上回り、GPT-4V (55.7%) に次ぐ

という強力な相互理解能力を示しました。そして主題の知識を応用します。

Yi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされています

# ソース: https://mmmu-benchmark.github.io

中国向けに作成された CMMMU データセットでは、Yi-VL モデルは「中国人をよりよく理解する」という独自の利点を示しています。 CMMMU には、大学の試験、クイズ、教科書から派生した約 12,000 の中国語の複合問題が含まれています。その中で、
GPT-4V はこのテストセットで 43.7% の精度を示し、Yi-VL-34B が 36.5%

の精度で僅差で続き、既存のオープンソースマルチモーダルモデルの中でランクされています。位置。

Yi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされています

Yi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされています出典: https://cmmmu-benchmark.github.io/

#それでは、Yi-VL モデルはグラフィックやテキストの対話などのさまざまなシナリオでどのように機能するのでしょうか?

まず 2 つの例を見てみましょう:

Yi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされていますご覧のとおり, Yi 言語モデルの強力なテキスト理解機能に基づいて、画像を並べるだけで優れたマルチモーダルなビジュアル言語モデルを取得できます。これは、Yi-VL モデルの中核となるハイライトの 1 つでもあります。

Yi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされています

^{Yi-VL モデルアーキテクチャの設計とトレーニング方法のプロセスの概要。}

アーキテクチャ設計の観点から見ると、Yi-VLモデルはオープンソースのLLaVAアーキテクチャ#に基づいています。 ## および 3 つのメインモジュールが含まれています:

トレーニング方法

に関して、Yi-VL モデルのトレーニングプロセスは慎重に設計された 3 つの段階に分かれています。モデルの視覚および言語処理能力を包括的に向上させることを目指しています。

ゼロワンシングスの技術チームは、強力な言語理解と生成機能に基づいて、他のマルチモーダルトレーニングを使用できることも検証しました。 BLIP、Flamingo、EVA などのメソッドは、効率的な画像理解とスムーズなグラフィックとテキストの対話を実行できるマルチモーダルグラフィックおよびテキストモデルを迅速にトレーニングできます。 Yi シリーズモデルはマルチモーダルモデルの基本言語モデルとして使用でき、オープンソースコミュニティに新しいオプションを提供します。

現在、Yi-VLモデルはHugging FaceやModelScopeなどのプラットフォームで公開されており、ユーザーはこのモデルの多面的な機能をグラフィックを通じて体験することができます。次のリンクからテキストダイアログを利用できます。シーンでの優れたパフォーマンス。 Yi-VL マルチモーダル言語モデルの強力な機能を探索し、最先端の AI テクノロジーの成果を体験してください。

以上がYi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 github transformer https gpt

声明：

この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：機械学習プロジェクトの編成方法: Crisp-DM の応用次の記事：機械学習プロジェクトの編成方法: Crisp-DM の応用

続きを見る