ホームページ  >  記事  >  テクノロジー周辺機器  >  Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

WBOY
WBOY転載
2024-01-25 11:09:051081ブラウズ

中国語と英語の 2 つの権威あるリストをリードする Kai-Fu Zero は、マルチモーダル大型モデル 解答用紙を手渡しました。

最初のオープンソース大型モデル Yi-34B および Yi-6B のリリースから 3 か月も経っていません。

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

このモデルは Yi Vision Language (Yi-VL) と呼ばれ、現在、世界に対して正式にオープンソースです。

は Yi シリーズに属し、

Yi-VL-34B と Yi-VL-6B の 2 つのバージョンもあります。

グラフィックやテキストの対話などのさまざまなシナリオで Yi-VL のパフォーマンスを体験するために、まず 2 つの例を見てみましょう:

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

Yi-VL 各図看板の内容説明だけでなく、「天井」まで徹底的に分析しました。

Yi-VL は中国語でも、明確かつ体系的に正確に表現できます:

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

さらに、公式テスト結果も提供されました。

Yi-VL-34B は、英語のデータセット MMMU で 41.6% の精度を持ち、55.7% の精度を持つ GPT-4V に次いで 2 番目であり、一連のマルチモーダルを上回っています。大型モデル。

中国のデータセット CMMMU では、Yi-VL-34B の精度は 36.5% であり、これは現在の最先端のオープンソース マルチモーダル モデルを上回っています。

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

#Yi-VL とはどのようなものですか?

Yi-VL は Yi 言語モデルに基づいて開発されています。Yi 言語モデルに基づいた強力なテキスト理解機能を確認できます。画像を並べるだけで、優れたマルチモーダル視覚言語モデルを取得できます。 - これも Yi-VL モデルの核となるハイライトの 1 つです。

アーキテクチャ設計の観点から見ると、Yi-VL モデルはオープンソース LLaVA アーキテクチャに基づいており、次の 3 つの主要モジュールが含まれています:

    Vision Transformer
  • (略して ViT) 画像エンコードの場合、オープンソースの OpenClip ViT-H/14 モデルを使用してトレーニング可能なパラメーターを初期化し、大規模な「画像とテキスト」のペアから特徴を抽出する方法を学習することで、モデル画像を処理して理解する能力があります。
  • 投影モジュールは、画像特徴とテキスト特徴をモデルに空間的に位置合わせする機能をもたらします。このモジュールは、層正規化
  • を含む多層パーセプトロン (多層パーセプトロン、MLP と呼ばれる) で構成されています。この設計により、モデルが視覚情報とテキスト情報をより効果的に融合して処理できるようになり、マルチモーダルの理解と生成の精度が向上します。 Yi-34B-Chat および Yi-6B-Chat の大規模言語モデルの導入により、Yi-VL に強力な言語理解および生成機能が提供されます。モデルのこの部分では、高度な自然言語処理テクノロジーを使用して、Yi-VL が複雑な言語構造を深く理解し、一貫した関連性のあるテキスト出力を生成できるようにします。
Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。△キャプション: Yi-VL モデル アーキテクチャの設計とトレーニング方法のプロセスの概要

トレーニング方法

について、Yi - VL モデルのトレーニング プロセスは 3 つの段階に分かれており、モデルの視覚処理能力と言語処理能力を包括的に向上させることを目的としています。 最初の段階では、ViT モジュールと投影モジュールが 1 億個の「画像とテキスト」のペアのデータセットを使用してトレーニングされます。

この段階では、大規模な言語モデルとの効率的な調整を達成しながら、特定のアーキテクチャにおける ViT の知識獲得機能を強化するために、画像解像度は 224x224 に設定されています。

第 2 段階では、ViT の画像解像度が 448x448 に増加し、モデルが複雑な視覚的詳細をよりよく認識できるようになります。この段階では約 2,500 万の「画像とテキスト」のペアが使用されます。

第 3 段階では、マルチモーダル チャット インタラクションにおけるモデルのパフォーマンスを向上させることを目的として、モデル全体のパラメーターがトレーニング用に公開されます。トレーニング データは、合計約 100 万の「画像とテキスト」のペアを含む多様なデータ ソースをカバーし、データの幅とバランスを確保しています。

zero-yiwu 技術チームは、BLIP、Flamingo、EVA などの他のマルチモーダル トレーニング方法を使用して、イー言語モデルの強力な言語理解および生成機能に基づいて効率的な画像を迅速にトレーニングできることも検証しました。グラフィック テキストの対話を理解し、スムーズにするためのマルチモーダル グラフィック テキスト モデル。

Yi シリーズ モデルは、マルチモーダル モデルの基本言語モデルとして使用でき、オープン ソース コミュニティに新しいオプションを提供します。同時に、ゼロワン シングスのマルチモーダル チームは、より速く GPT-4V に近づき、GPT-4V を超え、世界初のエシュロン レベルに到達するために、マルチモーダルの事前トレーニングをゼロから模索しています。

Yi-VL モデルは現在、Hugging Face や ModelScope などのプラットフォームで公開されており、ユーザーはグラフィックやテキストの対話などのさまざまなシナリオでこのモデルのパフォーマンスを直接体験できます。

一連の大規模マルチモーダル モデルを超えて

新しいマルチモーダル ベンチマーク テスト MMMU では、Yi-VL-34B と Yi-VL-6B の両方のバージョンが良好なパフォーマンスを示しました。

MMMU (フルネーム Massive Multi-discipline Multi-modal Understanding & Reasoning Massive Multi-discipline Multi-modal Understanding and Reasoning) データ セットには、6 つの中核分野からの 11,500 人の被験者が含まれています (芸術とデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学) 非常に異質な画像タイプと絡み合ったテキスト画像情報を含む質問は、モデルの高度な認識能力と推論能力が非常に高いレベルに達することに課題をもたらします。要求します。

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

Yi-VL-34B は、このテスト セットで 41.6% の精度で一連のマルチモーダル大型モデルを上回り、GPT-4V に次いで 2 位となりました (55.7%)、学際的な知識を理解し、応用する高い能力を示しています。

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

同様に、中国向けに作成された CMMMU データセットでは、Yi-VL モデルは「中国人をよりよく理解する」という独自の利点を示しています。

CMMMU には、大学の試験、テスト、教科書から派生した約 12,000 の中国語のマルチモーダルな質問が含まれています。

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

その中で、GPT-4V はこのテスト セットで 43.7% の精度を持ち、次に Yi-VL-34B が 36.5% の精度で、現在トップをリードしています。最先端のオープンソース マルチモーダル モデル。

Kai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。

プロジェクトアドレス:
[1]https://huggingface.co/01-ai

[2] https://www.modelscope.cn/organization/01ai

以上がKai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。