完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売-AI-php.cn

ホームページ

テクノロジー周辺機器

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 25, 2024 pm 05:17 PM

プロジェクトアップル社。4M-21EPFL

**4M** や **UnifiedIO** などの現在のマルチモーダルおよびマルチタスクの基本モデルは、有望な結果を示しています。ただし、さまざまな入力を受け入れ、さまざまなタスクを実行するすぐに使用できる能力は、トレーニング対象のモダリティとタスクの (通常は少数の) 数によって制限されます。

、これに基づいて、ローザンヌ工科大学 (EPFL) の研究者と Apple は共同で、数十の**幅広く**多様性のある**高度な** Any-to-Anyモーダル単一モデルを開発しました。さまざまなモダリティを利用し、大規模なマルチモーダルデータセットとテキストコーパスに対して共同トレーニングを実行します。

トレーニングプロセスの重要なステップは、画像のようなニューラルネットワーク **特徴マップ**、ベクトル、インスタンスセグメンテーション、人間のポーズなどの構造化データであるかどうかにかかわらず、さまざまなモダリティに対して離散 **トークン化**を実行することです。テキストとして表現できるデータ。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

論文アドレス: https://arxiv.org/pdf/2406.09406
論文ホームページ https://4m.epfl.ch/
論文タイトル: 4M-21: An Any数十のタスクとモダリティに対する任意のビジョンモデル

この研究は、単一モデルのトレーニングでも、既存のモデルの少なくとも**3倍**のタスク/**モダリティ**を完了できることを示しています。パフォーマンスが失われます。さらに、この研究では、よりきめ細かく、より制御可能なマルチモードデータ生成機能も実現します。

この研究は、マルチモーダルマスクの事前トレーニングスキームに基づいて構築されており、数十の非常に多様なモダリティでトレーニングすることでモデルの機能を向上させます。この研究では、モダリティ固有の離散トークナイザーを使用してエンコードすることにより、異なるモダリティで単一の統合モデルをトレーニングできるようになります。

簡単に言うと、この研究はいくつかの主要な次元で既存のモデルの機能を拡張します:

モダリティ: 既存の最良の任意対任意モデルの 7 つのモダリティから 21 の異なるモダリティまで、クロスモーダル検索と制御可能な生成を可能にします。、そしてすぐに使える強力なパフォーマンス。これは、パフォーマンスを損なうことなく、また従来のマルチタスク学習を行わずに、シングルビジョンモデルが数十の異なるタスクを Any-to-Any 方式で解決できる初めてのことです。
多様性: 人間のポーズ、SAM インスタンス、メタデータなど、より構造化されたデータのサポートを追加します。
トークン化: グローバル画像埋め込み、人間のポーズ、セマンティックインスタンスなどのモダリティ固有の方法を使用して、さまざまなモダリティの個別のトークン化を研究します。
拡張: モデルサイズを 3B パラメーターに拡張し、データセットを 0.5B サンプルに拡張します。
共同トレーニング: 視覚と言語を同時に共同トレーニングします。

方法の紹介

この研究では、4M 事前トレーニングスキームを使用しています (この研究は EPFL と Apple からも提供され、昨年リリースされました)。これは、複数のユーザーに効果的に拡張できる一般的な方法であることが証明されています。 -モダリティ。

具体的には、この記事では、モデルとデータセットのサイズを拡大し、モデルのトレーニングに関与するモダリティの種類と数を増やし、複数のデータセットを共同でトレーニングすることで、アーキテクチャとマルチモーダルマスクトレーニングの目標を変更しません。モデルのパフォーマンスと適応性を向上させます。

モダリティは、以下の図に示すように、RGB、ジオメトリ、セマンティクス、エッジ、特徴マップ、メタデータ、テキストのカテゴリに分類されます。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

トークン化

トークン化には主に、さまざまなモダリティやタスクをシーケンスまたは離散トークンに変換し、それによってそれらの表現空間を統一することが含まれます。図 3 に示すように、研究者はさまざまなトークン化方法を使用して、さまざまな特性を持つモードを離散化します。要約すると、この記事では、ViT トークナイザー、MLP トークナイザー、テキストトークナイザーを含む 3 つのトークナイザーを使用します。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

アーキテクチャの選択に関して、この記事では Transformer に基づく 4M エンコーダ/デコーダアーキテクチャを採用し、新しいモダリティに適応するために追加のモーダルエンベディングを追加します。

実験結果

次に、論文は 4M-21 のマルチモーダル機能を実証します。

マルチモーダル生成

反復復号トークンに基づいて、4M-21 を使用してあらゆるトレーニングモダリティを予測できます。図 2 に示すように、この論文では、特定の入力モダリティから一貫した方法ですべてのモダリティを生成できます。完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

さらに、この研究では、他のモダリティのサブセットから任意のトレーニングモダリティを条件付きおよび無条件で生成できるため、図 4 に示すように、きめの細かいマルチモーダル生成を実行するためのいくつかの方法がサポートされています。たとえば、マルチモーダル編集を実行します。。さらに、4M-21 は、T5-XXL 埋め込みと通常の字幕の両方でテキスト理解の向上を示し、幾何学的および意味論的に音声生成を可能にします (図 4、右上)。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

マルチモーダル取得

図 5 に示すように、4M-21 は、他のモダリティをクエリとして使用して RGB 画像や他のモダリティを取得するなど、元の DINOv2 および ImageBind モデルでは不可能な取得機能を解放します。。さらに、4M-21 は、右の画像に示すように、複数のモダリティを組み合わせてグローバルエンベディングを予測し、取得の制御を向上させることができます。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

すぐに使える

4M-21 は、図 6 に示すように、箱から出してすぐにさまざまな一般的な視覚タスクを実行できます。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

表 1 は、DIODE 表面法線と深さの推定、COCO セマンティックとインスタンスのセグメンテーション、3DPW 3D 人間の姿勢推定などを評価します。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

転移実験

さらに、この記事では、B、L、XL の 3 つの異なるサイズのモデルもトレーニングしました。その後、エンコーダーはダウンストリームタスクに転送され、シングルモダリティ (RGB) およびマルチモダリティ (RGB + 深度) 設定で評価されます。すべての転送実験ではデコーダが破棄され、代わりにタスク固有のヘッドがトレーニングされます。結果を表 2 に示します。

完成度高すぎ！ Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売