検索
ホームページテクノロジー周辺機器AI完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

**4M** や **UnifiedIO** などの現在のマルチモーダルおよびマルチタスクの基本モデルは、有望な結果を示しています。ただし、さまざまな入力を受け入れ、さまざまなタスクを実行するすぐに使用できる能力は、トレーニング対象のモダリティとタスクの (通常は少数の) 数によって制限されます。

、これに基づいて、ローザンヌ工科大学 (EPFL) の研究者と Apple は共同で、数十の**幅広く**多様性のある**高度な** Any-to-Anyモーダル単一モデルを開発しました。さまざまなモダリティを利用し、大規模なマルチモーダル データセットとテキスト コーパスに対して共同トレーニングを実行します。

トレーニング プロセスの重要なステップは、画像のようなニューラル ネットワーク **特徴マップ**、ベクトル、インスタンス セグメンテーション、人間のポーズなどの構造化データであるかどうかにかかわらず、さまざまなモダリティに対して離散 **トークン化**を実行することです。テキストとして表現できるデータ。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

  • 論文アドレス: https://arxiv.org/pdf/2406.09406

  • 論文ホームページ https://4m.epfl.ch/

  • 論文タイトル: 4M-21: An Any数十のタスクとモダリティに対する任意のビジョン モデル

この研究は、単一モデルのトレーニングでも、既存のモデルの少なくとも**3倍**のタスク/**モダリティ**を完了できることを示しています。パフォーマンスが失われます。さらに、この研究では、よりきめ細かく、より制御可能なマルチモード データ生成機能も実現します。

この研究は、マルチモーダル マスクの事前トレーニング スキームに基づいて構築されており、数十の非常に多様なモダリティでトレーニングすることでモデルの機能を向上させます。この研究では、モダリティ固有の離散トークナイザーを使用してエンコードすることにより、異なるモダリティで単一の統合モデルをトレーニングできるようになります。

簡単に言うと、この研究はいくつかの主要な次元で既存のモデルの機能を拡張します:

  • モダリティ: 既存の最良の任意対任意モデルの 7 つのモダリティから 21 の異なるモダリティまで、クロスモーダル検索と制御可能な生成を可能にします。 、そしてすぐに使える強力なパフォーマンス。これは、パフォーマンスを損なうことなく、また従来のマルチタスク学習を行わずに、シングル ビジョン モデルが数十の異なるタスクを Any-to-Any 方式で解決できる初めてのことです。

  • 多様性: 人間のポーズ、SAM インスタンス、メタデータなど、より構造化されたデータのサポートを追加します。

  • トークン化: グローバル画像埋め込み、人間のポーズ、セマンティック インスタンスなどのモダリティ固有の方法を使用して、さまざまなモダリティの個別のトークン化を研究します。

  • 拡張: モデルサイズを 3B パラメーターに拡張し、データセットを 0.5B サンプルに拡張します。

  • 共同トレーニング: 視覚と言語を同時に共同トレーニングします。

方法の紹介

この研究では、4M 事前トレーニング スキームを使用しています (この研究は EPFL と Apple からも提供され、昨年リリースされました)。これは、複数のユーザーに効果的に拡張できる一般的な方法であることが証明されています。 -モダリティ。

具体的には、この記事では、モデルとデータセットのサイズを拡大し、モデルのトレーニングに関与するモダリティの種類と数を増やし、複数のデータセットを共同でトレーニングすることで、アーキテクチャとマルチモーダルマスクトレーニングの目標を変更しません。モデルのパフォーマンスと適応性を向上させます。

モダリティは、以下の図に示すように、RGB、ジオメトリ、セマンティクス、エッジ、特徴マップ、メタデータ、テキストのカテゴリに分類されます。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

トークン化

トークン化には主に、さまざまなモダリティやタスクをシーケンスまたは離散トークンに変換し、それによってそれらの表現空間を統一することが含まれます。図 3 に示すように、研究者はさまざまなトークン化方法を使用して、さまざまな特性を持つモードを離散化します。要約すると、この記事では、ViT トークナイザー、MLP トークナイザー、テキスト トークナイザーを含む 3 つのトークナイザーを使用します。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

アーキテクチャの選択に関して、この記事では Transformer に基づく 4M エンコーダ/デコーダ アーキテクチャを採用し、新しいモダリティに適応するために追加のモーダル エンベディングを追加します。

実験結果

次に、論文は 4M-21 のマルチモーダル機能を実証します。

マルチモーダル生成

反復復号トークンに基づいて、4M-21 を使用してあらゆるトレーニング モダリティを予測できます。図 2 に示すように、この論文では、特定の入力モダリティから一貫した方法ですべてのモダリティを生成できます。 完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

さらに、この研究では、他のモダリティのサブセットから任意のトレーニング モダリティを条件付きおよび無条件で生成できるため、図 4 に示すように、きめの細かいマルチモーダル生成を実行するためのいくつかの方法がサポートされています。たとえば、マルチモーダル編集を実行します。 。さらに、4M-21 は、T5-XXL 埋め込みと通常の字幕の両方でテキスト理解の向上を示し、幾何学的および意味論的に音声生成を可能にします (図 4、右上)。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

マルチモーダル取得

図 5 に示すように、4M-21 は、他のモダリティをクエリとして使用して RGB 画像や他のモダリティを取得するなど、元の DINOv2 および ImageBind モデルでは不可能な取得機能を解放します。 。さらに、4M-21 は、右の画像に示すように、複数のモダリティを組み合わせてグローバル エンベディングを予測し、取得の制御を向上させることができます。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

すぐに使える

4M-21 は、図 6 に示すように、箱から出してすぐにさまざまな一般的な視覚タスクを実行できます。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

表 1 は、DIODE 表面法線と深さの推定、COCO セマンティックとインスタンスのセグメンテーション、3DPW 3D 人間の姿勢推定などを評価します。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

転移実験

さらに、この記事では、B、L、XL の 3 つの異なるサイズのモデルもトレーニングしました。その後、エンコーダーはダウンストリーム タスクに転送され、シングル モダリティ (RGB) およびマルチ モダリティ (RGB + 深度) 設定で評価されます。すべての転送実験ではデコーダが破棄され、代わりにタスク固有のヘッドがトレーニングされます。結果を表 2 に示します。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

最後に、この論文では、NYUv2 でマルチモーダル転送、Hypersim セマンティック セグメンテーション、ARKitScenes で 3D オブジェクト検出を実行します。表 3 に示すように、4M-21 はオプションの深度入力を最大限に活用し、ベースラインを大幅に改善します。

完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売

以上が完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Power BIセマンティックモデルとは何ですか?Power BIセマンティックモデルとは何ですか?Apr 15, 2025 am 10:46 AM

導入 シナリオを想像してみてください。チームは、多様なソースからの大規模なデータセットに圧倒されます。 意味のあるプレゼンテーションのためにこの情報を統合、並べ替え、分析することは課題です。これは、パワーバイセマンティックモデル(PBISM)Ex

Llama IndexとMonsterapiを使用してAIエージェントを構築する方法Llama IndexとMonsterapiを使用してAIエージェントを構築する方法Apr 15, 2025 am 10:44 AM

AIエージェント:LlamaindexとMonsterapiを搭載したAIの未来 AIエージェントは、テクノロジーとの対話方法に革命をもたらす態勢を整えています。 これらの自律システムは、人間の行動を模倣し、推論、意思決定、およびREAを必要とするタスクを実行します

人間の介入なしでLLMを訓練する7つの方法人間の介入なしでLLMを訓練する7つの方法Apr 15, 2025 am 10:38 AM

自律AIのロック解除:自己トレーニングLLMの7つの方法 子どもたちが複雑な概念を独立して習得するように、AIシステムが人間の介入なしに学び、進化する未来を想像してください。これはサイエンスフィクションではありません。それは自己の約束です

AIおよびNLGによる財務報告の変革-AnalyticsVidhyaAIおよびNLGによる財務報告の変革-AnalyticsVidhyaApr 15, 2025 am 10:35 AM

AI搭載の財務報告:自然言語生成による洞察の革命 今日のダイナミックなビジネス環境では、戦略的意思決定には正確でタイムリーな財務分析が最重要です。 従来の財務報告

このGoogle Deepmindロボットは、2028年のオリンピックでプレイしますか?このGoogle Deepmindロボットは、2028年のオリンピックでプレイしますか?Apr 15, 2025 am 10:16 AM

Google Deepmind's Table Tennis Robot:スポーツとロボット工学の新しい時代 パリ2024年のオリンピックは終わったかもしれませんが、Google Deepmindのおかげで、スポーツとロボット工学の新しい時代が夜明けです。 彼らの画期的な研究(「「人間レベルの競争を達成する」

Gemini Flash1.5モデルで食品ビジョンWebAppを構築するGemini Flash1.5モデルで食品ビジョンWebAppを構築するApr 15, 2025 am 10:15 AM

Gemini Flash 1.5による効率とスケーラビリティのロック解除:Flask Food Vision WebApp 急速に進化するAIの状況では、効率とスケーラビリティが最重要です。 開発者は、コストとレイテンシを最小限に抑える高性能モデルをますます求めています

LlamainDexを使用してAIエージェントを実装しますLlamainDexを使用してAIエージェントを実装しますApr 15, 2025 am 10:11 AM

llamaindexを使用してAIエージェントのパワーを活用:ステップバイステップガイド 迅速な計算であろうと最新の市場ニュースを取得するかどうかにかかわらず、リクエストを理解し、完璧に実行するパーソナルアシスタントを想像してください。この記事で探求します

.ipynbファイルをPDF-分析vidhyaに変換する5つの方法.ipynbファイルをPDF-分析vidhyaに変換する5つの方法Apr 15, 2025 am 10:06 AM

Jupyter Notebook(.ipynb)ファイルは、データ分析、科学的コンピューティング、およびインタラクティブエンコーディングで広く使用されています。これらのノートブックは、他のデータサイエンティストとコードを開発および共有するのに最適ですが、PDFなどのより一般的に読みやすい形式に変換する必要がある場合があります。このガイドでは、.ipynbファイルをPDFに変換するさまざまな方法、およびヒント、ベストプラクティス、およびトラブルシューティングの提案をご覧ください。 目次 .ipynbをPDFに変換する理由 .ipynbファイルをPDFに変換する方法 JupyterノートブックUIを使用します nbconveを使用します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、