本当にこんなに滑らかなのでしょうか？ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラママスクに基づくインスタンスセグメンテーションフレームワークを提案しました。

本当にこんなに滑らかなのでしょうか？ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラママスクに基づくインスタンスセグメンテーションフレームワークを提案しました。

王林

Apr 11, 2023 pm 05:16 PM

モデル電車

パノラマセグメンテーションは、画像の各ピクセルにセマンティックラベルとインスタンスラベルを割り当てることを目的とした基本的なビジョンタスクです。セマンティックラベルは各ピクセルのカテゴリ (空、垂直オブジェクトなど) を記述し、インスタンスラベルは画像内の各インスタンスに一意の ID を提供します (同じカテゴリの異なるインスタンスを区別するため)。このタスクは、セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせて、シーンに関する豊富なセマンティック情報を提供します。

意味ラベルのカテゴリは事前に固定されていますが、画像内のオブジェクトに割り当てられたインスタンス ID は、認識に影響を与えることなく交換できます。たとえば、2 台の車両のインスタンス ID を交換しても、結果には影響しません。したがって、インスタンス ID を予測するようにトレーニングされたニューラルネットワークは、単一の画像から複数のインスタンス ID の割り当てへの 1 対多のマッピングを学習できる必要があります。 1 対多のマッピングを学習するのは困難であり、従来の方法では、オブジェクトの検出、セグメンテーション、複数の予測のマージなどの多段階パイプラインを利用することがよくあります。最近、一部の学者は、微分可能な二部グラフマッチングに基づいて、認識マッチングに基づいて 1 対多のマッピングを 1 対 1 のマッピングに効果的に変換できるエンドツーエンドの方法を提案しました。ただし、これらの方法でも、カスタマイズされたアーキテクチャと特殊な損失関数、さらにパノラマセグメンテーションタスク用の組み込みの誘導バイアスが必要です。

Pix2Seq、OFA、UViM、Unified I/O などの最近の汎用ビジョンモデルは、一般化タスクを実行しながら実行できる一般的なタスク無制限のフレームワークを提唱しています。タスクは以前よりも改善されましたモデルははるかにシンプルになりました。たとえば、Pix2Seq は、画像に基づいて意味的に意味のある一連のシーケンスを生成して、いくつかの主要な視覚タスクを完了します。また、これらのモデルは、自己回帰モデルをトレーニングするための Transformer に基づいています。

Google Brain の Ting Chen 氏や Geoffrey Hinton 氏などの研究者は、新しい論文で同じ概念に従い、条件付き離散データ生成の観点からパノラマセグメンテーションタスクの問題を理解しています。

紙のリンク https://arxiv.org/pdf/2210.06366.pdf

#図 1 に示すように、研究者はパノラママスクの生成モデルを設計し、モデルに入力された画像ごとに一連の離散トークンを生成しました。ユーザーは、過去のフレームからの予測を追加の条件付き信号として使用するだけで、このモデルをビデオデータ (オンラインデータ/ストリーミングメディア) に適用できます。このようにして、モデルはオブジェクトの追跡とセグメント化を自動的に学習します。

パノラマセグメンテーションの生成モデリングは、パノラママスクが離散的またはカテゴリカルであり、モデルがおそらく非常に大きいため、非常に困難です。たとえば、512×1024 のパノラママスクを生成するには、モデルで 100 万を超える個別のタグ (セマンティックラベルとインスタンスラベル) を生成する必要があります。トークンは本質的にシーケンシャルであり、入力データのスケールが変化しても変更するのが難しいため、これは自己回帰モデルにとって依然として比較的高価です。拡散モデルは高次元データの処理に優れていますが、ほとんどの場合、離散領域ではなく連続領域に適用されます。著者らは、離散データをアナログビットで表現することにより、潜在空間を学習する必要なく、拡散モデルを大きなパノラママスク上で直接トレーニングできることを示した。

研究者らは、広範な実験を通じて、自分たちの一般的な手法が同様の環境において最先端の専門家による手法と競合できることを実証しました。

モデルアーキテクチャ

拡散モデルのサンプリングは反復的に実行されるため、推論中にネットワークの前方伝播を複数回実行する必要があります。したがって、図 2 に示すように、研究者らはネットワークを意図的に 2 つのコンポーネント (1) 画像エンコーダ、2) マスクデコーダに分割しました。前者は、生のピクセルデータを高レベルの表現ベクトルにマッピングし、マスクデコーダがパノラママスクを繰り返し読み出します。

ピクセル/画像エンコーダ

エンコーダは、元の画像本当にこんなに滑らかなのでしょうか？ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラママスクに基づくインスタンスセグメンテーションフレームワークを提案しました。を本当にこんなに滑らかなのでしょうか？ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラママスクに基づくインスタンスセグメンテーションフレームワークを提案しました。の特徴マップにマッピングするネットワークです。H' と w' はパノラママスクの高さです。そして幅。パノラママスクは、元の画像と同じサイズまたはそれより小さいサイズにすることができます。この研究では、研究者らは ResNet をバックボーンネットワークとして使用し、次に Transformer のエンコーダ層を特徴抽出器として使用しました。出力特徴マップが十分な解像度を持ち、U-Net と特徴ピラミッドネットワークからインスピレーションを得て、さまざまなスケールの特徴が含まれていることを確認するために、研究者らは、双方向接続による畳み込みと、異なる解像度からマージするアップサンプリング操作を使用しました。アーキテクチャ設計の最新の進歩を利用できる、より複雑なエンコーダを使用することもできますが、これはネットワークモデルの主な焦点ではないため、研究者は、モデル内でのその役割を説明するために、より単純な特徴抽出器を使用しているだけです。

マスクデコーダ

デコーダは、モデル推論中に画像の特徴に基づいて反復的に改良されます。具体的には、研究者が使用しているマスクデコーダは TransUNet です。ネットワークは、エンコーダーからの画像特徴マップとノイズマスク (ランダムに初期化されるか、エンコードプロセスから反復的に初期化される) の連結を入力として受け取り、マスクの正確な予測を出力します。デコーダと、画像生成および画像から画像への変換に関する標準的な U-Net アーキテクチャとの違いの 1 つは、この論文で使用されている U-Net では、アップサンプリングの前にクロスアテンション層を上部に持つトランスフォーマデコーダ層を使用していることです。エンコードされた画像の特徴。

ビデオモードでのアプリケーション

研究者は、次のような画像条件でパノラママスクをモデル化します。:p(m|x ）。特定のビデオの 3 次元マスク (追加の時間次元を伴う) に基づいて、私たちのモデルをビデオパノラマセグメンテーションに直接適用できます。オンライン/ストリーミングビデオ設定に適応させるために、代わりに p(m_t|x_t,m_(t-1),m_(t-k)) モデリングを使用して、現在の画像と前の画像のマスクに基づいて新しいパノラマを生成できます。瞬間のマスク。図 5 に示すように、この変更は、過去のパノラママスク (m_(t-1)、m_(t-k)) を既存のノイズマスクと連結することによって実現できます。この小さな変更を除けば、その他はすべてビデオの基本モデル (p(m|x)) と同じです。このモデルは非常にシンプルで、画像パノラマモデルを微調整することでビデオシーンに適用できます。

実験結果

この論文では、エキスパート手法と一般手法という 2 つの最先端の手法を比較します。方法。表 1 は、MS-COCO データセットの結果をまとめたものです。 ResNet-50 ベースのバックボーン上の Pix2Seq-D の一般化品質 (PQ) は、最先端の手法と競合します。 UViM などの他の最近の汎用モデルと比較して、当社のモデルはより効率的でありながら、パフォーマンスが大幅に向上しています。

#表 2 Pix2Seq-D と、標準 J&F のメトリクスを使用した、DAVIS データセット上の教師なしビデオオブジェクトセグメンテーションの最先端の手法との比較。他の一般的なモデルはタスクに直接適用できないため、ベースラインには含まれていないことに注意してください。私たちの方法は、特別な設計を必要とせずに、最先端の方法と同じ結果を達成します。

図 8、9、および 10 は、MS-COCO、Cityscape、および DAVIS での Pix2Seq-D の結果の例を示しています。

以上が本当にこんなに滑らかなのでしょうか？ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラママスクに基づくインスタンスセグメンテーションフレームワークを提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Google GeminiをTableau Dashboardsに統合する方法は？Apr 11, 2025 am 09:27 AM

TableauでGoogle Geminiのパワーを利用するダッシュボード：AI駆動の強化 Tableauの堅牢な視覚化機能、データ準備（Tableau Prep Builder）、データストーリーテリング（Tableau Desktop）、およびCollaborative共有（Table

ベクトル埋め込みとは何ですか？タイプとユースケースApr 11, 2025 am 09:18 AM

ベクトル埋め込みのパワーのロックを解除：生成AIのガイドあなたの言語を話さない人にラグ（検索拡張生成）を説明することを想像してください - 困難な仕事ですよね？今、マシンを検討してください

SQLのネストされたクエリApr 11, 2025 am 09:17 AM

導入内部に入れ子になった本が入った本を含む膨大な図書館を検索することを想像してみてください。特定の情報を見つけるには、最初に小さな情報を参照してから、その情報を使用して大きな本を見つけます。これは概念を示しています

条項Where SQLを理解しますApr 11, 2025 am 09:07 AM

SQL WHERE句：包括的なガイド句はSQLステートメントの基本的なコンポーネントであり、レコードのフィルタリングとデータベースから特定のデータの取得に使用されます。膨大な顧客データベースを想像してください - ここで句を使用すると、ピン留めすることができます

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 中国語版

中国語版、とても使いやすい

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。