


本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。
パノラマ セグメンテーションは、画像の各ピクセルにセマンティック ラベルとインスタンス ラベルを割り当てることを目的とした基本的なビジョン タスクです。セマンティック ラベルは各ピクセルのカテゴリ (空、垂直オブジェクトなど) を記述し、インスタンス ラベルは画像内の各インスタンスに一意の ID を提供します (同じカテゴリの異なるインスタンスを区別するため)。このタスクは、セマンティック セグメンテーションとインスタンス セグメンテーションを組み合わせて、シーンに関する豊富なセマンティック情報を提供します。
意味ラベルのカテゴリは事前に固定されていますが、画像内のオブジェクトに割り当てられたインスタンス ID は、認識に影響を与えることなく交換できます。たとえば、2 台の車両のインスタンス ID を交換しても、結果には影響しません。したがって、インスタンス ID を予測するようにトレーニングされたニューラル ネットワークは、単一の画像から複数のインスタンス ID の割り当てへの 1 対多のマッピングを学習できる必要があります。 1 対多のマッピングを学習するのは困難であり、従来の方法では、オブジェクトの検出、セグメンテーション、複数の予測のマージなどの多段階パイプラインを利用することがよくあります。最近、一部の学者は、微分可能な二部グラフ マッチングに基づいて、認識マッチングに基づいて 1 対多のマッピングを 1 対 1 のマッピングに効果的に変換できるエンドツーエンドの方法を提案しました。ただし、これらの方法でも、カスタマイズされたアーキテクチャと特殊な損失関数、さらにパノラマ セグメンテーション タスク用の組み込みの誘導バイアスが必要です。
Pix2Seq、OFA、UViM、Unified I/O などの最近の汎用ビジョン モデルは、一般化タスクを実行しながら実行できる一般的なタスク無制限のフレームワークを提唱しています。タスクは以前よりも改善されました モデルははるかにシンプルになりました。たとえば、Pix2Seq は、画像に基づいて意味的に意味のある一連のシーケンスを生成して、いくつかの主要な視覚タスクを完了します。また、これらのモデルは、自己回帰モデルをトレーニングするための Transformer に基づいています。
Google Brain の Ting Chen 氏や Geoffrey Hinton 氏などの研究者は、新しい論文で同じ概念に従い、条件付き離散データ生成の観点からパノラマ セグメンテーション タスクの問題を理解しています。
紙のリンク https://arxiv.org/pdf/2210.06366.pdf
#図 1 に示すように、研究者はパノラマ マスクの生成モデルを設計し、モデルに入力された画像ごとに一連の離散トークンを生成しました。ユーザーは、過去のフレームからの予測を追加の条件付き信号として使用するだけで、このモデルをビデオ データ (オンライン データ/ストリーミング メディア) に適用できます。このようにして、モデルはオブジェクトの追跡とセグメント化を自動的に学習します。
研究者らは、広範な実験を通じて、自分たちの一般的な手法が同様の環境において最先端の専門家による手法と競合できることを実証しました。
モデル アーキテクチャ
拡散モデルのサンプリングは反復的に実行されるため、推論中にネットワークの前方伝播を複数回実行する必要があります。したがって、図 2 に示すように、研究者らはネットワークを意図的に 2 つのコンポーネント (1) 画像エンコーダ、2) マスク デコーダに分割しました。前者は、生のピクセル データを高レベルの表現ベクトルにマッピングし、マスク デコーダがパノラマ マスクを繰り返し読み出します。
ピクセル/画像エンコーダ エンコーダは、元の画像 マスク デコーダ デコーダは、モデル推論中に画像の特徴に基づいて反復的に改良されます。具体的には、研究者が使用しているマスク デコーダは TransUNet です。ネットワークは、エンコーダーからの画像特徴マップとノイズ マスク (ランダムに初期化されるか、エンコード プロセスから反復的に初期化される) の連結を入力として受け取り、マスクの正確な予測を出力します。デコーダと、画像生成および画像から画像への変換に関する標準的な U-Net アーキテクチャとの違いの 1 つは、この論文で使用されている U-Net では、アップサンプリングの前にクロスアテンション層を上部に持つトランスフォーマ デコーダ層を使用していることです。エンコードされた画像の特徴。 ビデオ モードでのアプリケーション 研究者は、次のような画像条件でパノラマ マスクをモデル化します。:p(m|x )。特定のビデオの 3 次元マスク (追加の時間次元を伴う) に基づいて、私たちのモデルをビデオ パノラマ セグメンテーションに直接適用できます。オンライン/ストリーミング ビデオ設定に適応させるために、代わりに p(m_t|x_t,m_(t-1),m_(t-k)) モデリングを使用して、現在の画像と前の画像のマスクに基づいて新しいパノラマを生成できます。瞬間のマスク。図 5 に示すように、この変更は、過去のパノラマ マスク (m_(t-1)、m_(t-k)) を既存のノイズ マスクと連結することによって実現できます。この小さな変更を除けば、その他はすべてビデオの基本モデル (p(m|x)) と同じです。このモデルは非常にシンプルで、画像パノラマ モデルを微調整することでビデオ シーンに適用できます。 この論文では、エキスパート手法と一般手法という 2 つの最先端の手法を比較します。方法。表 1 は、MS-COCO データセットの結果をまとめたものです。 ResNet-50 ベースのバックボーン上の Pix2Seq-D の一般化品質 (PQ) は、最先端の手法と競合します。 UViM などの他の最近の汎用モデルと比較して、当社のモデルはより効率的でありながら、パフォーマンスが大幅に向上しています。 #表 2 Pix2Seq-D と、標準 J&F のメトリクスを使用した、DAVIS データセット上の教師なしビデオ オブジェクト セグメンテーションの最先端の手法との比較。他の一般的なモデルはタスクに直接適用できないため、ベースラインには含まれていないことに注意してください。私たちの方法は、特別な設計を必要とせずに、最先端の方法と同じ結果を達成します。 図 8、9、および 10 は、MS-COCO、Cityscape、および DAVIS での Pix2Seq-D の結果の例を示しています。 を
の特徴マップにマッピングするネットワークです。H' と w' はパノラマ マスクの高さです。そして幅。パノラマ マスクは、元の画像と同じサイズまたはそれより小さいサイズにすることができます。この研究では、研究者らは ResNet をバックボーン ネットワークとして使用し、次に Transformer のエンコーダ層を特徴抽出器として使用しました。出力特徴マップが十分な解像度を持ち、U-Net と特徴ピラミッド ネットワークからインスピレーションを得て、さまざまなスケールの特徴が含まれていることを確認するために、研究者らは、双方向接続による畳み込みと、異なる解像度からマージするアップサンプリング操作を使用しました。アーキテクチャ設計の最新の進歩を利用できる、より複雑なエンコーダを使用することもできますが、これはネットワーク モデルの主な焦点ではないため、研究者は、モデル内でのその役割を説明するために、より単純な特徴抽出器を使用しているだけです。
実験結果
以上が本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

TableauでGoogle Geminiのパワーを利用するダッシュボード:AI駆動の強化 Tableauの堅牢な視覚化機能、データ準備(Tableau Prep Builder)、データストーリーテリング(Tableau Desktop)、およびCollaborative共有(Table

ベクトル埋め込みのパワーのロックを解除:生成AIのガイド あなたの言語を話さない人にラグ(検索拡張生成)を説明することを想像してください - 困難な仕事ですよね? 今、マシンを検討してください

導入 内部に入れ子になった本が入った本を含む膨大な図書館を検索することを想像してみてください。 特定の情報を見つけるには、最初に小さな情報を参照してから、その情報を使用して大きな本を見つけます。これは概念を示しています

SQL WHERE句:包括的なガイド 句はSQLステートメントの基本的なコンポーネントであり、レコードのフィルタリングとデータベースから特定のデータの取得に使用されます。 膨大な顧客データベースを想像してください - ここで句を使用すると、ピン留めすることができます

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SublimeText3 中国語版
中国語版、とても使いやすい

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
