ホームページ > 記事 > テクノロジー周辺機器 > ICCV 2023 は、ControlNet や「Split Everything」などの人気論文の受賞者を発表
今週、コンピュータ ビジョンに関する国際会議 (ICCV) がフランスのパリで開幕しました。
ICCV は、コンピュータ ビジョン分野における世界トップの学術会議として、2 年ごとに開催されます。
CVPR と同様に、ICCV の人気も新たな高みを記録しています。
本日の開会式で、ICCV は今年の論文データを正式に発表しました。今年の ICCV への投稿総数は 8,068 件に達し、そのうち 2,160 件が受理され、受理率は 26.8% でした。前回の ICCV 2021 の採択率 25.9% よりわずかに高い
論文のトピックに関して、公式は関連データも発表しました: マルチビュー
今日の開会式で最も重要なのは、受賞情報の発表です。それでは、最優秀論文、最優秀論文ノミネート、最優秀学生論文を 1 つずつ発表しましょう
合計 2 つ論文が今年の最優秀論文(マー賞)を受賞しました。
最初の記事はトロント大学の研究者によるものです。
要約: この論文では、動的なシーンを極端な時間スケール (秒からピコ秒) で同時にイメージングする問題を検討します。イメージングは受動的に行われます。 、光があまりなく、それを発する光源からのタイミング信号もありません。この場合、単一光子カメラ用の既存のフラックス推定技術は失敗するため、確率計算から洞察を引き出し、光子検出タイムスタンプのストリームで再構成されたピクセルの時変フラックスを可能にするフラックス検出理論を開発します。
この論文では、この理論を使用して、パッシブ自走 SPAD カメラが低磁束条件下で DC から 31 GHz の範囲全体にわたる達成可能な周波数帯域幅を持っていることを示します。同時に、この論文は新しいフーリエ領域磁束再構成アルゴリズムも導出し、このアルゴリズムのノイズ モデルが非常に低い光子数または無視できないデッド タイムの下でも依然として有効であることを保証します
この非同期イメージング メカニズムの可能性は実験的に実証されています: (1) 異なる速度で動作する光源 (電球、プロジェクター、複数のパルス レーザーなど) によって同時に照らされたシーンをイメージングする場合、同期は必要ありません; (2) 受動的非同期を達成します。 -見通し線ビデオ コレクション; (3) 超広帯域ビデオを録画し、後で 30 Hz で再生して日常の動きを表示するか、10 億倍遅く再生して光自体の伝播を表示します#2 番目の記事は、ControNet として知られているものです。
論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
ControlNet の中心となるアイデアは、テキストの説明にいくつかの追加条件を追加して拡散モデル (安定拡散など) を制御することにより、キャラクターのポーズ、深度、画像構造、およびその他の情報をより適切に制御することです。生成された画像。
ここでの追加条件は画像の形式で入力され、モデルはこれに基づいてキャニーエッジ検出、深度検出、セマンティックセグメンテーション、ハフ変換ライン検出、および全体のネスティングを実行できます。入力画像、エッジ検出 (HED)、人間の姿勢認識などを行い、生成された画像にこの情報を保持します。このモデルを利用することで、線画や落書きを直接フルカラー画像に変換したり、同じ奥行き構造の画像を生成したり、手のキーポイントによるキャラクターの手の生成を最適化したりすることができます。
Heart of the Machine のレポート「AI 次元削減が人間の画家を襲い、ヴィンセント グラフが ControlNet に導入され、深さとエッジ情報が完全に再利用」 より詳しい紹介をご覧ください
今年 4 月に、Meta は「」という論文をリリースしました。あらゆる画像やビデオ内のオブジェクトのマスクを生成できる「Separate Everything (SAM)」人工知能モデルは、コンピューター ビジョンの分野の研究者に衝撃を与えました。「コンピューター ビジョンはもう存在しない」とさえ言う人もいます
この注目度の高い論文が最優秀論文にノミネートされました。
書き換えられた内容: セグメンテーションの問題を解決する前に、通常 2 つの方法があります。 1 つ目はインタラクティブ セグメンテーションです。これは、任意のクラスのオブジェクトをセグメント化するために使用できますが、人間がマスクを繰り返し調整してメソッドをガイドする必要があります。 2 つ目は自動セグメンテーションです。これは、事前定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化するために使用できますが、トレーニングのために手動で注釈を付けた多数のオブジェクト (セグメント化された猫の数千または数万の例など) が必要です。 。ただし、これら 2 つの方法はどちらも、普遍的な完全自動セグメンテーション方法を提供するものではありません。
Meta によって提案された SAM は、これら 2 つの方法をうまく一般化しています。インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行できる単一モデルです。モデルのプロンプト可能なインターフェイスにより、ユーザーは柔軟な方法でモデルを使用できるため、モデルに適切なプロンプト (クリック、ボックスの選択、テキストなど) を設計するだけで幅広いセグメンテーション タスクを実行できます
要約すると、これらの機能により、SAM は新しいタスクやドメインに適応できるようになります。この柔軟性は、画像セグメンテーションの分野では他に類を見ないものです。
詳細については、Heart of the Machine レポート「CV Doesn't Exist?」を参照してください。 Meta が「すべてを分割」AI モデルをリリース、CV が GPT-3 の瞬間を先導する可能性》
調査は次の者によって実施されました。この研究はコーネル大学、Google Research、カリフォルニア大学バークレー校の研究者によって共同で完成され、最初の研究者はコーネル工科大学の博士課程学生である Qianqian Wang でした。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。
この研究で提案されたオムニモーションは、準 3D 正準ボリュームを使用してビデオを特徴付け、ローカル空間と正準空間の間の全単射を通じて各ピクセルを追跡します。この表現により、グローバルな一貫性が実現され、オブジェクトが遮られている場合でもモーション トラッキングが可能になり、カメラとオブジェクトのモーションのあらゆる組み合わせがモデル化されます。この研究は、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験的に示しています。
より詳細な紹介については、Heart of Machine レポート「いつでもどこでもすべてのピクセルを追跡し、オクルージョンを恐れない「すべてを追跡」ビデオ アルゴリズムが登場」を参照してください。 これらの受賞論文に加えて、今年の ICCV には、誰もが注目する価値のある優れた論文が数多く掲載されています。以下は 17 件の受賞論文の最初のリストです。
以上がICCV 2023 は、ControlNet や「Split Everything」などの人気論文の受賞者を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。