ICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞-AI-php.cn

ホームページ

テクノロジー周辺機器

ICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 04, 2023 pm 09:37 PM

業界iccv

コンピュータビジョンに関する国際会議 ICCV (International Conference on Computer Vision) が今週、フランスのパリで開幕しました

ICCV は、世界的なコンピュータビジョン分野のトップ学術会議として、隔年で開催されます。

ICCV の人気は常に CVPR と同等であり、何度も最高値を更新しました

本日の開会式で、ICCV は今年の論文データを正式に発表しました。今年の ICCV には合計 8,068 件の論文が投稿されました、そのうち 2,160 件が採択され、採択率は 26.8% で、前回の ICCV 2021 の採択率 25.9% をわずかに上回りました

論文のトピックに関しては、公式も発表関連データが取得されました: 複数の視野角とセンサーを備えた 3D テクノロジーが最も人気があります

今日の開会式で最も重要な部分は間違いなく賞のプレゼンテーション。次に、最優秀論文、最優秀論文ノミネート、最優秀学生論文の受賞者を順次発表します。

Best Paper-Marr Award

今年の最優秀論文(マー賞) 2 つの論文がこの賞を受賞しました

最初の研究はトロント大学の研究者によって実施されました

論文アドレス: https: //openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos

書き直された内容: トロント大学は有名な機関です

要約: この論文では、極端な時間スケールの範囲を同時に (秒からピコ秒まで) 検討します動的なシーンの画像化の問題、そしてそれを受動的に、あまり光を使わず、それを発する光源からのタイミング信号も使わずに行います。この場合、単一光子カメラ用の既存のフラックス推定技術は失敗するため、確率計算から洞察を引き出し、光子検出タイムスタンプのストリームで再構成されたピクセルの時変フラックスを可能にするフラックス検出理論を開発します。

この論文では、この理論を使用して、(1) パッシブ自走 SPAD カメラが低磁束条件下で達成可能な周波数帯域幅を持ち、DC ～ 31 GHz の範囲全体に及ぶことを示し、(2) 新しいフーリエ領域磁束再構成アルゴリズム、および (3) 非常に低い光子数または無視できないデッドタイムに対しても、アルゴリズムのノイズモデルが有効なままであることを保証します。

ControlNetやSAMなどの人気論文が受賞し、ICCV 2023論文賞が発表されました。この論文は、この非同期イメージングメカニズムの可能性を実験的に示しています。(1) 大幅に異なる速度で動作する光源 (電球、プロジェクター、複数のパルスレーザー) によって照明されたシーンを同期せずに同時にイメージングする、(2) 受動的な非ラインオブ-視覚ビデオの取得; (3) 超広帯域ビデオを記録し、後で 30 Hz で再生して日常の動きを表示できますが、10 億倍遅くして光自体の伝播を表示することもできます

書き直す必要があるコンテンツは次のとおりです。2 番目の記事は、ControNet として知られているものです。

#論文のアドレス:

https ://arxiv. org/pdf/2302.05543.pdf

著者: Zhang Lumin、Rao Anyi、Maneesh Agrawala

機関: スタンフォード大学

要約: この記事は提案されています追加条件を追加することで拡散モデル(安定拡散など)を制御し、画像生成効果を向上させ、線画や線画からフルカラー画像を生成できる、to-endニューラルネットワークアーキテクチャControlNetを開発同じ深さの構造を生成し、マップ、手のキーポイントを使用して手の生成などを最適化することもできます。

ControlNet の中心となるアイデアは、テキストの説明にいくつかの追加条件を追加して拡散モデル (安定拡散など) を制御することにより、生成された画像のキャラクターのポーズ、奥行き、画像構造、その他の情報をより適切に制御することです。。

次のように書き換えられます: 画像の形式で追加の条件を入力して、モデルがキャニーエッジ検出、深度検出、セマンティックセグメンテーション、ハフ変換ライン検出、全体的なネストされたエッジ検出 (HED)、人間のポーズを実行できるようにします。認識やその他の操作を実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きを直接フルカラー画像に変換し、同じ奥行き構造の画像を生成できると同時に、手のキーポイントによるキャラクターの手の生成を最適化することもできます。

AI 次元削減が人間のペインターを攻撃、ヴィンセントグラフが ControlNet に導入され、深さとエッジ情報が完全に再利用可能

Best Paper ノミネート: SAM

今年 4 月、Meta は「Segment Everything (SAM)」と呼ばれる AI モデルをリリースしました。これは、オブジェクト内のあらゆるオブジェクトのマスクを生成できます。画像またはビデオ。このテクノロジーはコンピュータビジョンの分野の研究者に衝撃を与え、「CV はもう存在しない」とさえ呼ぶ人もいました。

この注目を集めた論文が最優秀論文にノミネートされました。

https://arxiv.org/abs/2304.02643

書き換えられた内容: 機関: Meta AI

書き直された内容: 現在、セグメンテーションの問題を解決するには 2 つの方法があります。 1 つ目はインタラクティブセグメンテーションです。これは、任意のクラスのオブジェクトをセグメント化するために使用できますが、人間がマスクを繰り返し調整してメソッドをガイドする必要があります。 2 つ目は自動セグメンテーションです。これは、事前定義された特定のオブジェクトカテゴリ (猫や椅子など) をセグメント化するために使用できますが、トレーニングのために手動で注釈を付けた多数のオブジェクト (セグメント化された猫の数千または数万の例など) が必要です。。これら 2 つの方法はいずれも、普遍的な完全自動セグメンテーション方法を提供するものではありません。

Meta によって提案された SAM は、これら 2 つの方法をうまく要約しています。インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行できる単一モデルです。モデルのプロンプト可能なインターフェイスにより、ユーザーは柔軟な方法でモデルを使用できます。モデルに適切なプロンプト (クリック、ボックスの選択、テキストなど) を設計するだけで、幅広いセグメンテーションタスクを完了できます。

概要、これらの機能により、SAM は新しいタスクやドメインに適応できます。この柔軟性は画像セグメンテーションの分野では他に類を見ないものです。

詳細な紹介については、このサイトのレポートを参照してください:

CV はもう存在しませんか? Meta が「すべてを分割」AI モデルをリリース、CV が GPT-3 の瞬間を迎える可能性がある

Best Student Paper

研究はコーネル大学によって実施されました。この研究は、Google Research とカリフォルニア大学バークレー校の研究者によって共同で完成されました。最初の研究はコーネル工科大学の博士課程の学生、Qianqian Wang でした。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。

論文アドレス:

プロジェクトのホームページ:

OmniMotion は、準 3D 正準ボリュームを使用してビデオを特徴付ける研究によって提案された新しいテクノロジーです。 OmniMotion は、ローカル空間と正準空間の間の全単射を通じてすべてのピクセルを追跡できます。この表現により、オブジェクトが遮られている場合でもグローバルな一貫性とモーショントラッキングが保証されるだけでなく、カメラとオブジェクトのモーションの任意の組み合わせのモデリングも可能になります。実験により、OmniMotion 方式は既存の SOTA 方式よりもパフォーマンスが大幅に優れていることが証明されました。

詳細な紹介については、このサイトのレポートを参照してください: Track eachいつでもどこでもピクセル、オクルージョンを恐れない「すべてを追跡」ビデオアルゴリズムはこちら

もちろん、これらの受賞論文に加えて、今年の ICCV には多くの優れた論文が掲載されていますそれはみんなの注目に値します。最後に、受賞論文 17 件の最初のリストを示します。

以上がICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください