検索
ホームページテクノロジー周辺機器AIICCV 2023 は、ControlNet や「Split Everything」などの人気論文の受賞者を発表

今週、コンピュータ ビジョンに関する国際会議 (ICCV) がフランスのパリで開幕しました。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

ICCV は、コンピュータ ビジョン分野における世界トップの学術会議として、2 年ごとに開催されます。

CVPR と同様に、ICCV の人気も新たな高みを記録しています。

本日の開会式で、ICCV は今年の論文データを正式に発表しました。今年の ICCV への投稿総数は 8,068 件に達し、そのうち 2,160 件が受理され、受理率は 26.8% でした。前回の ICCV 2021 の採択率 25.9% よりわずかに高い

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

論文のトピックに関して、公式は関連データも発表しました: マルチビュー

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

今日の開会式で最も重要なのは、受賞情報の発表です。それでは、最優秀論文、最優秀論文ノミネート、最優秀学生論文を 1 つずつ発表しましょう

最優秀論文 - マー賞

合計 2 つ論文が今年の最優秀論文(マー賞)を受賞しました。

最初の記事はトロント大学の研究者によるものです。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖


  • #紙のアドレス: https://openaccess.thecvf.com/content/ICCV2023/ papers/Wei_Passive_Ultra-wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
  • 著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
  • 機関: トロント大学

要約: この論文では、動的なシーンを極端な時間スケール (秒からピコ秒​​) で同時にイメージングする問題を検討します。イメージングは​​受動的に行われます。 、光があまりなく、それを発する光源からのタイミング信号もありません。この場合、単一光子カメラ用の既存のフラックス推定技術は失敗するため、確率計算から洞察を引き出し、光子検出タイムスタンプのストリームで再構成されたピクセルの時変フラックスを可能にするフラックス検出理論を開発します。

この論文では、この理論を使用して、パッシブ自走 SPAD カメラが低磁束条件下で DC から 31 GHz の範囲全体にわたる達成可能な周波数帯域幅を持っていることを示します。同時に、この論文は新しいフーリエ領域磁束再構成アルゴリズムも導出し、このアルゴリズムのノイズ モデルが非常に低い光子数または無視できないデッド タイムの下でも依然として有効であることを保証します

この非同期イメージング メカニズムの可能性は実験的に実証されています: (1) 異なる速度で動作する光源 (電球、プロジェクター、複数のパルス レーザーなど) によって同時に照らされたシーンをイメージングする場合、同期は必要ありません; (2) 受動的非同期を達成します。 -見通し線ビデオ コレクション; (3) 超広帯域ビデオを録画し、後で 30 Hz で再生して日常の動きを表示するか、10 億倍遅く再生して光自体の伝播を表示します

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

#2 番目の記事は、ControNet として知られているものです。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
  • # #著者: Lvmin Zhang、Anyi Rao、Maneesh Agrawala
  • 機関: スタンフォード大学
  • 要約: この研究は、次のような目的を提案しています。 -ControlNet と呼ばれるエンドツーエンドのニューラル ネットワーク アーキテクチャ。このアーキテクチャは、拡散モデル (安定した拡散など) を制御するための追加条件を追加することにより、画像生成を改善します。同時に、ControlNet は線画からフルカラー画像を生成し、同じ深度構造を持つ画像を生成し、手のキー ポイントを通じて手の生成効果を最適化することができます。

    ControlNet の中心となるアイデアは、テキストの説明にいくつかの追加条件を追加して拡散モデル (安定拡散など) を制御することにより、キャラクターのポーズ、深度、画像構造、およびその他の情報をより適切に制御することです。生成された画像。

    ここでの追加条件は画像の形式で入力され、モデルはこれに基づいてキャニーエッジ検出、深度検出、セマンティックセグメンテーション、ハフ変換ライン検出、および全体のネスティングを実行できます。入力画像、エッジ検出 (HED)、人間の姿勢認識などを行い、生成された画像にこの情報を保持します。このモデルを利用することで、線画や落書きを直接フルカラー画像に変換したり、同じ奥行き構造の画像を生成したり、手のキーポイントによるキャラクターの手の生成を最適化したりすることができます。

    ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

    Heart of the Machine のレポート「AI 次元削減が人間の画家を襲い、ヴィンセント グラフが ControlNet に導入され、深さとエッジ情報が完全に再利用」 より詳しい紹介をご覧ください

    最優秀論文ノミネート: SAM

    今年 4 月に、Meta は「」という論文をリリースしました。あらゆる画像やビデオ内のオブジェクトのマスクを生成できる「Separate Everything (SAM)」人工知能モデルは、コンピューター ビジョンの分野の研究者に衝撃を与えました。「コンピューター ビジョンはもう存在しない」とさえ言う人もいます

    この注目度の高い論文が最優秀論文にノミネートされました。

    ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

    • 文書アドレス: https://arxiv.org/abs/2304.02643
    • 組織: Meta AI

    書き換えられた内容: セグメンテーションの問題を解決する前に、通常 2 つの方法があります。 1 つ目はインタラクティブ セグメンテーションです。これは、任意のクラスのオブジェクトをセグメント化するために使用できますが、人間がマスクを繰り返し調整してメソッドをガイドする必要があります。 2 つ目は自動セグメンテーションです。これは、事前定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化するために使用できますが、トレーニングのために手動で注釈を付けた多数のオブジェクト (セグメント化された猫の数千または数万の例など​​) が必要です。 。ただし、これら 2 つの方法はどちらも、普遍的な完全自動セグメンテーション方法を提供するものではありません。

    Meta によって提案された SAM は、これら 2 つの方法をうまく一般化しています。インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行できる単一モデルです。モデルのプロンプト可能なインターフェイスにより、ユーザーは柔軟な方法でモデルを使用できるため、モデルに適切なプロンプト (クリック、ボックスの選択、テキストなど) を設計するだけで幅広いセグメンテーション タスクを実行できます

    要約すると、これらの機能により、SAM は新しいタスクやドメインに適応できるようになります。この柔軟性は、画像セグメンテーションの分野では他に類を見ないものです。

    詳細については、Heart of the Machine レポート「CV Doesn't Exist?」を参照してください。 Meta が「すべてを分割」AI モデルをリリース、CV が GPT-3 の瞬間を先導する可能性》

    Best Student Paper

    調査は次の者によって実施されました。この研究はコーネル大学、Google Research、カリフォルニア大学バークレー校の研究者によって共同で完成され、最初の研究者はコーネル工科大学の博士課程学生である Qianqian Wang でした。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。

    ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

      論文アドレス: https://arxiv.org/abs/2306.05422
    • プロジェクトホームページ: https://omnimotion.github.io/
    要約: コンピュータ ビジョンの分野では、スパース フィーチャ トラッキングとデンス フィーチャ トラッキングという 2 つの一般的に使用される動き推定方法があります。軽い流れ。ただし、どちらの方法にも独自の欠点があり、疎な特徴追跡ではすべてのピクセルの動きをモデル化できず、密なオプティカル フローでは長時間の動きの軌跡を捉えることができません。

    この研究で提案されたオムニモーションは、準 3D 正準ボリュームを使用してビデオを特徴付け、ローカル空間と正準空間の間の全単射を通じて各ピクセルを追跡します。この表現により、グローバルな一貫性が実現され、オブジェクトが遮られている場合でもモーション トラッキングが可能になり、カメラとオブジェクトのモーションのあらゆる組み合わせがモデル化されます。この研究は、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験的に示しています。

    より詳細な紹介については、Heart of Machine レポート「いつでもどこでもすべてのピクセルを追跡し、オクルージョンを恐れない「すべてを追跡」ビデオ アルゴリズムが登場」を参照してください。

    これらの受賞論文に加えて、今年の ICCV には、誰もが注目する価値のある優れた論文が数多く掲載されています。以下は 17 件の受賞論文の最初のリストです。

    ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

以上がICCV 2023 は、ControlNet や「Split Everything」などの人気論文の受賞者を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Star Schemaを使用してデータウェアハウスを最適化する方法は?Star Schemaを使用してデータウェアハウスを最適化する方法は?Apr 12, 2025 am 09:33 AM

Star Schemaは、データウェアハウジングとビジネスインテリジェンスで使用される効率的なデータベース設計です。データを整理し、周囲の寸法テーブルにリンクされた中央のファクトテーブルになります。この星のような構造は、複雑なqを簡素化します

マルチモーダルRAGシステムの構築に関する包括的なガイドマルチモーダルRAGシステムの構築に関する包括的なガイドApr 12, 2025 am 09:29 AM

RAGシステムとしてよく知られている検索拡張生成システムは、高価な微調整の手間なしでカスタムエンタープライズデータに関する質問に答えるインテリジェントAIアシスタントを構築するための事実上の標準となっています

エージェントラグシステムはどのようにテクノロジーを変換しますか?エージェントラグシステムはどのようにテクノロジーを変換しますか?Apr 12, 2025 am 09:21 AM

導入 人工知能は新しい時代に入りました。モデルが事前定義されたルールに基づいて単に情報を出力する時代は終わりました。今日のAIの最先端のアプローチは、Ragを中心に展開しています(検索装備

自動生成クエリのSQLアシスタント自動生成クエリのSQLアシスタントApr 12, 2025 am 09:13 AM

複雑なSQLクエリを書いたり、スプレッドシートを並べ替えたりせずに、データベースと話をしたり、単純な言語で質問したり、即座に答えを得たりすることを望んだことがありますか? LangchainのSQL Toolkit、Groq a

AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。