検索
ホームページテクノロジー周辺機器AIICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞

コンピュータビジョンに関する国際会議 ICCV (International Conference on Computer Vision) が今週、フランスのパリで開幕しました

ICCV は、世界的なコンピュータビジョン分野のトップ学術会議として、隔年で開催されます。

ICCV の人気は常に CVPR と同等であり、何度も最高値を更新しました

本日の開会式で、ICCV は今年の論文データを正式に発表しました。今年の ICCV には合計 8,068 件の論文が投稿されました、そのうち 2,160 件が採択され、採択率は 26.8% で、前回の ICCV 2021 の採択率 25.9% をわずかに上回りました

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

論文のトピックに関しては、公式も発表 関連データが取得されました: 複数の視野角とセンサーを備えた 3D テクノロジーが最も人気があります

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

今日の開会式で最も重要な部分は間違いなく賞のプレゼンテーション。次に、最優秀論文、最優秀論文ノミネート、最優秀学生論文の受賞者を順次発表します。

Best Paper-Marr Award

今年の最優秀論文(マー賞) 2 つの論文がこの賞を受賞しました

最初の研究はトロント大学の研究者によって実施されました

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

論文アドレス: https: //openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos

書き直された内容: トロント大学は有名な機関です

要約: この論文では、極端な時間スケールの範囲を同時に (秒からピコ秒​​まで) 検討します 動的なシーンの画像化の問題、そしてそれを受動的に、あまり光を使わず、それを発する光源からのタイミング信号も使わずに行います。この場合、単一光子カメラ用の既存のフラックス推定技術は失敗するため、確率計算から洞察を引き出し、光子検出タイムスタンプのストリームで再構成されたピクセルの時変フラックスを可能にするフラックス検出理論を開発します。

この論文では、この理論を使用して、(1) パッシブ自走 SPAD カメラが低磁束条件下で達成可能な周波数帯域幅を持ち、DC ~ 31 GHz の範囲全体に及ぶことを示し、(2) 新しいフーリエ領域磁束再構成アルゴリズム、および (3) 非常に低い光子数または無視できないデッドタイムに対しても、アルゴリズムのノイズ モデルが有効なままであることを保証します。

ControlNetやSAMなどの人気論文が受賞し、ICCV 2023論文賞が発表されました。この論文は、この非同期イメージング メカニズムの可能性を実験的に示しています。(1) 大幅に異なる速度で動作する光源 (電球、プロジェクター、複数のパルス レーザー) によって照明されたシーンを同期せずに同時にイメージングする、(2) 受動的な非ライン オブ-視覚ビデオの取得; (3) 超広帯域ビデオを記録し、後で 30 Hz で再生して日常の動きを表示できますが、10 億倍遅くして光自体の伝播を表示することもできます

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

書き直す必要があるコンテンツは次のとおりです。2 番目の記事は、ControNet として知られているものです。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项
#論文のアドレス:

https ://arxiv. org/pdf/2302.05543.pdf

著者: Zhang Lumin、Rao Anyi、Maneesh Agrawala

機関: スタンフォード大学

要約: この記事は提案されています追加条件を追加することで拡散モデル(安定拡散など)を制御し、画像生成効果を向上させ、線画や線画からフルカラー画像を生成できる、to-endニューラルネットワークアーキテクチャControlNetを開発同じ深さの構造を生成し、マップ、手のキーポイントを使用して手の生成などを最適化することもできます。

ControlNet の中心となるアイデアは、テキストの説明にいくつかの追加条件を追加して拡散モデル (安定拡散など) を制御することにより、生成された画像のキャラクターのポーズ、奥行き、画像構造、その他の情報をより適切に制御することです。 。

次のように書き換えられます: 画像の形式で追加の条件を入力して、モデルがキャニー エッジ検出、深度検出、セマンティック セグメンテーション、ハフ変換ライン検出、全体的なネストされたエッジ検出 (HED)、人間のポーズを実行できるようにします。認識やその他の操作を実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きを直接フルカラー画像に変換し、同じ奥行き構造の画像を生成できると同時に、手のキーポイントによるキャラクターの手の生成を最適化することもできます。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项詳細な紹介については、このサイトのレポートを参照してください:
AI 次元削減が人間のペインターを攻撃、ヴィンセント グラフが ControlNet に導入され、深さとエッジ情報が完全に再利用可能

Best Paper ノミネート: SAM

今年 4 月、Meta は「Segment Everything (SAM)」と呼ばれる AI モデルをリリースしました。これは、オブジェクト内のあらゆるオブジェクトのマスクを生成できます。画像またはビデオ。このテクノロジーはコンピュータ ビジョンの分野の研究者に衝撃を与え、「CV はもう存在しない」とさえ呼ぶ人もいました。

この注目を集めた論文が最優秀論文にノミネートされました。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项論文アドレス:
https://arxiv.org/abs/2304.02643

書き換えられた内容: 機関: Meta AI

書き直された内容: 現在、セグメンテーションの問題を解決するには 2 つの方法があります。 1 つ目はインタラクティブ セグメンテーションです。これは、任意のクラスのオブジェクトをセグメント化するために使用できますが、人間がマスクを繰り返し調整してメソッドをガイドする必要があります。 2 つ目は自動セグメンテーションです。これは、事前定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化するために使用できますが、トレーニングのために手動で注釈を付けた多数のオブジェクト (セグメント化された猫の数千または数万の例など​​) が必要です。 。これら 2 つの方法はいずれも、普遍的な完全自動セグメンテーション方法を提供するものではありません。

Meta によって提案された SAM は、これら 2 つの方法をうまく要約しています。インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行できる単一モデルです。モデルのプロンプト可能なインターフェイスにより、ユーザーは柔軟な方法でモデルを使用できます。モデルに適切なプロンプト (クリック、ボックスの選択、テキストなど) を設計するだけで、幅広いセグメンテーション タスクを完了できます。

概要、これらの機能により、SAM は新しいタスクやドメインに適応できます。この柔軟性は画像セグメンテーションの分野では他に類を見ないものです。

詳細な紹介については、このサイトのレポートを参照してください:

CV はもう存在しませんか? Meta が「すべてを分割」AI モデルをリリース、CV が GPT-3 の瞬間を迎える可能性がある

Best Student Paper

研究はコーネル大学によって実施されました。この研究は、Google Research とカリフォルニア大学バークレー校の研究者によって共同で完成されました。最初の研究はコーネル工科大学の博士課程の学生、Qianqian Wang でした。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项
論文アドレス:
    https://arxiv.org/abs/2306.05422
  • プロジェクトのホームページ:
  • https://omnimotion.github.io/
  • コンピュータ ビジョンの分野では、スパース フィーチャ トラッキングとデンス オプティカル フローという 2 つのモーション推定方法が一般的に使用されています。ただし、どちらの方法にもいくつかの欠点があります。疎な特徴追跡ではすべてのピクセルの動きをモデル化できませんが、密なオプティカル フローでは長時間の動きの軌跡を捉えることができません

OmniMotion は、準 3D 正準ボリュームを使用してビデオを特徴付ける研究によって提案された新しいテクノロジーです。 OmniMotion は、ローカル空間と正準空間の間の全単射を通じてすべてのピクセルを追跡できます。この表現により、オブジェクトが遮られている場合でもグローバルな一貫性とモーション トラッキングが保証されるだけでなく、カメラとオブジェクトのモーションの任意の組み合わせのモデリングも可能になります。実験により、OmniMotion 方式は既存の SOTA 方式よりもパフォーマンスが大幅に優れていることが証明されました。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

詳細な紹介については、このサイトのレポートを参照してください: Track eachいつでもどこでもピクセル、オクルージョンを恐れない「すべてを追跡」ビデオ アルゴリズムはこちら

もちろん、これらの受賞論文に加えて、今年の ICCV には多くの優れた論文が掲載されていますそれはみんなの注目に値します。最後に、受賞論文 17 件の最初のリストを示します。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

以上がICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません