今週、コンピュータ ビジョンに関する国際会議 (ICCV) がフランスのパリで開幕しました。
ICCV は、コンピュータ ビジョン分野における世界トップの学術会議として、2 年ごとに開催されます。
CVPR と同様に、ICCV の人気も新たな高みを記録しています。
本日の開会式で、ICCV は今年の論文データを正式に発表しました。今年の ICCV への投稿総数は 8,068 件に達し、そのうち 2,160 件が受理され、受理率は 26.8% でした。前回の ICCV 2021 の採択率 25.9% よりわずかに高い
論文のトピックに関して、公式は関連データも発表しました: マルチビュー
今日の開会式で最も重要なのは、受賞情報の発表です。それでは、最優秀論文、最優秀論文ノミネート、最優秀学生論文を 1 つずつ発表しましょう
最優秀論文 - マー賞
合計 2 つ論文が今年の最優秀論文(マー賞)を受賞しました。
最初の記事はトロント大学の研究者によるものです。
- #紙のアドレス: https://openaccess.thecvf.com/content/ICCV2023/ papers/Wei_Passive_Ultra-wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
- 著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
- 機関: トロント大学
要約: この論文では、動的なシーンを極端な時間スケール (秒からピコ秒) で同時にイメージングする問題を検討します。イメージングは受動的に行われます。 、光があまりなく、それを発する光源からのタイミング信号もありません。この場合、単一光子カメラ用の既存のフラックス推定技術は失敗するため、確率計算から洞察を引き出し、光子検出タイムスタンプのストリームで再構成されたピクセルの時変フラックスを可能にするフラックス検出理論を開発します。
この論文では、この理論を使用して、パッシブ自走 SPAD カメラが低磁束条件下で DC から 31 GHz の範囲全体にわたる達成可能な周波数帯域幅を持っていることを示します。同時に、この論文は新しいフーリエ領域磁束再構成アルゴリズムも導出し、このアルゴリズムのノイズ モデルが非常に低い光子数または無視できないデッド タイムの下でも依然として有効であることを保証します
この非同期イメージング メカニズムの可能性は実験的に実証されています: (1) 異なる速度で動作する光源 (電球、プロジェクター、複数のパルス レーザーなど) によって同時に照らされたシーンをイメージングする場合、同期は必要ありません; (2) 受動的非同期を達成します。 -見通し線ビデオ コレクション; (3) 超広帯域ビデオを録画し、後で 30 Hz で再生して日常の動きを表示するか、10 億倍遅く再生して光自体の伝播を表示します
- # #著者: Lvmin Zhang、Anyi Rao、Maneesh Agrawala
- 機関: スタンフォード大学
- 要約: この研究は、次のような目的を提案しています。 -ControlNet と呼ばれるエンドツーエンドのニューラル ネットワーク アーキテクチャ。このアーキテクチャは、拡散モデル (安定した拡散など) を制御するための追加条件を追加することにより、画像生成を改善します。同時に、ControlNet は線画からフルカラー画像を生成し、同じ深度構造を持つ画像を生成し、手のキー ポイントを通じて手の生成効果を最適化することができます。
ControlNet の中心となるアイデアは、テキストの説明にいくつかの追加条件を追加して拡散モデル (安定拡散など) を制御することにより、キャラクターのポーズ、深度、画像構造、およびその他の情報をより適切に制御することです。生成された画像。
ここでの追加条件は画像の形式で入力され、モデルはこれに基づいてキャニーエッジ検出、深度検出、セマンティックセグメンテーション、ハフ変換ライン検出、および全体のネスティングを実行できます。入力画像、エッジ検出 (HED)、人間の姿勢認識などを行い、生成された画像にこの情報を保持します。このモデルを利用することで、線画や落書きを直接フルカラー画像に変換したり、同じ奥行き構造の画像を生成したり、手のキーポイントによるキャラクターの手の生成を最適化したりすることができます。
Heart of the Machine のレポート「AI 次元削減が人間の画家を襲い、ヴィンセント グラフが ControlNet に導入され、深さとエッジ情報が完全に再利用」 より詳しい紹介をご覧ください
最優秀論文ノミネート: SAM
今年 4 月に、Meta は「」という論文をリリースしました。あらゆる画像やビデオ内のオブジェクトのマスクを生成できる「Separate Everything (SAM)」人工知能モデルは、コンピューター ビジョンの分野の研究者に衝撃を与えました。「コンピューター ビジョンはもう存在しない」とさえ言う人もいます
この注目度の高い論文が最優秀論文にノミネートされました。
- 文書アドレス: https://arxiv.org/abs/2304.02643
- 組織: Meta AI
書き換えられた内容: セグメンテーションの問題を解決する前に、通常 2 つの方法があります。 1 つ目はインタラクティブ セグメンテーションです。これは、任意のクラスのオブジェクトをセグメント化するために使用できますが、人間がマスクを繰り返し調整してメソッドをガイドする必要があります。 2 つ目は自動セグメンテーションです。これは、事前定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化するために使用できますが、トレーニングのために手動で注釈を付けた多数のオブジェクト (セグメント化された猫の数千または数万の例など) が必要です。 。ただし、これら 2 つの方法はどちらも、普遍的な完全自動セグメンテーション方法を提供するものではありません。
Meta によって提案された SAM は、これら 2 つの方法をうまく一般化しています。インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行できる単一モデルです。モデルのプロンプト可能なインターフェイスにより、ユーザーは柔軟な方法でモデルを使用できるため、モデルに適切なプロンプト (クリック、ボックスの選択、テキストなど) を設計するだけで幅広いセグメンテーション タスクを実行できます
要約すると、これらの機能により、SAM は新しいタスクやドメインに適応できるようになります。この柔軟性は、画像セグメンテーションの分野では他に類を見ないものです。
詳細については、Heart of the Machine レポート「CV Doesn't Exist?」を参照してください。 Meta が「すべてを分割」AI モデルをリリース、CV が GPT-3 の瞬間を先導する可能性》
Best Student Paper
調査は次の者によって実施されました。この研究はコーネル大学、Google Research、カリフォルニア大学バークレー校の研究者によって共同で完成され、最初の研究者はコーネル工科大学の博士課程学生である Qianqian Wang でした。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。
- 論文アドレス: https://arxiv.org/abs/2306.05422
- プロジェクトホームページ: https://omnimotion.github.io/
この研究で提案されたオムニモーションは、準 3D 正準ボリュームを使用してビデオを特徴付け、ローカル空間と正準空間の間の全単射を通じて各ピクセルを追跡します。この表現により、グローバルな一貫性が実現され、オブジェクトが遮られている場合でもモーション トラッキングが可能になり、カメラとオブジェクトのモーションのあらゆる組み合わせがモデル化されます。この研究は、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験的に示しています。
より詳細な紹介については、Heart of Machine レポート「いつでもどこでもすべてのピクセルを追跡し、オクルージョンを恐れない「すべてを追跡」ビデオ アルゴリズムが登場」を参照してください。
これらの受賞論文に加えて、今年の ICCV には、誰もが注目する価値のある優れた論文が数多く掲載されています。以下は 17 件の受賞論文の最初のリストです。
以上がICCV 2023 は、ControlNet や「Split Everything」などの人気論文の受賞者を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Star Schemaは、データウェアハウジングとビジネスインテリジェンスで使用される効率的なデータベース設計です。データを整理し、周囲の寸法テーブルにリンクされた中央のファクトテーブルになります。この星のような構造は、複雑なqを簡素化します

RAGシステムとしてよく知られている検索拡張生成システムは、高価な微調整の手間なしでカスタムエンタープライズデータに関する質問に答えるインテリジェントAIアシスタントを構築するための事実上の標準となっています

導入 人工知能は新しい時代に入りました。モデルが事前定義されたルールに基づいて単に情報を出力する時代は終わりました。今日のAIの最先端のアプローチは、Ragを中心に展開しています(検索装備

複雑なSQLクエリを書いたり、スプレッドシートを並べ替えたりせずに、データベースと話をしたり、単純な言語で質問したり、即座に答えを得たりすることを望んだことがありますか? LangchainのSQL Toolkit、Groq a

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。
