コンピュータビジョンに関する国際会議 ICCV (International Conference on Computer Vision) が今週、フランスのパリで開幕しました
ICCV は、世界的なコンピュータビジョン分野のトップ学術会議として、隔年で開催されます。
ICCV の人気は常に CVPR と同等であり、何度も最高値を更新しました
本日の開会式で、ICCV は今年の論文データを正式に発表しました。今年の ICCV には合計 8,068 件の論文が投稿されました、そのうち 2,160 件が採択され、採択率は 26.8% で、前回の ICCV 2021 の採択率 25.9% をわずかに上回りました

論文のトピックに関しては、公式も発表 関連データが取得されました: 複数の視野角とセンサーを備えた 3D テクノロジーが最も人気があります

今日の開会式で最も重要な部分は間違いなく賞のプレゼンテーション。次に、最優秀論文、最優秀論文ノミネート、最優秀学生論文の受賞者を順次発表します。
Best Paper-Marr Award
今年の最優秀論文(マー賞) 2 つの論文がこの賞を受賞しました
最初の研究はトロント大学の研究者によって実施されました

著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
書き直された内容: トロント大学は有名な機関です
要約: この論文では、極端な時間スケールの範囲を同時に (秒からピコ秒まで) 検討します 動的なシーンの画像化の問題、そしてそれを受動的に、あまり光を使わず、それを発する光源からのタイミング信号も使わずに行います。この場合、単一光子カメラ用の既存のフラックス推定技術は失敗するため、確率計算から洞察を引き出し、光子検出タイムスタンプのストリームで再構成されたピクセルの時変フラックスを可能にするフラックス検出理論を開発します。
この論文では、この理論を使用して、(1) パッシブ自走 SPAD カメラが低磁束条件下で達成可能な周波数帯域幅を持ち、DC ~ 31 GHz の範囲全体に及ぶことを示し、(2) 新しいフーリエ領域磁束再構成アルゴリズム、および (3) 非常に低い光子数または無視できないデッドタイムに対しても、アルゴリズムのノイズ モデルが有効なままであることを保証します。
ControlNetやSAMなどの人気論文が受賞し、ICCV 2023論文賞が発表されました。この論文は、この非同期イメージング メカニズムの可能性を実験的に示しています。(1) 大幅に異なる速度で動作する光源 (電球、プロジェクター、複数のパルス レーザー) によって照明されたシーンを同期せずに同時にイメージングする、(2) 受動的な非ライン オブ-視覚ビデオの取得; (3) 超広帯域ビデオを記録し、後で 30 Hz で再生して日常の動きを表示できますが、10 億倍遅くして光自体の伝播を表示することもできます

書き直す必要があるコンテンツは次のとおりです。2 番目の記事は、ControNet として知られているものです。

https ://arxiv. org/pdf/2302.05543.pdf
著者: Zhang Lumin、Rao Anyi、Maneesh Agrawala機関: スタンフォード大学要約: この記事は提案されています追加条件を追加することで拡散モデル(安定拡散など)を制御し、画像生成効果を向上させ、線画や線画からフルカラー画像を生成できる、to-endニューラルネットワークアーキテクチャControlNetを開発同じ深さの構造を生成し、マップ、手のキーポイントを使用して手の生成などを最適化することもできます。ControlNet の中心となるアイデアは、テキストの説明にいくつかの追加条件を追加して拡散モデル (安定拡散など) を制御することにより、生成された画像のキャラクターのポーズ、奥行き、画像構造、その他の情報をより適切に制御することです。 。
次のように書き換えられます: 画像の形式で追加の条件を入力して、モデルがキャニー エッジ検出、深度検出、セマンティック セグメンテーション、ハフ変換ライン検出、全体的なネストされたエッジ検出 (HED)、人間のポーズを実行できるようにします。認識やその他の操作を実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きを直接フルカラー画像に変換し、同じ奥行き構造の画像を生成できると同時に、手のキーポイントによるキャラクターの手の生成を最適化することもできます。

今年 4 月、Meta は「Segment Everything (SAM)」と呼ばれる AI モデルをリリースしました。これは、オブジェクト内のあらゆるオブジェクトのマスクを生成できます。画像またはビデオ。このテクノロジーはコンピュータ ビジョンの分野の研究者に衝撃を与え、「CV はもう存在しない」とさえ呼ぶ人もいました。
この注目を集めた論文が最優秀論文にノミネートされました。

書き直された内容: 現在、セグメンテーションの問題を解決するには 2 つの方法があります。 1 つ目はインタラクティブ セグメンテーションです。これは、任意のクラスのオブジェクトをセグメント化するために使用できますが、人間がマスクを繰り返し調整してメソッドをガイドする必要があります。 2 つ目は自動セグメンテーションです。これは、事前定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化するために使用できますが、トレーニングのために手動で注釈を付けた多数のオブジェクト (セグメント化された猫の数千または数万の例など) が必要です。 。これら 2 つの方法はいずれも、普遍的な完全自動セグメンテーション方法を提供するものではありません。
Meta によって提案された SAM は、これら 2 つの方法をうまく要約しています。インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行できる単一モデルです。モデルのプロンプト可能なインターフェイスにより、ユーザーは柔軟な方法でモデルを使用できます。モデルに適切なプロンプト (クリック、ボックスの選択、テキストなど) を設計するだけで、幅広いセグメンテーション タスクを完了できます。
概要、これらの機能により、SAM は新しいタスクやドメインに適応できます。この柔軟性は画像セグメンテーションの分野では他に類を見ないものです。
詳細な紹介については、このサイトのレポートを参照してください:
CV はもう存在しませんか? Meta が「すべてを分割」AI モデルをリリース、CV が GPT-3 の瞬間を迎える可能性があるBest Student Paper研究はコーネル大学によって実施されました。この研究は、Google Research とカリフォルニア大学バークレー校の研究者によって共同で完成されました。最初の研究はコーネル工科大学の博士課程の学生、Qianqian Wang でした。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。

- https://arxiv.org/abs/2306.05422
- プロジェクトのホームページ: https://omnimotion.github.io/
- コンピュータ ビジョンの分野では、スパース フィーチャ トラッキングとデンス オプティカル フローという 2 つのモーション推定方法が一般的に使用されています。ただし、どちらの方法にもいくつかの欠点があります。疎な特徴追跡ではすべてのピクセルの動きをモデル化できませんが、密なオプティカル フローでは長時間の動きの軌跡を捉えることができません
OmniMotion は、準 3D 正準ボリュームを使用してビデオを特徴付ける研究によって提案された新しいテクノロジーです。 OmniMotion は、ローカル空間と正準空間の間の全単射を通じてすべてのピクセルを追跡できます。この表現により、オブジェクトが遮られている場合でもグローバルな一貫性とモーション トラッキングが保証されるだけでなく、カメラとオブジェクトのモーションの任意の組み合わせのモデリングも可能になります。実験により、OmniMotion 方式は既存の SOTA 方式よりもパフォーマンスが大幅に優れていることが証明されました。

詳細な紹介については、このサイトのレポートを参照してください: Track eachいつでもどこでもピクセル、オクルージョンを恐れない「すべてを追跡」ビデオ アルゴリズムはこちら
もちろん、これらの受賞論文に加えて、今年の ICCV には多くの優れた論文が掲載されていますそれはみんなの注目に値します。最後に、受賞論文 17 件の最初のリストを示します。

以上がICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません
