CVPR 2023 論文概要! CV の最もホットな分野はマルチモーダルモデルと拡散モデルに与えられます-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2023 論文概要! CV の最もホットな分野はマルチモーダルモデルと拡散モデルに与えられます

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 25, 2023 pm 03:10 PM

紙cv

年次CVPRは、6月18日から22日までカナダのバンクーバーで正式に開幕します。

毎年、世界中から数千人の CV 研究者やエンジニアがサミットに集まります。この権威あるカンファレンスは 1983 年に遡り、コンピュータービジョン開発の頂点を表します。

現在、CVPR の h5 インデックスは、すべての会議や出版物の中で、Nature、Science、New England Journal of Medicine に次いで 4 位にランクされています。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

#少し前に、CVPR が論文の受理結果を発表しました。公式ウェブサイトの統計によると、論文総数は9,155件、採択数は2,359件、採択率は25.8％でした。

また、受賞候補論文12本が発表されました。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

それでは、今年の CVPR のハイライトは何でしょうか?受理された論文から履歴書分野ではどのような傾向が見えますか?

は次回発表します。

CVPR の概要

スタートアップ Voxel51 は、受理されたすべての論文のリストを分析しました。

まず、論文のタイトルの概要図を見てみましょう。各単語のサイズは、データセット内の出現頻度に比例します。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

簡単な説明

#- 2359 件の論文受理されました（9155 件の論文が提出されました）

#- 1724 件の Arxiv 論文

#- 68 件の論文が他のアドレスに送信されました

論文あたりの著者数

-CVPR論文の平均的な著者は約5.4人です

-最も多くの著者がいる論文は、「なぜ勝者が最も優れているのか?」です。著者は 125 人です。

- 著者が 1 人だけの論文が 13 件あります。

Arxiv の主な分類

1,724 件の Arxiv 論文のうち、1,545 件、または 90% 近くが含まれます。 cs.CV をメインカテゴリとしてリストします。

cs.LG は 101 件の記事で 2 位にランクされました。 eess.IV (26) と cs.RO (16) もパイの分け前を獲得します。

CVPR 論文のその他のカテゴリには、cs.HC、cs.CV、cs.AR、cs.DC、cs.NE、cs.SD、cs.CL、cs.IT が含まれます。、cs.CR、cs.AI、cs.MM、cs.GR、eess.SP、eess.AS、math.OC、math.NT、physics.data-an、および stat.ML。

「メタ」データ

- 「データセット」と「モデル」という 2 つの単語が、Among 567 で一緒に表示されます。要約。「データセット」は 265 件の論文抄録に単独で出現し、「モデル」は単独で 613 回出現します。 CVPR に受理された論文のうち、これら 2 つの単語が含まれていない論文はわずか 16.2% でした。

#- CVPR 論文の要約によると、今年最も人気のあるデータセットは ImageNet (105)、COCO (94)、KITTI (55)、CIFAR (36) です。

#- 28 の論文が新しい「ベンチマーク」を提案します。

頭字語はたくさんあります

頭字語のない機械学習プロジェクトは存在しないように思えます。 2,359本の論文のうち、タイトルに複数の略語や複合語を大文字で含む論文は1,487本で63％を占めた。

これらの頭字語の中には、覚えやすく、思わず口から出てしまうものもあります:

##- CLAMP: 言語と動物のポーズを結び付けるためのプロンプトベースの対照学習CLAMP

#- PATS: ローカルフィーチャマッチングのためのサブディビジョンによるパッチエリアのトランスポート

##- CIRCLE: リッチコンテキスト環境でのキャプチャ

##もっと複雑なものもあります:

- SIEDOB: オブジェクトと背景のもつれを解くことによるセマンティック画像編集

- FJMP : 因数分解されたジョイントマルチ-学習された有向非巡回インタラクショングラフに対するエージェント動作予測FJMP

そのうちのいくつかは、頭字語の構築に関して他の人からアイデアを借用しているようです:

- SCOTCH とSODA: Transformer Video Shadow Detection Framework (オランダの人気ブランド Scotch & Soda)

- EXCALIBUR: 身体的探索の奨励と評価 (例: カレースティック、笑)

一番ホットなものは何ですか?

2023 年の論文タイトルに加えて、2022 年に承認されたすべての論文タイトルをクロールしました。これら 2 つのリストから、上昇トレンドと下降トレンドについてより深く理解できるように、さまざまなキーワードの相対頻度を計算しました。

#モデル

2023 年には、ディフュージョンモデルが主流になります。

#拡散モデル CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

安定性ありありDiffusion や Midjourney などの画像生成モデルの人気を考えると、拡散モデルの開発が熱いトレンドであることは驚くべきことではありません。

拡散モデルは、ノイズ除去、画像編集、スタイル転送にも応用できます。すべてを合計すると、前年比 573% 増で、すべてのカテゴリで断トツの最大の勝者となっています。

放射線場

神経放射線場 (NERF) もますます人気が高まっており、「」という言葉も使われるようになりました。「ラディアンス」は80%増加、「NERF」は39%増加しました。 NeRF は概念実証から編集、アプリケーション、トレーニングプロセスの最適化に移行しました。

Transformers

「Transformer」と「ViT」の使用が減少しているからといって、Transformer モデルが廃止されるというわけではありません。むしろ、2022 年におけるこれらのモデルの優位性を反映しています。 2021年に「トランスフォーマー」という言葉が登場したのはわずか37紙だった。 2022 年には、この数は 201 人にまで増加します。トランスフォーマーがすぐになくなるわけではありません。

CNN

CNN はかつてはコンピュータービジョンの最愛の人でしたが、2023 年にはその地位を失ったようです。使用量は 68% 減少しました。 CNN について言及している見出しの多くは、他のモデルについても言及しています。たとえば、次の論文では CNN とトランスフォーマーについて言及しています:

- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono

- 混合トランスフォーマーと CNN アーキテクチャを使用した学習済み画像圧縮

タスク

マスクタスクとマスクイメージモデリングの組み合わせ、 CVPRにおいて支配的な地位を占めています。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃生成する＃＃＃＃＃＃＃＃＃

検出、分類、セグメンテーションなどの従来の識別タスクは人気が衰えたわけではありませんが、「編集」、「合成」、「世代」の台頭がこれを証明しています。

マスク

キーワード「マスク」は前年同期比 263% 増加し、採用されましたin 2023 は論文に 92 回登場し、タイトルに 2 回登場することもあります。

#- SIM: ボックス監視インスタンスセグメンテーション用のセマンティック認識インスタンスマスク生成SIM

- DynaMask: インスタンスセグメンテーション用の動的マスク選択DynaMask

しかし、実際には大多数 (64%) が「マスキング」タスクに言及しており、その中には 8 件の「マスクイメージモデリング」タスクと 15 件の「マスクオートエンコーダー」タスクが含まれています。また、「マスク」は8記事に登場しました。

また、「マスク」という単語が含まれる 3 つの論文のタイトルが、実際には「マスクなし」タスクを指していることにも注目してください。

ゼロサンプルと小規模サンプル

転移学習、生成手法、ヒント、および一般的なモデルの台頭により、「ゼロショット」学習が注目を集めています。同時に、「少数のサンプル」学習は昨年より減少しました。ただし、生の数値に関しては、少なくとも現時点では、「小規模サンプル」(45) が「ゼロサンプル」(35) よりわずかに有利です。

モダリティ

2023 年には、マルチモーダルおよびクロスモーダルアプリケーションの開発が加速します。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

##曖昧な境界

従来のコンピュータではありますが、「画像」や「ビデオ」などのビジュアルキーワードの頻度は比較的変化がありませんが、「テキスト」/「言語」および「音声」の出現頻度が高くなります。

「マルチモーダル」という言葉自体が論文のタイトルに含まれていないとしても、コンピュータービジョンがマルチモーダルな未来に向かっているということを否定するのは困難です。

これは、Open、Prompt、Vocabulary の急激な上昇が示すように、視覚的言語的タスクで特に顕著です。

この状況の最も極端な例は、「オープンボキャブラリー」という複合語で、2022 年には 3 回しか出現しませんでしたが、2023 年には 18 回出現しました。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

CVPR 2023 論文タイトルのキーワードを深く掘り下げる

PointCloud9

3 次元コンピュータービジョンアプリケーションは、2 次元画像から 3D 情報 (「深度」と「立体視」) を推論することから、3D 点群上で直接推論することに移行しています。データ作業を行うコンピュータービジョンシステム。

履歴書タイトルの創造性

2023 年の機械学習関連の包括的な報道は、ChatGPT をミックスに含めなければ不完全になります。私たちは物事を面白くしておくことに決め、ChatGPT を使用して CVPR 2023 の最もクリエイティブな見出しを見つけました。

Arxiv にアップロードされた各論文について、要約をスクレイピングし、ChatGPT (GPT-3.5 API) に対応する CVPR 論文のタイトルを生成するよう依頼しました。

次に、ChatGPT によって生成されたこれらのタイトルと実際の論文のタイトルを組み合わせ、OpenAI の text-embedding-ada-002 モデルを使用して埋め込みベクトルを生成し、生成されたタイトルの合計を計算します。著者が生成したタイトル間のコサイン類似度。

これから何がわかるでしょうか? ChatGPT が実際の論文のタイトルに近いほど、タイトルはより予測可能になります。言い換えれば、ChatGPT の予測が「偏っている」ほど、著者が論文に名前を付ける際に「創造的」になるということです。

埋め込みとコサイン類似度は、完璧とは程遠いものの、興味深い定量化方法を提供します。

この指標に従って論文を並べ替えました。早速、最もクリエイティブな見出しをご紹介します。

実際の見出し: 野生のあらゆるものを追跡

予測される見出し: 分類を解きほぐすトラッキング: マルチカテゴリ複数オブジェクト追跡の包括的なベンチマークのための TETA の紹介

実際のタイトル: ラベルノイズと戦うためのブートストラップの学習

予測タイトル: ディープニューラルネットワークにおけるジョイントインスタンスとラベルの再重み付けの学習可能な損失目標

実際のタイトル: Seeing a Rose in Five Thousand Ways

予測タイトル: 優れたビジュアルレンダリングと合成のための単一のインターネット画像からのオブジェクト組み込み関数の学習

実際のタイトル: なぜ勝者が最も優れているのか?

予測タイトル: 画像解析の国際ベンチマークコンペティションでの勝利戦略の分析: IEEE ISBI および MICCAI 2021 のマルチセンター研究からの洞察

以上がCVPR 2023 論文概要! CV の最もホットな分野はマルチモーダルモデルと拡散モデルに与えられますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。