ホームページ  >  記事  >  テクノロジー周辺機器  >  CVPR 2023 論文概要! CV の最もホットな分野はマルチモーダル モデルと拡散モデルに与えられます

CVPR 2023 論文概要! CV の最もホットな分野はマルチモーダル モデルと拡散モデルに与えられます

WBOY
WBOY転載
2023-05-25 15:10:351329ブラウズ

年次CVPRは、6月18日から22日までカナダのバンクーバーで正式に開幕します。

毎年、世界中から数千人の CV 研究者やエンジニアがサミットに集まります。この権威あるカンファレンスは 1983 年に遡り、コンピューター ビジョン開発の頂点を表します。

現在、CVPR の h5 インデックスは、すべての会議や出版物の中で、Nature、Science、New England Journal of Medicine に次いで 4 位にランクされています。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

#少し前に、CVPR が論文の受理結果を発表しました。公式ウェブサイトの統計によると、論文総数は9,155件、採択数は2,359件、採択率は25.8%でした。

また、受賞候補論文12本が発表されました。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

それでは、今年の CVPR のハイライトは何でしょうか?受理された論文から履歴書分野ではどのような傾向が見えますか?

は次回発表します。

CVPR の概要

スタートアップ Voxel51 は、受理されたすべての論文のリストを分析しました。

まず、論文のタイトルの概要図を見てみましょう。各単語のサイズは、データ セット内の出現頻度に比例します。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

簡単な説明

#- 2359 件の論文受理されました(9155 件の論文が提出されました)

#- 1724 件の Arxiv 論文

#- 68 件の論文が他のアドレスに送信されました

論文あたりの著者数

-CVPR論文の平均的な著者は約5.4人です

-最も多くの著者がいる論文は、「なぜ勝者が最も優れているのか?」です。著者は 125 人です。

- 著者が 1 人だけの論文が 13 件あります。

Arxiv の主な分類

1,724 件の Arxiv 論文のうち、1,545 件、または 90% 近くが含まれます。 cs.CV をメイン カテゴリとしてリストします。

cs.LG は 101 件の記事で 2 位にランクされました。 eess.IV (26) と cs.RO (16) もパイの分け前を獲得します。

CVPR 論文のその他のカテゴリには、cs.HC、cs.CV、cs.AR、cs.DC、cs.NE、cs.SD、cs.CL、cs.IT が含まれます。 、cs.CR、cs.AI、cs.MM、cs.GR、eess.SP、eess.AS、math.OC、math.NT、physics.data-an、および stat.ML。

「メタ」データ

- 「データセット」と「モデル」という 2 つの単語が、Among 567 で一緒に表示されます。要約。 「データセット」は 265 件の論文抄録に単独で出現し、「モデル」は単独で 613 回出現します。 CVPR に受理された論文のうち、これら 2 つの単語が含まれていない論文はわずか 16.2% でした。

#- CVPR 論文の要約によると、今年最も人気のあるデータセットは ImageNet (105)、COCO (94)、KITTI (55)、CIFAR (36) です。

#- 28 の論文が新しい「ベンチマーク」を提案します。

頭字語はたくさんあります

頭字語のない機械学習プロジェクトは存在しないように思えます。 2,359本の論文のうち、タイトルに複数の略語や複合語を大文字で含む論文は1,487本で63%を占めた。

これらの頭字語の中には、覚えやすく、思わず口から出てしまうものもあります:

##- CLAMP: 言語と動物のポーズを結び付けるためのプロンプトベースの対照学習CLAMP

#- PATS: ローカル フィーチャ マッチングのためのサブディビジョンによるパッチ エリアのトランスポート

##- CIRCLE: リッチ コンテキスト環境でのキャプチャ

##もっと複雑なものもあります:

- SIEDOB: オブジェクトと背景のもつれを解くことによるセマンティック画像編集

- FJMP : 因数分解されたジョイント マルチ-学習された有向非巡回インタラクション グラフに対するエージェント動作予測FJMP

そのうちのいくつかは、頭字語の構築に関して他の人からアイデアを借用しているようです:

- SCOTCH とSODA: Transformer Video Shadow Detection Framework (オランダの人気ブランド Scotch & Soda)

- EXCALIBUR: 身体的探索の奨励と評価 (例: カレースティック、笑)

一番ホットなものは何ですか?

2023 年の論文タイトルに加えて、2022 年に承認されたすべての論文タイトルをクロールしました。これら 2 つのリストから、上昇トレンドと下降トレンドについてより深く理解できるように、さまざまなキーワードの相対頻度を計算しました。

#モデル

2023 年には、ディフュージョン モデルが主流になります。

#拡散モデルCVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

安定性あり ありDiffusion や Midjourney などの画像生成モデルの人気を考えると、拡散モデルの開発が熱いトレンドであることは驚くべきことではありません。

拡散モデルは、ノイズ除去、画像編集、スタイル転送にも応用できます。すべてを合計すると、前年比 573% 増で、すべてのカテゴリで断トツの最大の勝者となっています。

放射線場

神経放射線場 (NERF) もますます人気が高まっており、「」という言葉も使われるようになりました。 「ラディアンス」は80%増加、「NERF」は39%増加しました。 NeRF は概念実証から編集、アプリケーション、トレーニング プロセスの最適化に移行しました。

Transformers

「Transformer」と「ViT」の使用が減少しているからといって、Transformer モデルが廃止されるというわけではありません。むしろ、2022 年におけるこれらのモデルの優位性を反映しています。 2021年に「トランスフォーマー」という言葉が登場したのはわずか37紙だった。 2022 年には、この数は 201 人にまで増加します。トランスフォーマーがすぐになくなるわけではありません。

CNN

CNN はかつてはコンピューター ビジョンの最愛の人でしたが、2023 年にはその地位を失ったようです。使用量は 68% 減少しました。 CNN について言及している見出しの多くは、他のモデルについても言及しています。たとえば、次の論文では CNN とトランスフォーマーについて言及しています:

- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono

- 混合トランスフォーマーと CNN アーキテクチャを使用した学習済み画像圧縮

タスク

マスク タスクとマスク イメージ モデリングの組み合わせ、 CVPRにおいて支配的な地位を占めています。 ##############################生成する#########

検出、分類、セグメンテーションなどの従来の識別タスクは人気が衰えたわけではありませんが、「編集」、「合成」、「世代」の台頭がこれを証明しています。

マスク

キーワード「マスク」は前年同期比 263% 増加し、採用されましたin 2023 は論文に 92 回登場し、タイトルに 2 回登場することもあります。

#- SIM: ボックス監視インスタンス セグメンテーション用のセマンティック認識インスタンス マスク生成SIM

- DynaMask: インスタンス セグメンテーション用の動的マスク選択DynaMask

しかし、実際には大多数 (64%) が「マスキング」タスクに言及しており、その中には 8 件の「マスク イメージ モデリング」タスクと 15 件の「マスク オートエンコーダー」タスクが含まれています。また、「マスク」は8記事に登場しました。

また、「マスク」という単語が含まれる 3 つの論文のタイトルが、実際には「マスクなし」タスクを指していることにも注目してください。

ゼロサンプルと小規模サンプル

転移学習、生成手法、ヒント、および一般的なモデルの台頭により、 「ゼロショット」学習が注目を集めています。同時に、「少数のサンプル」学習は昨年より減少しました。ただし、生の数値に関しては、少なくとも現時点では、「小規模サンプル」(45) が「ゼロ サンプル」(35) よりわずかに有利です。

モダリティ

2023 年には、マルチモーダルおよびクロスモーダル アプリケーションの開発が加速します。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

##曖昧な境界

従来のコンピュータではありますが、 「画像」や「ビデオ」などのビジュアルキーワードの頻度は比較的変化がありませんが、「テキスト」/「言語」および「音声」の出現頻度が高くなります。

「マルチモーダル」という言葉自体が論文のタイトルに含まれていないとしても、コンピューター ビジョンがマルチモーダルな未来に向かっているということを否定するのは困難です。

これは、Open、Prompt、Vocabulary の急激な上昇が示すように、視覚的言語的タスクで特に顕著です。

この状況の最も極端な例は、「オープンボキャブラリー」という複合語で、2022 年には 3 回しか出現しませんでしたが、2023 年には 18 回出現しました。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

CVPR 2023 論文タイトルのキーワードを深く掘り下げる

PointCloud9

3 次元コンピューター ビジョン アプリケーションは、2 次元画像から 3D 情報 (「深度」と「立体視」) を推論することから、3D 点群上で直接推論することに移行しています。データ 作業を行うコンピューター ビジョン システム。

履歴書タイトルの創造性

2023 年の機械学習関連の包括的な報道は、ChatGPT をミックスに含めなければ不完全になります。私たちは物事を面白くしておくことに決め、ChatGPT を使用して CVPR 2023 の最もクリエイティブな見出しを見つけました。

Arxiv にアップロードされた各論文について、要約をスクレイピングし、ChatGPT (GPT-3.5 API) に対応する CVPR 論文のタイトルを生成するよう依頼しました。

次に、ChatGPT によって生成されたこれらのタイトルと実際の論文のタイトルを組み合わせ、OpenAI の text-embedding-ada-002 モデルを使用して埋め込みベクトルを生成し、生成されたタイトルの合計を計算します。著者が生成したタイトル間のコサイン類似度。

これから何がわかるでしょうか? ChatGPT が実際の論文のタイトルに近いほど、タイトルはより予測可能になります。言い換えれば、ChatGPT の予測が「偏っている」ほど、著者が論文に名前を付ける際に「創造的」になるということです。

埋め込みとコサイン類似度は、完璧とは程遠いものの、興味深い定量化方法を提供します。

この指標に従って論文を並べ替えました。早速、最もクリエイティブな見出しをご紹介します。

実際の見出し: 野生のあらゆるものを追跡

予測される見出し: 分類を解きほぐすトラッキング: マルチカテゴリ複数オブジェクト追跡の包括的なベンチマークのための TETA の紹介

実際のタイトル: ラベル ノイズと戦うためのブートストラップの学習

予測タイトル: ディープ ニューラル ネットワークにおけるジョイント インスタンスとラベルの再重み付けの学習可能な損失目標

実際のタイトル: Seeing a Rose in Five Thousand Ways

予測タイトル: 優れたビジュアル レンダリングと合成のための単一のインターネット画像からのオブジェクト組み込み関数の学習

実際のタイトル: なぜ勝者が最も優れているのか?

予測タイトル: 画像解析の国際ベンチマーク コンペティションでの勝利戦略の分析: IEEE ISBI および MICCAI 2021 のマルチセンター研究からの洞察

以上がCVPR 2023 論文概要! CV の最もホットな分野はマルチモーダル モデルと拡散モデルに与えられますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。