ホームページ >テクノロジー周辺機器 >AI >CVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞した
北京時間6月20日早朝、シアトルで開催された最高の国際コンピュータービジョンカンファレンスCVPR 2024が、最優秀論文およびその他の賞を正式に発表した。
今年は、最優秀論文 2 件、最優秀学生論文 2 件、最優秀論文ノミネート 2 件、最優秀学生論文ノミネート 4 件を含む、合計 10 件の論文が賞を受賞しました。
コンピュータービジョン (CV) 分野のトップカンファレンスは CVPR で、毎年多数の研究機関や大学が参加します。統計によると、今年は合計 11,532 件の論文が投稿され、2,719 件が採択され、採択率は 23.6% でした。
ジョージア工科大学による CVPR 2024 データの統計分析によると、研究テーマの観点から最も論文数が多いのは画像とビデオの合成と生成 (画像とビデオの合成と生成) のテーマであり、合計では論文数は329。
今年の参加者の総数は例年よりも多く、オフラインでの参加を選択する人も増えています。
最優秀論文
論文 1: 生成画像ダイナミクス
著者: Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski
機関: Google Research
論文アドレス: https://arxiv.org/pdf/2309.07906
Zhengqi Li は、Google DeepMind の研究科学者です。以前はコーネル大学でコンピュータ サイエンスの博士号を取得し、そこでノア スネーブリー教授の下で学びました。彼の研究は、2020 Google PhD Fellowship、2020 Adobe Research Fellowship、CVPR 2019 および CVPR 2023 Best Paper Honors、ICCV 2023 Best Student Paper Award など、いくつかの賞を受賞しています。
要約: この研究は、シーンの動きをモデル化するための画像空間事前手法を提案します。事前分布は、風に揺れる木や衣服などの物体の自然振動ダイナミクスを表す、実際のビデオ シーケンスから抽出された一連の動作軌跡から学習されます。この研究では、フーリエ領域における高密度の長期運動をスペクトル ボリュームとしてモデル化しており、チームはこれが拡散モデルによる予測に適していることを発見しました。
単一の画像が与えられた場合、この研究でトレーニングされたモデルは、周波数調整された拡散サンプリング プロセスを使用してスペクトル ボリュームを予測します。スペクトル ボリュームは、ビデオ全体にわたるモーション テクスチャに変換することもできます。この研究では、モーション テクスチャの振幅を調整することで、アニメーション モーションを縮小 (上) またはズーム (下) することができます。
画像ベースのレンダリング モジュールと組み合わせて、予測されたモーション表現を多くの下流アプリケーションで使用できます。たとえば、静止画像をシームレスなループ ビデオに変換したり、ユーザーが実際の画像内のオブジェクトを操作して、リアルなシミュレートされたダイナミクスを生成したりできます。 。
論文 2: テキストから画像への生成のためのリッチヒューマンフィードバック
著者: Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy など著者よりこの論文のコラムを見ると、多くの中国人がこの研究に参加していたことがわかります。その中で、梁佑偉氏は、以前はカリフォルニア大学サンディエゴ校の電気・コンピュータ工学科の博士課程の学生でした。華南農業大学で情報とコンピューターサイエンスを専攻する学部生、Junfeng He は Google 出身で、以前は清華大学で修士号を取得しました。
要約: 最近、テキストから画像 (T2I) 生成モデルが大幅に進歩し、テキストの説明から高解像度の画像を生成できるようになりました。しかし、生成された画像の多くは依然としてアーチファクトや信頼性の欠如、事実の不一致、美観の低下に悩まされています。
大規模な言語モデルに対するヒューマン フィードバックによる強化学習 (RLHF) の成功した使用に触発されたこの研究は、次のことによってフィードバック信号を強化します。テキスト プロンプト内の単語が画像上で歪んでいるか、欠けています。
最優秀論文次点
論文 1: EventPS: イベントカメラを使用したリアルタイムフォトメトリックステレオ
著者: Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang 、Boxin Shi
機関: 北京大学、上海交通大学など
論文アドレス: https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
著者: David Charatan、Sizhe Lester Li、Andrea Tagliasacchi、Vincent Sitzmann
機関: MIT、サイモン・フレイザートロント大学
論文アドレス: https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf
最優秀学生論文
論文 1: BioCLIP : Tree of Life のビジョン財団モデル
著者: Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、Elizabeth G Campolongo 、Chan Hee Song 、David Edward Carlyn 、Li Dong 、Wasila M Dahdul 、Charles Stewart 、Tanya Berger -Wolf、Wei-Lun Chao、Yu Su
機関: オハイオ州立大学、Microsoft Research、カリフォルニア大学アーバイン校、レンセラー工科大学
論文アドレス: https://arxiv.org/pdf/2311.18803
この目標を達成するために、研究では、最大かつ最も多様な ML 対応の生物学的画像データセットである TREEOFLIFE-10M を厳選し、リリースしました。これに基づいて、研究者らは、TREEOFLIFE-10Mによって捕捉された生物学のユニークな属性、つまり植物、動物、菌類の画像の豊かさと多様性を利用して、主に生命の樹を構築するために使用される基本モデルBIOCLIPを開発しました。 、そして豊富な構造化された生物学的知識。 TREEOFLIFE-10M の 108 ゲートの樹形図。
研究者らは、さまざまなきめの細かい生物学的分類タスクで私たちの方法を厳密にベンチマークし、BIOCLIP が既存のベースラインよりも一貫して大幅に優れたパフォーマンスを示した (絶対値で 16% ~ 17% 高い) ことを発見しました。 固有の評価は、BIOCLIP が Tree of Life と一致する階層表現を学習したことを示し、その強力な汎用性を明らかにしています。
論文 2: Mip-Splatting: Alias-free 3D Gaussian Splatting
論文著者: Zehao Yu、Anpei Chen、Binbin Huang、Torsten Sattler、Andreas Geiger
機関: テュービンゲン大学、テュービンゲン人工知能センター、上海科学技術大学、ブライトニング、プラハのチェコ工科大学
論文アドレス: https://arxiv.org/abs/2311.16493
要約: 最近、3D ガウス スプラッタリング技術は、新しいビュー合成において目覚ましい結果を示し、高い忠実度および効率レベルに達しました。ただし、サンプリング レートを変更すると (焦点距離やカメラの距離を変更するなど)、強いアーティファクトが発生する可能性があります。
3D ガウス スプラッターは、図 (a) に示すように、イメージ プレーンに投影される 3D ガウス関数として 3D オブジェクトを表現し、続いて画面空間で 2D 膨張を行うことによって機能します。この方法に固有の収縮バイアスにより、図 (b) のδ関数で示すように、縮退 3D ガウス関数がサンプリング制限を超えますが、膨張操作により 2D と同様にレンダリングされます。ただし、サンプリング レートを (焦点距離またはカメラの距離によって) 変更すると、強い膨張効果 (c) と高周波アーチファクト (d) が観察されます。
研究チームは、この現象の理由は 3D 周波数制約の欠如と 2D 拡張フィルターの使用に起因する可能性があることを発見しました。この問題を解決するために、入力ビューによって引き起こされる最大サンプリング周波数に従って 3D ガウス プリミティブのサイズを制限する 3D スムージング フィルターを導入しました。これにより、ズームイン時の高周波アーティファクトが除去されます。
さらに、著者チームは 2D 拡張フィルターを 2D Mip フィルターに置き換えました。これは 2D ボックス フィルターをシミュレートし、エイリアシングと拡張の問題を効果的に軽減します。研究者らは、単一スケール画像でのトレーニングやマルチスケールテストなどのシナリオを含む評価に基づいて、この手法の有効性を検証しました。
最優秀学生論文の次点
論文: SpiderMatch: 大域的最適性と幾何学的一貫性を備えた 3D 形状マッチング
著者: Paul Roetzer、Florian Bernard
機関: ボン大学
リンク: https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
Pa per: 画像処理 GNN: 超解像度での剛性の打破
著者: Yuchuan Tian、Hanting Chen、Chao Xu、Yunhe Wang
機関: 北京大学、Huawei Noah's Ark Laboratory
リンク: https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution _CVPR_2024_論文。 pdf
論文: ボリュームとしてのオブジェクト: 不透明固体の確率的幾何学ビュー
著者: Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas
In機関: カーネギーメロン大学
リンク: https://arxiv.org/pdf/2312.15406v2
論文: 説明手法によるトランスフォーマーとCNNによる意思決定メカニズムの比較
著者:チー・ジャン、 Saeed Khorram、Li Fuxin
機関: オレゴン州立大学
リンク: https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Description_CVPR_2024 _paper .pdf
その他賞
このカンファレンスでは、Longuet-Higgins Award、Young Investigator Award、Thomas S. Huang Memorial Award などの PAMI TC 賞も発表されました。
Longuet-Higgins Award
Longuet-Higgins Award は、年次 CVPR で IEEE Computer Society Pattern Analysis and Machine Intelligence (PAMI) 技術委員会によって授与される「Computer Vision Fundamental Contribution Award」です。 10 年前のコンピュータ ビジョン研究に大きな影響を与えた CVPR 論文。この賞は、理論化学者であり認知科学者である H. クリストファー ロンゲット=ヒギンズにちなんで名付けられました。
今年の受賞論文は「正確なオブジェクト検出とセマンティック セグメンテーションのためのリッチ機能階層」です。
著者: Ross Girshick、Jeff Donahue、Trevor Darrell、Jitendra Malik
機関: UC Berkeley
紙のリンク: https://arxiv.org/abs/1311.2524
若手研究者賞
若手研究者賞は、若い科学者を表彰し、革新的な研究を続けるよう奨励することを目的としています。選考基準は、博士課程の経験が7年未満であることです。
今年の優勝者は、アンジュー・カナザワ (カリフォルニア大学バークレー校) とカール・ヴォンドリック (コロンビア大学) です。
また、Katie Bouman (カリフォルニア工科大学) が Young Investigator Award の佳作を受賞しました。
トーマス・ファン記念賞
CVPR 2020で、トーマス・S・ファン教授(黄雪韜)を追悼し、PAMITC賞委員会はCV研究を表彰するトーマス・S・ファン記念賞の創設を承認しました。 、教育およびサービス ロールモデルとして認められる研究者。この賞は2021年から授与されます。受給者は、博士号を少なくとも 7 年間、できればキャリア中期(25 年以内)に保持している必要があります。
今年の受賞者は、オックスフォード大学のアンドレア・ヴェダルディ教授です。
詳細については、https://media.eventhosts.cc/Conferences/CVPR2024/openingRemarkSlides.pdfを参照してください。
参考リンク:
https://public.tableau .com /views/CVPR2024/CVPRtrends?%3AshowVizHome=no&ContinueFlag=6a947f6367e90acd982f7ee49a495fe2
以上がCVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞したの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。