北京時間 6 月 20 日凌晨,在西雅圖舉辦的國際電腦視覺頂會 CVPR 2024 正式公佈了最佳論文等獎項。
今年共有10篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文,另外還有2篇最佳論文提名和4篇最佳學生論文提名。
電腦視覺(CV)領域的頂級會議是CVPR,每年都會吸引大量研究機構和高校參會。根據統計,今年共提交了11532份論文,2719篇被接收,錄取率為23.6%。
根據喬治亞理工學院對CVPR 2024的數據統計分析,從研究主題來看,論文數量最多的是圖像和視頻合成與生成(Image and video synthesis and generation)主題,共329篇。
今年的與會者總數高於往年,且越來越多的人選擇了線下參會。
最佳論文
論文1:Generative Image Dynamics
作者:Zhengqi Liams、Richard Tkqi Li
論文地址:https://arxiv.org/pdf/2309.07906
:該研究提出了一種對場景運動建模圖像 - 空間先驗的方法。先驗是從集合中學到的從真實影片序列中提取的運動軌跡,描繪了物體的自然振盪動力學,例如樹木、衣服等物體在風中搖曳。研究建模傅立葉域中密集的長期運動作為頻譜體積(spectral volume),研究團隊發現這非常適合用擴散模型預測。
給定單一影像,該研究訓練的模型使用頻率協調擴散取樣過程來預測頻譜體積,也可以轉換為跨越整個影片的運動紋理(motion texture)。
下對中上(上調整時的紋理時光的感覺(頂部)或放大倍率(底部運動幅度。
與基於圖像的渲染模組一起,預測的運動表徵可用於許多下游應用,例如將靜止圖像變成無縫循環視頻,或者允許用戶與真實圖像中的對象進行交互,產生逼真的模擬動態。
論文2:Rich Human Feedback for Text-to-Image Generation
作者:Youwei Liang、Junfeng He、Gang Li、Pemihao Liangyi分校、Google研究院、南加州大學、劍橋大學、布蘭迪斯大學
論文地址:https://arxiv.org/pdf/2312.10240
摘要:最近,文字到圖像(T2I)生成模型取得重大進展,能夠根據文字描述產生高解析度圖像。然而,許多生成的圖像仍然存在偽影 / 不可信、與事實不符、美觀低等問題。
受人類回饋強化學習(RLHF)成功用於大型語言模型的啟發,該研究透過以下方式來豐富回饋訊號:
用文字標記不可信或不對齊的圖像區域;
最佳論文亞軍
. Boxin Shi
機構:北京大學、上海交通大學等
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-_Photometricsing_Stereo_Photometric05_pdf
機構:俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院
TREEOFLIFE-10M 閘中 108 門的樹狀圖。
研究者在各種細粒度生物學分類任務上對本文方法進行了嚴格的基準測試,發現 BIOCLIP 的表現始終顯著優於現有基線(絕對值高出 16% 到 17%)。
內在評估表明,BIOCLIP 已經學會了符合生命之樹的分層表示,這揭示了其強大的通用性。
論文 2:Mip-Splatting:Alias-free 3D Gaussian Splatting
論文作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Gegler, Andreas機構:圖賓根大學、圖賓根人工智慧中心、上海科技大學、布賴特寧、布拉格捷克技術大學
論文地址:https://arxiv.org/abs/2311.16493
摘要:最近,3D 高斯潑濺技術在新穎視圖合成方面展示了令人印象深刻的成果,達到了高保真度和效率水平。然而,當改變取樣率時(例如透過改變焦距或攝影機距離),強烈的偽影現象可能會出現。
3D 高斯潑濺透過將 3D 物件表示為投影到影像平面上的 3D 高斯函數,隨後在螢幕空間中進行 2D 膨脹處理,如圖 (a) 所示。此方法的內在收縮偏差導致退化的 3D 高斯函數超出取樣限制,如圖 (b) 中的 δ 函數所示,而由於膨脹操作,其渲染效果類似於 2D。然而,當改變取樣率(透過焦距或相機距離)時,會觀察到強烈的膨脹效應(c)和高頻偽影(d)。
該研究團隊發現這種現象的原因可以歸因於缺乏 3D 頻率約束以及使用了 2D dilation filter。為了解決這個問題,他們引入了 3D smoothing filter,該濾波器根據輸入視圖引起的最大取樣頻率來約束 3D Gaussian primitives 的大小,從而在放大時消除高頻偽影。
此外,作者團隊用 2D Mip filter 取代 2D dilation filter,這種濾波器模擬了 2D box filter,有效地緩解了走樣和膨脹問題。研究者根據評估,包括在單尺度影像上訓練和多尺度測試等場景,驗證了這種方法的有效性。
最佳學生論文亞軍
論文:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
S
機構:卡內基美隆大學今年獲獎的論文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。
作者:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik
機構:UC 柏克萊
/紙青年研究者獎(Young Researcher Awards)旨在表彰年輕的科學家,鼓勵他們繼續做出開創性的工作。評選標準是獲獎者獲得博士學位的年資少於 7 年。
今年獲獎者為 Angjoo Kanazawa(UC 柏克萊)和 Carl Vondrick(哥倫比亞大學)。另外,Katie Bouman(加州理工學院)獲得了青年研究者獎榮譽提名。
Thomas Huang 紀念獎
在CVPR 2020 上,為了紀念Thomas S. Huang(黃煦濤)教授,PAMITC 獎勵委員會批准設立Thomas S. Huang 紀念獎,以表彰教育和在 Huang CV方面被公認為楷模的研究人員。該獎項從 2021 年開始頒發。獲獎者需要拿到博士學位至少 7 年,最好處於職涯發展中期(不超過 25 年)。
今年的得獎者是牛津大學教授 Andrea Vedaldi。更多資訊可參考:https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf
參考連結:/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2
以上是CVPR 2024全部獎項公佈!近萬人線下參會,Google華人研究員獲最佳論文獎的詳細內容。更多資訊請關注PHP中文網其他相關文章!