搜尋
首頁科技週邊人工智慧CVPR 2023論文總結! CV最熱領域頒給多模態、擴散模型

一年一度的CVPR即將在6月18-22日加拿大溫哥華正式開幕。

每年,來自世界各地的成千上萬的CV研究人員和工程師聚集在一起參加頂會。這個久負盛名的會議可以追溯到1983年,它代表了電腦視覺發展的巔峰。

目前,CVPR的h5指數所有會議或出版品中排名第四,僅次於《自然》、《科學》和《新英格蘭醫學雜誌》。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

前段時間,CVPR公佈了論文接收結果。根據官網上統計數據,共接受論文9155篇,錄取2359篇,接受率為25.8%。

此外,也公佈了12篇獲獎候選論文。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

那麼,今年的CVPR有哪些亮點呢?從錄用論文中我們又能看到CV領域有哪些趨勢?

接下來一併揭曉。

CVPR一覽

新創公司Voxel51就所有被接收論文清單中進行了分析。

先來整體看一張論文標題的總圖,每個字的大小與資料集中出現的頻率成正比。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

簡單說明

- 2359篇論文被接收(9155份論文提交)

- 1724篇Arxiv論文

- 68份文件提交到其他地址

每篇論文的作者

- CVPR論文的平均作者約為5.4人

- 論文當中作者最多的是: “Why is the winner the best?”有125位作者

- 有13篇論文只有一個作者。

主要Arxiv分類

#在1724篇Arxiv論文中,有1545篇,或接近90%的論文將cs.CV列為主要類別。

cs.LG排名第二,有101篇。 eess.IV (26)和 cs.RO (16)也分得一杯羹。

CVPR 論文的其他類別包括: cs.HC,cs.CV,cs.AR,cs.DC,cs.NE,cs.SD,cs.CL,cs.IT ,cs.CR,cs.AI,cs.MM,cs.GR,eess.SP,eess.AS,​​math.OC,math.NT,physics.data-an和stat.ML。

「Meta」資料

- 「資料集」與「模型」這2個字共同出現在567篇摘要中。 「資料集」在265篇論文摘要中單獨出現,而「模型」則單獨出現了613次。只有16.2%的 CVPR接收論文沒有包含這兩個字。

- 根據CVPR論文摘要,今年最受歡迎的資料集是ImageNet(105),COCO(94),KITTI(55)和CIFAR(36)。

- 28篇論文提出了一個新的「基準」。

縮寫詞比比皆是

#似乎沒有首字母縮寫就沒有機器學習項目。 2359篇論文中,1487篇的標題有多個大寫字母的縮寫或複合詞,佔63%。

這些首字母縮寫詞中有一些很容易記住,甚至可以脫口而出:

- CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseCLAMP

- PATS: Patch Area Transportation with Subdivision for Local Feature Matching

- CIRCLE: Capture In Rich Contextual Environments

- CIRCLE: Capture In Rich Contextual Environments

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

##幫助有些則複雜得多:

- SIEDOB: Semantic Image Editing by Disentangling Object and Background

- FJMP : Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsFJMP

##他們中的一些人似乎在首字母縮略詞構建上借鑒了別人的創意:##他們中的一些人似乎在首字母縮略詞構建上借鑒了別人的創意:

- SCOTCH and SODA: A Transformer Video Shadow Detection Framework(荷蘭流行潮牌Scotch & Soda)

- EXCALIBUR: Encouraging and Evaluating Embodied Exploration(Ex咖哩棒,笑)什麼最熱?

除了2023年的論文標題,我們抓取了2022年所有接受的論文標題。從這兩個清單中,我們計算了各種關鍵字的相對頻率,從讓大家對什麼是上升趨勢、什麼是下降趨勢有更深入的了解。

模型2023年,擴散模型(Diffusion models)佔據了主導地位。

。擴散模型

隨著Stable Diffusion和Midjourney等影像生成模型的走紅,擴散模型發展的火熱趨勢也就不足為奇了。

擴散模型在去雜訊、影像編輯和風格轉換方面也有應用。把所有這些加起來,到目前為止,它是所有類別中最大的贏家,比去年同期增長了573% 。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型輻射場

#神經輻射場(NERF)也越來越受歡迎,論文中使用單字“ radiance」增加了80% ,「NERF」增加了39% 。 NeRF已經從概念驗證轉向編輯、應用和訓練流程最佳化。

######Transformers################「Transformer」和「ViT」的使用率下降並不意味著Transformer模型過時,而是反映了這些模型在2022年的主導地位。 2021年,「Transformer」這個字只出現在37篇論文中。 2022年,這個數字飆升至201。 Transformer不會很快消失。 ###############CNN################CNN曾經是電腦視覺的寵兒,到了2023年,似乎失去了它們的優勢,使用率下降了68%。許多提到 CNN 的標題也提到了其他模型。例如,這些論文提到了CNN和Transformer:############- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono######### ####- Learned Image Compression with Mixed Transformer-CNN Architectures############任務############掩碼任務和掩碼圖像建模相結合,在CVPR中佔據了主導地位。 ############################################################################

傳統的判別任務,如檢測、分類和分割並沒有失寵,但是由於生成應用的一系列進步,它們在CV的份額正在縮小,包括“編輯”、“合成”以及“生成”的上升就證明這一點。

掩碼

#關鍵字「mask」比去年同期成長了263% ,在2023年被接收的論文中出現了92次,有時在一個標題中出現了2次。

- SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationSIM

#- DynaMask: Dynamic Mask Selection for Instance SegmentationDynaMask#mentationDynaMask

##但大多數(64%)實際上指的是「掩碼」任務,包括8個「掩碼影像建模」和15個「掩碼自動編碼器」任務。此外,還有8篇出現「掩碼」。

同樣值得注意的是,3篇帶有單字「mask」的論文標題實際上指的是「無掩碼」任務。

零樣本vs小樣本

#隨著遷移學習、產生方法、提示和通用模型的興起, 「零樣本」學習正在獲得關注。同時,「小樣本」學習比去年有所下降。然而,就原始數字而言,至少目前而言,「小樣本」(45)比「零樣本」(35)略有優勢。

模數

2023年,多模態與跨模態應用加速發展。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

雖然傳統計算機視覺關鍵字如「圖像」和「視訊」的頻率相對保持不變,但「文字」/「語言」和「音訊」出現的頻率較高。

即使「多模態」這個詞本身沒有在論文標題中出現,也很難否認電腦視覺正在走向多模態的未來。

這在視覺語言任務中尤其明顯,正如「開放」、「提示」和「詞彙」的急劇上升所顯示的。

這種情況最極端的例子是「開放詞彙」這個複合詞,它在2022年只出現了3次,但在2023年出現了18次。

深入研究CVPR 2023論文標題中的關鍵字

點雲9

三維電腦視覺應用正在從以二維影像推斷3D資訊(「深度」和「立體」)轉向直接在3D點雲資料上進行工作的電腦視覺系統。

######CV標題的創造力#########如果不將ChatGPT納入其中,2023年任何與機器學習相關的全面報導都是不完整的。我們決定讓事情變得有趣,並使用ChatGPT來尋找CVPR 2023中最有創意的標題。 ############對於每一篇上傳到Arxiv的論文,我們抓取了摘要,並要求 ChatGPT (GPT-3.5 API)為相應的CVPR論文產生一個標題。 ############然後,我們將這些由ChatGPT產生的標題和實際的論文標題,使用OpenAI的text-embedding-ada-002模型產生嵌入向量,並計算ChatGPT產生的標題和作者產生的標題之間的餘弦相似度。 ############這可以告訴我們什麼? ChatGPT越接近實際的論文標題,這個標題就越可預測。換句話說,ChatGPT的預測越「偏」,作者為論文命名的「創造性」就越強。 ######

嵌入和餘弦相似度為我們提供了一個有趣的,儘管遠非完美的,量化方法。

我們依照這個指標對論文進行了排序。話不多說,以下是最具創意的標題:

實際的標題:Tracking Every Thing in the Wild

預測的標題:Disentangling Classification from Tracking: Introducing TETA for Comprehensive Benchmarking of Multi-Category Multiple Object Tracking

實際的標題:Learning to Bootstrap for Combating Label Noise

預測的標題:Learnable Loss Objective for Joint Instance and Label Reweighting in Deep Neural Networks

實際的標題:Seeing a Rose in Five Thousand Ways

實際的標題:Seeing a Rose in Five Thousand Ways

預測的標題:Learning Object Intrinsics from Single Internet Images for Superior Visual Rendering and Synthesis

實際的標題:Why is the winner the best?

####預測的標題:Analyzing Winning Strategies in International Benchmarking Competitions for Image Analysis: Insights from a Multi-Center Study of IEEE ISBI and MICCAI 2021#######

以上是CVPR 2023論文總結! CV最熱領域頒給多模態、擴散模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),