在法國巴黎舉行的電腦視覺頂峰大會ICCV 2023剛結束!
今年的最佳論文獎,簡直是「神仙打架」。
例如,兩篇在獲得最佳論文獎的論文中,就包含顛覆文生圖AI領域的著作-ControlNet。
自從開源以來,ControlNet已經在GitHub上取得了24k個星。無論是對於擴散模型還是整個電腦視覺領域來說,這篇論文的獲獎都是實至名歸的
#而最佳論文獎榮譽提名,則頒獎給了另一篇同樣有名的論文,Meta的「分割一切」模型SAM。
自推出以來,「分割一切」已經成為了各種影像分割AI模型的“標竿”,包括後來居上的不少FastSAM、LISA、SegGPT,全部都是以它為參考基準進行效果測試。
論文提名都如此重量級,這屆ICCV 2023競爭有多激烈?
ICCV 2023共提交了8068篇論文,但只有約四分之一,即2160篇論文被錄用
其中近10%的論文來自中國,除了高校以外也有不少產業機構的身影,像商湯科技及聯合實驗室有49篇論文入選ICCV 2023,曠視有14篇論文入選。
一起來看看哪些論文獲得了ICCV 2023的獎項
ControlNet獲ICCV最佳論文
#讓我們先來看看今年獲得最佳論文獎(馬爾獎)的兩篇論文
ICCV最佳論文又名馬爾獎(Marr Prize),每兩年評選一次,被譽為電腦視覺領域的最高榮譽之一。
這個獎項以電腦視覺領域的先驅、計算神經科學的創始人大衛·馬爾命名
第一篇最佳論文獎得主是來自斯坦福的《為文本到圖像擴散模型新增條件控制》
這篇論文提出了一個名為ControlNet的模型,只需為預訓練擴散模型增加一個額外的輸入,就能控制它產生的細節。
這裡的輸入可以是各種類型,包括草圖、邊緣影像、語意分割影像、人體關鍵點特徵、霍夫變換偵測直線、深度圖、人體骨骼等,所謂的「AI會畫手」了,核心技術正是來自於這篇文章。
它的想法和架構如下:
控制網路首先複製擴散模型的權重,以獲得一個「可訓練副本」
#相較之下,原擴散模型經過數十億張圖片的預訓練,因此參數是被「鎖定」的。而這個「可訓練副本」只需要在特定任務的小資料集上訓練,就能學會條件控制。
即使資料量很少(不超過5萬張圖片),模型經過訓練後條件控制產生的效果也很好。
透過一個1×1的捲積層連接,"鎖定模型"和"可訓練副本"形成了一個名為"0卷積層"的結構。這個0卷積層的權重和偏移被初始化為0,這樣在訓練過程中可以獲得非常快的速度,接近微調擴散模型的速度,甚至可以在個人設備上進行訓練
比如說,如果用20萬張圖像資料來訓練一塊英偉達RTX 3090TI,只需要不到一個星期的時間
張旅民是ControlNet論文的第一作者,目前是史丹佛大學的博士生。除了ControlNet,他也創作了著名作品如Style2Paints和Fooocus
#論文地址:https://arxiv.org/abs/2302.05543
第二篇論文「 Passive Ultra-Wideband Single-Photon lmaging”,來自多倫多大學。
這篇論文被評選委員會稱之為“在主題(topic)上最令人驚訝的論文”,以至於其中一位評委表示“他幾乎不可能想到去嘗試這樣的事情”。
论文的摘要如下:
这篇文章讨论了如何同时在极端时间尺度范围内(从秒到皮秒)对动态场景进行成像,同时要求成像passively(无需主动发送大量光信号)并在光线非常稀少的情况下进行,而且不依赖于来自光源的任何定时信号。
由于现有的单光子相机的光流估计技术在这个范围内失效,因此,这篇论文开发了一种光流探测理论,借鉴了随机微积分的思想,以从单调递增的光子检测时间戳流中重建像素的时间变化光流。
基于这一理论,论文主要做了三件事:
(1)表明在低光流条件下,被动自由运行的单光子波长探测器相机具有可达到的频率带宽,跨越从直流到31 GHz范围的整个频谱;
(2)推导出一种新颖的傅立叶域光流重建算法,用于扫描时间戳数据中具有统计学显著支持的频率;
(3)确保算法的噪声模型即使在非常低的光子计数或非可忽略的死区时间(dead times)情况下仍然有效。
作者通过实验证明了这种异步成像方式的潜力,包括一些前所未见的能力:
(1)在没有同步(如灯泡、投影仪、多脉冲激光器)的情况下,对以不同速度运行的光源同时照明的场景进行成像;
(2)被动的非视域(non-line-of-sight)视频采集;
(3)记录超宽带视频,可以在30 Hz的频率下回放,展示日常运动,但也可以以每秒十亿分之一的速度播放,以展示光的传播过程。
论文一作Mian Wei,多伦多大学博士生,研究方向是计算摄影,目前的研究兴趣在于基于主动照明成像技术改进计算机视觉算法。
请点击以下链接查看论文:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
「分割一切」获荣誉提名
在这次大会上,除了备受关注的ControNet之外,Meta的「分割一切」模型也获得了最佳论文奖的荣誉提名,成为了当时备受瞩目的话题
这篇论文不仅提出了一个当前最大的图像分割数据集,在11M图像上拥有超过10亿个遮罩(mask),而且为此训练出了一个SAM模型,可以快速分割没见过的图像。
相比于之前比较零散的图像分割模型,SAM可以说是对这一系列模型功能进行了“大一统”,而且在各项任务中都表现出了不错的性能。
这个开源模型目前在GitHub上已经获得了38.8k颗星,可以说是语义分割领域的"标杆"了
论文地址:https://arxiv.org/abs/2304.02643
项目主页:https://segment-anything.com/
在学生作品中,Google的「追踪一切」模型脱颖而出
就像文章的标题一样,这个模型可以在任何地点同时对图像中的任意(多个)物体进行像素级追踪。
该项目的第一作者是康奈尔大学的华人博士Qianqian Wang,目前正在UCB进行博士后研究。
论文地址:https://arxiv.org/abs/2306.05422
项目主页:https://omnimotion.github.io/
在開幕式上,也宣布了由PAMITC委員會成員捐贈的特別獎項,該委員會還同時捐贈了CVPR和WACV兩個電腦視覺領域會議的獎項
以下四個獎項被包括在內:
- 亥姆赫茲獎:十年前對電腦視覺研究產生重大影響的ICCV論文
- Everingham獎:電腦視覺領域的進步
- 傑出研究者:對電腦視覺的進步做出重大貢獻的研究人員
- Rosenfeld終身成就獎:在長期職業生涯中對電腦視覺領域做出重大貢獻的研究人員
獲得亥姆赫茲獎的科學家是華裔科學家Heng Wang和Google的Cordelia Schmid,他們是Meta AI的成員
他們憑藉2013年發表的一篇有關動作識別的論文獲得了這一獎項。
當時兩人都在法國國立電腦及自動化研究院(法文縮寫:INRIA)下屬的Lear實驗室工作,Schmid是當時實驗室的領導者。
請點選以下連結查看論文:https://ieeexplore.ieee.org/document/6751553
Everingham獎被授予了兩個團隊
第一組的獲獎者是來自Google的Samer Agarwal、Keir Mierle以及他們的團隊
兩位獲獎者分別畢業於華盛頓大學和多倫多大學,他們的成就是開發了一款在電腦視覺領域廣泛應用的開源C 函式庫Ceres Solver
#專案首頁連結:http://ceres-solver.org /
另一項獲獎成果是COCO資料集,它包含了大量的圖像和註釋,有豐富的內容和任務,是測試電腦視覺模型的重要資料集。
此資料集由微軟提出,相關論文第一作者是華裔科學家Tsung-Yi Lin,博士畢業於康乃爾大學,現在英偉達實驗室擔任研究人員。
論文網址:https://arxiv.org/abs/1405.0312
計畫首頁: https://cocodataset.org/
獲得傑出研究者榮譽的則是德國馬普所的Michael Black和約翰森霍普金斯大學的Rama Chellappa兩位教授。
麻省理工學院的Ted Adelson教授榮獲終身成就獎
請問你的論文被ICCV 2023錄用了嗎?你覺得今年的獎項評選怎麼樣?
以上是ICCV'23論文頒獎「神仙打架」! Meta分割一切和ControlNet共同入選,還有一篇讓評審很驚訝的詳細內容。更多資訊請關注PHP中文網其他相關文章!

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Schmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

大型語言模型(LLM)路由:通過智能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver CS6
視覺化網頁開發工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。