最近,我參加了幾個高強度的學術活動,包括CCF電腦視覺專委會的閉門研討會和VALSE線下大會。經過與其他學者的交流,我產生了許多想法,千頭萬緒,便希望把它們整理下來,供自己和同行們參考。當然,受限於個人的水平和研究範圍,文章中一定會存在許多不準確甚至錯誤的地方,當然也不可能涵蓋所有重要的研究方向。我期待與有興趣的學者們交流,以充實這些觀點,更好地探討未來發展方向。
在這篇文章中,我將專注於分析電腦視覺領域,特別是視覺感知(即識別)方向所面臨的困難和潛在的研究方向。相較於針對具體演算法的細節改進,我更希望探討當前演算法(尤其是基於深度學習的預訓練微調範式)的限制和瓶頸,並且由此得出初步的發展性結論,包括哪些問題是重要的、哪些問題是不重要的、哪些方向值得推進、哪些方向的性價比較低等。
在開始之前,我先畫出以下心智圖。為了尋找合適的切入點,我將從電腦視覺和自然語言處理(人工智慧中兩個最受關注的研究方向)的區別開始談起,引出圖像訊號的三個根本性質:資訊稀疏性、域間差異性、無限粒度性,並將它們與幾個重要的研究方向相對應。這樣,我們就能更了解每個研究方向所處的狀態:它已經解決了哪些問題、還有哪些重要的問題沒有解決,然後針對性地分析今後的發展趨勢。
導圖:CV與NLP的差異、CV三大挑戰及因應方法
一直以來,NLP都走在CV的前面。不論是深度神經網路超越手工方法,還是預訓練大模型開始出現大一統的趨勢,這些事情都先發生在NLP領域,並在不久之後被搬運到了CV領域。這裡的本質原因是NLP的起點更高:自然語言的基礎單元是單詞,而圖像的基礎單元是像素;前者俱有天然的語義訊息,而後者可能無法表達語義。從根本上說,自然語言是人類創造出來,用於儲存知識和交流資訊的載體,所以必然具有高效和資訊密度高的特性;而圖像則是人類透過各種感測器捕捉的光學訊號,它能夠客觀地反映真實情況,但相應地就不具有強語義,且資訊密度可能很低。從另一個角度來看,圖像空間比文字空間大得多,空間的結構也要複雜得多。這意味著,如果希望在空間中採樣大量樣本,並且用這些數據來表徵整個空間的分佈,採樣的圖像數據就要比採樣的文本數據大許多個數量級。順帶一提,這也是為什麼自然語言預訓練模型比視覺預訓練模型用得更好的本質原因——我們在後面還會提到這一點。
根據上述分析,我們已經透過CV和NLP的差別,引出了CV的第一個基本困難,即語義稀疏性。而另外兩個困難,域間差異性和無限粒度性,也多少與上述本質差異有關。正是由於影像採樣時沒有考慮到語義,因而在採樣不同域(即不同分佈,如白天和黑夜、晴天和雨天等場景)時,採樣結果(即影像像素)與域特性強相關,導致了域間差異性。同時,由於圖像的基本語義單元很難定義(而文字很容易定義),且圖像所表達的信息豐富多樣,使得人類能夠從圖像中獲取近乎無限精細的語義信息,遠遠超出當前CV領域任何一種評價指標所定義的能力,這就是無限粒度性。關於無限粒度性,我曾經寫過一篇文章,專門討論這個問題。 https://zhuanlan.zhihu.com/p/376145664
以上述三大基本困難為牽引,我們將業界近年來的研究方向總結如下:
#這裡需要做一個補充說明。由於資料空間大小和結構複雜度的差異,至少到目前為止,CV領域還不能透過預訓練模型直接解決域間差異的問題,但是NLP領域已經接近了這一點。因此,我們看到了NLP學者利用prompt-based方法統一了數十上百種下游任務,但同樣的事情在CV領域並沒有發生。另外,在NLP中提出來的scaling law,其本質在於使用更大的模型來過擬合預訓練資料集。也就是說,對於NLP來說,過度擬合已經不再是一個問題,因為預訓練資料集配合小型prompt已經足以表徵整個語意空間的分佈。但是,CV領域還沒有做到這一點,因此還需要考慮域遷移,而域遷移的核心在於避免過度擬合。也就是說,在接下來2-3年,CV和NLP的研究重心會有很大的差異,因而將任何一個方向的思維模式生搬硬套在另一個方向上,都是很危險的。
#方向1a:神經網路架構設計
2012年的AlexNet,奠定了深度神經網路在CV領域的基礎。隨後10年(至今),神經網路架構設計,經歷了從手工設計到自動設計,再回到手工設計(引入更複雜的計算模組)的過程:##
對於這一方向的未來,我的判斷如下:
如果視覺辨識任務沒有明顯改變,那麼不論是自動設計,或是加入更複雜的運算模組,都無法將CV推向新的高度。視覺辨識任務的可能改變,大致可以分成輸入和輸出兩個部分。輸入部分的可能改變如event camera,它可能會改變規則化處理靜態或時序視覺訊號的現狀,催生特定的神經網路結構;輸出部分的可能改變,則是某種統一各種識別任務的框架(方向3會談到),它有可能讓視覺辨識從獨立任務走向大一統,從而催生出一種更適合視覺prompt的網路架構。
如果一定要在卷積和transformer之間做取捨,那麼transformer的潛力更大,主要因為它能夠統一不同的資料模態,尤其是文字和圖像這兩個最常見也最重要的模態。
##有監督預訓練的發展相對清晰。由於影像級分類資料最容易獲取,因此早在深度學習爆發之前,就有了日後奠定深度學習基礎的ImageNet資料集,並且沿用至今。 ImageNet全集超過1500萬的資料規模,至今沒有被其他非分類資料集所超越,因此至今仍是有監督預訓練上最常用的資料。另外一個原因,則是影像級分類資料引進了較少bias,因而對於下游遷移更加有利-進一步減少bias,就是無監督預訓練。
#########無監督預訓練,則經歷了曲折的發展歷程。從2014年開始,出現了第一代基於幾何的無監督預訓練方法,如根據patch位置關係、根據圖像旋轉等進行判斷,同時生成式方法也在不斷發展(生成式方法可以追溯到更早的時期,此處不贅述)。此時的無監督預訓練方法,也顯著地弱於有監督預訓練方法。到了2019年,對比學習方法經過技術改進,首次顯現出在下游任務上超越有監督預訓練方法的潛力,無監督學習真正成為CV界關注的焦點。而2021年開始,視覺transformer的興起催生了一類特殊的生成式任務即MIM,它逐漸成為統治性方法。 ##################除了純粹的有監督和無監督預訓練,還有一類介於兩者之間的方法,是跨模態預訓練。它使用弱配對的圖像和文字作為訓練素材,一方面避免了圖像監督訊號帶來的bias,一方面又比無監督方法更能學習弱語義。此外,在transformer的加持下,視覺和自然語言的融合也更自然、更合理。 #####################基於上述回顧,我做出以下判斷:#########方向2:模型微調與終身學習
作為一個基礎問題,模型微調已經發展出了大量的不同的setting。如果要把不同的setting統一起來,可以認為它們無非考慮三個資料集,即預訓練資料集 Dpre (不可見)、目標訓練集 Dtrain 、目標測試集 Dtest (不可見且不可預測)。根據三者之間關係的假設不同,比較流行的setting可以概括如下:
上說,很難找到統一的框架來分析模型微調方法的發展和流派。從工程和實用角度來看,模型微調的關鍵在於對域間差異大小的事先判斷。如果認為Dpre 和Dtrain 的差異可能很大,就要減少從預訓練網絡中遷移到目標網絡中權重的比例,或者增加一個專門的head來適應這種差異;如果認為Dtrain 和Dtest 的差異可能很大,就要在微調過程中加入更強的正則化以防止過擬合,或者在測試過程中引入某種在線統計量以盡量抵消差異。至於上述各種setting,則分別有大量研究工作,針對性很強,此處不再贅述。
關於這個方向,我認為有兩個重要問題:
方向3:無限細緻視覺辨識任務
關於無限細粒度視覺辨識(以及類似的概念),目前還沒有很多相關的研究。所以,我以自己的思路來敘述這個問題。我在今年VALSE報告上,對已有方法和我們的proposal做了詳細解讀。以下我給出文字敘述,更詳細的解讀請參考我的專題文章或我在VALSE上做的報告:https://zhuanlan.zhihu.com/p/ 546510418https://zhuanlan.zhihu.com/p/555377882
###首先,我要闡述無限細粒度視覺辨識的意思。簡單地說,圖像中包含的語義資訊非常豐富,但不具有明確的基本語義單元。只要人類願意,就可以從一張圖像中識別出越來越細粒度的語義信息(如下圖所示);而這些信息,很難通過有限而規範的標註(即使花費足夠多的標註成本),形成語意上完整的資料集,供演算法學習。
即使如ADE20K這樣的精細標註資料集,也缺少了大量人類能夠辨識的語意內容
#我們認為,無限細粒度視覺辨識是比開放域視覺辨識更難,也更本質的目標。我們研究了已有識別方法,將其分為兩類,即基於分類的方法和語言驅動的方法,並論述它們無法實現無限細粒度的理由。
上述研究告訴我們,目前的視覺辨識方法並不能達到無限細粒度的目標,而且在走向無限細粒度的路上還會遭遇難以克服的困難。因此,我們我們想分析人是如何解決這些困難的。首先,人類在大多數情況下並不需要明確地做分類任務:回到上述例子,一個人到商場裡買東西,不管商場把「按摩椅」放在「家具」區還是「家電」區,人類都可以透過簡單的指引,快速找到「按摩椅」所在的區域。其次,人類不僅限於用語言指涉影像中的物體,可以使用更靈活的方式(如用手指向物體)完成指涉,進而做更細緻的分析。
結合這些分析,要達到無限細粒度的目標,必須滿足以下三個條件。
#在這三個條件的牽引下,我們設計出了按需視覺辨識任務。與傳統意義上的統一視覺識別不同,按需視覺識別以request為單位進行標註、學習和評測。目前,系統支援兩類request,分別實現了從instance到semantic的分割、以及從semantic到instance的分割,因而兩者結合起來,就能夠實現任意精細程度的圖像分割。按需視覺識別的另一個好處在於,在完成任意數量的request之後停止下來,都不會影響標註的精確性(即使大量資訊沒有被標註出來),這對於開放域的可擴展性(如新增語意類別)有很大的好處。具體細節,可以參考按需視覺識別的文章(連結見上文)。
統一視覺識別和按需視覺識別的對比
#在完成這篇文章之後,我還在不斷思考,按需視覺識別對於其他方向的影響是什麼。這裡提供兩個觀點:
我將CV領域的問題分為三大類:辨識、產生、交互,識別只是其中最簡單的問題。關於這三個子領域,簡要的分析如下:
總之,在不同子領域,單純依靠統計學習(特別是深度學習)的強擬合能力的嘗試,都已經走到了極限。未來的發展,一定是建立在對CV更本質的理解上,而在各種任務上建立更合理的評價指標,則是我們需要踏出的第一步。
經過幾次密集的學術交流,我能夠明顯地感受到業界的迷茫,至少對於視覺感知(辨識)而言,有意思、有價值的研究問題越來越少,門檻也越來越高。這樣發展下去,有可能在不久的將來,CV研究會走上NLP的道路,逐漸分化成兩類:
一類使用巨量計算資源進行預先訓練,不斷空虛地刷新SOTA;一類則不斷設計出新穎卻沒有實際意義的setting以強行創新。這對於CV領域顯然不是好事。為了避免這種事情,除了不斷探索視覺的本質、創造出更有價值的評測指標,還需要業界增加寬容性,特別是對於非主流方向的寬容性,不要一邊抱怨著研究同質化,一邊對於沒有達到SOTA的投稿痛下殺手。目前的瓶頸是所有人共同面對的挑戰,如果AI的發展陷入停滯,沒有人能夠獨善其身。感謝看到最後。歡迎友善的討論。
所有內容只代表作者本人觀點,均有可能被推翻,二次轉載務必連同聲明一起轉載。謝謝!
#以上是華為天才少年謝凌曦:關於視覺辨識領域發展的個人觀點的詳細內容。更多資訊請關注PHP中文網其他相關文章!