首頁  >  文章  >  科技週邊  >  提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024

提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024

王林
王林轉載
2024-03-16 09:20:02889瀏覽

雖然我從來沒見過你,但是我有可能「認識」你 —— 這是人們希望人工智慧在「一窺初見」下達到的狀態。

為了達到這個目的,在傳統的圖像識別任務中,人們在帶有不同類別標籤的大量圖像樣本上訓練演算法模型,讓模型獲得對這些圖像的識別能力。而在零樣本學習(ZSL)任務中,人們希望模型能舉一反三,辨識在訓練階段沒有看過影像樣本的類別。

生成式零樣本學習(GZSL)被認為是零樣本學習的有效方法。在GZSL中,首要步驟是訓練一個生成器,用以合成未見類別的視覺特徵。這個生成過程是透過利用屬性標籤等語意描述作為條件來驅動的。一旦產生了這些虛擬的視覺特徵,就可以像訓練傳統分類器一樣,開始訓練一個能夠辨識出未見類別的分類模型。

生成器的訓練對於產生式零樣本學習演算法至關重要。在理想情況下,生成器根據語義描述產生的未見類別的視覺特徵樣本,應該與該類別的真實樣本的視覺特徵具有相同的分佈。這意味著生成器需要能夠準確地捕捉到視覺特徵之間的關係和規律,以便產生具有高度一致性和可信度的樣本。透過訓練生成器,使其能夠有效地學習到不同類別之間的視覺特徵差異,並

#在現有的生成式零樣本學習方法中,生成器在被訓練和使用時,都是以高斯噪聲和類別整體的語義描述為條件的,這限制了生成器只能針對整個類別進行優化,而不是描述每個樣本實例,所以難以準確反映真實樣本視覺特徵的分佈,導致模型的泛化表現較差。另外,已見類與未見類所共享的資料集視覺訊息,即域知識,也沒有在生成器的訓練過程中被充分利用,限制了知識從已見類到未見類的遷移。

為了解決這些問題,華中科技大學研究生與阿里巴巴旗下銀泰商業集團的技術專家提出了一種名為視覺增強的動態語義原型方法(VADS)。此方法將已見​​類別的視覺特徵更充分地引入語意條件中,從而讓推動生成器能夠學習準確的語意-視覺映射。這項研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已經被電腦視覺領域頂尖國際學術會議CVPR 2024所接收。

具體而言,上述研究呈現了三個創新點:

#在零樣本學習中,使用視覺特徵來增強生成器,以便產生可靠的視覺特徵,這是一種創新的方法。

研究也引入了VDKL和VOSU兩個組件,在這些組件的幫助下,資料集的視覺先驗被有效獲取,並且透過動態更新影像的視覺特徵,預定義的類別語義描述得到了更新。這一方法有效地利用了視覺特徵。

試驗結果表明,本研究採用視覺特徵來增強生成器的效果十分顯著。這種即插即用的方法不僅具有強大的通用性,而且在提高生成器性能方面表現出色。

研究细节

VADS 由两个模块组成:(1)视觉感知域知识学习模块(VDKL)学习视觉特征的局部偏差和全局先验,即域视觉知识,这些知识取代了纯高斯噪声,提供了更丰富的先验噪声信息;(2)面向视觉的语义更新模块(VOSU)学习如何根据样本的视觉表示更新其语义原型,更新的后语义原型中也包含了域视觉知识。

最终,研究团队将两个模块的输出连接为一个动态语义原型向量,作为生成器的条件。大量实验表明,VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能,并可以与其他生成式零样本学习方法结合,获得精度的普遍提升。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在视觉感知域知识学习模块(VDKL)中,研究团队设计了一个视觉编码器(VE)和一个域知识学习网络(DKL)。其中,VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE,VE 可以增强视觉特征的类别可分性。

在训练 ZSL 分类器时,生成器生成的未见类视觉特征也被输入 VE,得到的隐特征与生成的视觉特征连接,作为最终的视觉特征样本。VE 的另一个输出,即隐编码,经过 DKL 变换后形成局部偏差 b,与可学习的全局先验 p,以及随机高斯噪声一起,组合成域相关的视觉先验噪声,代替其他生成式零样本学习中常用的纯高斯噪声,作为生成器生成条件的一部分。

在面向视觉的语义更新模块(VOSU)中,研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段,VSP 以图像视觉特征为输入,生成一个能够捕获目标图像视觉模式的预测语义向量,同时,SUM 以类别语义原型为输入,对其进行更新,得到更新后的语义原型,然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整,使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。

在试验部分,上述研究使用了学术界常用的三个 ZSL 数据集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),对传统零样本学习和广义零样本学习的主要指标,与近期有代表性的其他方法进行了全面对比。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在传统零样本学习的 Acc 指标方面,该研究的方法与已有方法相比,取得了明显的精度提升,在三个数据集上分别领先 8.4%,10.3% 和 8.4%。在广义零样本学习场景,上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。

VADS 方法也可以與其他生成式零樣本學習方法結合。例如,與CLSWGAN,TF-VAEGAN 和FREE 這三種方法結合後,在三個資料集上的Acc 和H 指標均有明顯提升,三個資料集的平均提升幅度為7.4%/5.9%, 5.6% /6.4% 和3.3%/4.2%。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

透過對生成器產生的視覺特徵進行視覺化可以看出,原本混淆在一起的部分類別的特徵,例如下圖(b ) 中顯示的已見類別「Yellow breasted Chat」和未見類別「Yellowthroat」兩類特徵,在使用VADS 方法後,在圖(c)中能夠被明顯地分離為兩個類別簇,從而避免了分類器訓練時的混淆。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

可延展到智慧安防與大模型領域

機器之心了解到,上述研究研究團隊關注的零樣本學習旨在使模型能夠識別在訓練階段沒有圖像樣本的新類別,在智慧安防領域具有潛在的價值。

第一,處理安防場景中新出現的風險,由於安防場景下,會不斷出現新的威脅類型或不尋常的行為模式,它們可能在先前的訓練數據中未曾出現。零樣本學習使安防系統能快速識別和回應新風險類型,進而提高安全性。

第二,減少對樣本資料的依賴:取得足夠的標註資料來訓練有效的安防系統是昂貴且耗時的,零樣本學習減少了系統對大量影像樣本的依賴,從而節省了研發成本。

第三,提升動態環境下的穩定性:零樣本學習使用語義描述實現對未見類別模式的識別,與完全依賴圖像特徵的傳統方法相比,對於視覺環境的變化自然具有更強的穩定性。

此技術作為解決影像分類問題的底層技術,還可以在依賴視覺分類技術的場景落地,例如人、貨、車、物的屬性識別,行為識別等。尤其在需要快速增加新的待識別類別,來不及收集訓練樣本,或難以收集大量樣本的場景(如風險識別),零樣本學習技術相對於傳統方法具有較大優勢。

此研究技術對於目前大模型的發展有無借鏡之處?

研究者認為,生成式零樣本學習的核心思想是對齊語意空間和視覺特徵空間,這與目前多模態大模型中的視覺語言模型(如CLIP)的研究目標是一致的。

它們最大的不同點是,生成式零樣本學習是在預先定義好的有限類別的資料集上訓練和使用,而視覺語言大模型則是透過對大資料的學習獲得具有通用性的語意和視覺表徵能力,不侷限在有限的類別,作為基礎模型,具有更廣泛的應用範圍。

如果技術的應用場景是特定領域,可以選擇將大模型針對此領域進行適配微調,在此過程中,與本文相同或相似研究方向的工作,理論上可以帶來一些有益的啟發。

作者介紹

侯文金,華中科技大學碩士研究生,感興趣的研究方向包括電腦視覺,生成建模,少樣本學習等,他在阿里巴巴- 銀泰商業實習期間完成了本論文工作。

王炎,阿里巴巴 - 銀泰商業技術總監,深象智慧團隊演算法負責人。

馮雪濤,阿里巴巴 - 銀泰商業資深​​演算法專家,主要關注視覺和多模態演算法在線下零售等行業的應用落地。

以上是提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除