提升生成式零樣本學習能力，視覺增強動態語意原型方法入選CVPR 2024-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

提升生成式零樣本學習能力，視覺增強動態語意原型方法入選CVPR 2024

王林

Mar 16, 2024 am 09:20 AM

ai訓練

雖然我從來沒見過你，但是我有可能「認識」你 —— 這是人們希望人工智慧在「一窺初見」下達到的狀態。

為了達到這個目的，在傳統的圖像識別任務中，人們在帶有不同類別標籤的大量圖像樣本上訓練演算法模型，讓模型獲得對這些圖像的識別能力。而在零樣本學習（ZSL）任務中，人們希望模型能舉一反三，辨識在訓練階段沒有看過影像樣本的類別。

生成式零樣本學習（GZSL）被認為是零樣本學習的有效方法。在GZSL中，首要步驟是訓練一個生成器，用以合成未見類別的視覺特徵。這個生成過程是透過利用屬性標籤等語意描述作為條件來驅動的。一旦產生了這些虛擬的視覺特徵，就可以像訓練傳統分類器一樣，開始訓練一個能夠辨識出未見類別的分類模型。

生成器的訓練對於產生式零樣本學習演算法至關重要。在理想情況下，生成器根據語義描述產生的未見類別的視覺特徵樣本，應該與該類別的真實樣本的視覺特徵具有相同的分佈。這意味著生成器需要能夠準確地捕捉到視覺特徵之間的關係和規律，以便產生具有高度一致性和可信度的樣本。透過訓練生成器，使其能夠有效地學習到不同類別之間的視覺特徵差異，並

#在現有的生成式零樣本學習方法中，生成器在被訓練和使用時，都是以高斯噪聲和類別整體的語義描述為條件的，這限制了生成器只能針對整個類別進行優化，而不是描述每個樣本實例，所以難以準確反映真實樣本視覺特徵的分佈，導致模型的泛化表現較差。另外，已見類與未見類所共享的資料集視覺訊息，即域知識，也沒有在生成器的訓練過程中被充分利用，限制了知識從已見類到未見類的遷移。

為了解決這些問題，華中科技大學研究生與阿里巴巴旗下銀泰商業集團的技術專家提出了一種名為視覺增強的動態語義原型方法（VADS）。此方法將已見類別的視覺特徵更充分地引入語意條件中，從而讓推動生成器能夠學習準確的語意-視覺映射。這項研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已經被電腦視覺領域頂尖國際學術會議CVPR 2024所接收。

具體而言，上述研究呈現了三個創新點：

#在零樣本學習中，使用視覺特徵來增強生成器，以便產生可靠的視覺特徵，這是一種創新的方法。

研究也引入了VDKL和VOSU兩個組件，在這些組件的幫助下，資料集的視覺先驗被有效獲取，並且透過動態更新影像的視覺特徵，預定義的類別語義描述得到了更新。這一方法有效地利用了視覺特徵。

試驗結果表明，本研究採用視覺特徵來增強生成器的效果十分顯著。這種即插即用的方法不僅具有強大的通用性，而且在提高生成器性能方面表現出色。

研究细节

VADS 由两个模块组成：（1）视觉感知域知识学习模块（VDKL）学习视觉特征的局部偏差和全局先验，即域视觉知识，这些知识取代了纯高斯噪声，提供了更丰富的先验噪声信息；（2）面向视觉的语义更新模块（VOSU）学习如何根据样本的视觉表示更新其语义原型，更新的后语义原型中也包含了域视觉知识。

最终，研究团队将两个模块的输出连接为一个动态语义原型向量，作为生成器的条件。大量实验表明，VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能，并可以与其他生成式零样本学习方法结合，获得精度的普遍提升。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

在视觉感知域知识学习模块（VDKL）中，研究团队设计了一个视觉编码器（VE）和一个域知识学习网络（DKL）。其中，VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE，VE 可以增强视觉特征的类别可分性。

在训练 ZSL 分类器时，生成器生成的未见类视觉特征也被输入 VE，得到的隐特征与生成的视觉特征连接，作为最终的视觉特征样本。VE 的另一个输出，即隐编码，经过 DKL 变换后形成局部偏差 b，与可学习的全局先验 p，以及随机高斯噪声一起，组合成域相关的视觉先验噪声，代替其他生成式零样本学习中常用的纯高斯噪声，作为生成器生成条件的一部分。

在面向视觉的语义更新模块（VOSU）中，研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段，VSP 以图像视觉特征为输入，生成一个能够捕获目标图像视觉模式的预测语义向量，同时，SUM 以类别语义原型为输入，对其进行更新，得到更新后的语义原型，然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整，使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。

在试验部分，上述研究使用了学术界常用的三个 ZSL 数据集：Animals with Attributes 2（AWA2），SUN Attribute（SUN）和 Caltech-USCD Birds-200-2011（CUB），对传统零样本学习和广义零样本学习的主要指标，与近期有代表性的其他方法进行了全面对比。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

在传统零样本学习的 Acc 指标方面，该研究的方法与已有方法相比，取得了明显的精度提升，在三个数据集上分别领先 8.4%，10.3% 和 8.4%。在广义零样本学习场景，上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。

VADS 方法也可以與其他生成式零樣本學習方法結合。例如，與CLSWGAN，TF-VAEGAN 和FREE 這三種方法結合後，在三個資料集上的Acc 和H 指標均有明顯提升，三個資料集的平均提升幅度為7.4%/5.9%, 5.6% /6.4% 和3.3%/4.2%。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

透過對生成器產生的視覺特徵進行視覺化可以看出，原本混淆在一起的部分類別的特徵，例如下圖(b ) 中顯示的已見類別「Yellow breasted Chat」和未見類別「Yellowthroat」兩類特徵，在使用VADS 方法後，在圖（c）中能夠被明顯地分離為兩個類別簇，從而避免了分類器訓練時的混淆。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

可延展到智慧安防與大模型領域

機器之心了解到，上述研究研究團隊關注的零樣本學習旨在使模型能夠識別在訓練階段沒有圖像樣本的新類別，在智慧安防領域具有潛在的價值。

第一，處理安防場景中新出現的風險，由於安防場景下，會不斷出現新的威脅類型或不尋常的行為模式，它們可能在先前的訓練數據中未曾出現。零樣本學習使安防系統能快速識別和回應新風險類型，進而提高安全性。

第二，減少對樣本資料的依賴：取得足夠的標註資料來訓練有效的安防系統是昂貴且耗時的，零樣本學習減少了系統對大量影像樣本的依賴，從而節省了研發成本。

第三，提升動態環境下的穩定性：零樣本學習使用語義描述實現對未見類別模式的識別，與完全依賴圖像特徵的傳統方法相比，對於視覺環境的變化自然具有更強的穩定性。

此技術作為解決影像分類問題的底層技術，還可以在依賴視覺分類技術的場景落地，例如人、貨、車、物的屬性識別，行為識別等。尤其在需要快速增加新的待識別類別，來不及收集訓練樣本，或難以收集大量樣本的場景（如風險識別），零樣本學習技術相對於傳統方法具有較大優勢。

此研究技術對於目前大模型的發展有無借鏡之處？

研究者認為，生成式零樣本學習的核心思想是對齊語意空間和視覺特徵空間，這與目前多模態大模型中的視覺語言模型（如CLIP）的研究目標是一致的。

它們最大的不同點是，生成式零樣本學習是在預先定義好的有限類別的資料集上訓練和使用，而視覺語言大模型則是透過對大資料的學習獲得具有通用性的語意和視覺表徵能力，不侷限在有限的類別，作為基礎模型，具有更廣泛的應用範圍。

如果技術的應用場景是特定領域，可以選擇將大模型針對此領域進行適配微調，在此過程中，與本文相同或相似研究方向的工作，理論上可以帶來一些有益的啟發。

作者介紹

侯文金，華中科技大學碩士研究生，感興趣的研究方向包括電腦視覺，生成建模，少樣本學習等，他在阿里巴巴- 銀泰商業實習期間完成了本論文工作。

王炎，阿里巴巴 - 銀泰商業技術總監，深象智慧團隊演算法負責人。

馮雪濤，阿里巴巴 - 銀泰商業資深演算法專家，主要關注視覺和多模態演算法在線下零售等行業的應用落地。

以上是提升生成式零樣本學習能力，視覺增強動態語意原型方法入選CVPR 2024的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35