搜尋
首頁科技週邊人工智慧提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024

雖然我從來沒見過你,但是我有可能「認識」你 —— 這是人們希望人工智慧在「一窺初見」下達到的狀態。

為了達到這個目的,在傳統的圖像識別任務中,人們在帶有不同類別標籤的大量圖像樣本上訓練演算法模型,讓模型獲得對這些圖像的識別能力。而在零樣本學習(ZSL)任務中,人們希望模型能舉一反三,辨識在訓練階段沒有看過影像樣本的類別。

生成式零樣本學習(GZSL)被認為是零樣本學習的有效方法。在GZSL中,首要步驟是訓練一個生成器,用以合成未見類別的視覺特徵。這個生成過程是透過利用屬性標籤等語意描述作為條件來驅動的。一旦產生了這些虛擬的視覺特徵,就可以像訓練傳統分類器一樣,開始訓練一個能夠辨識出未見類別的分類模型。

生成器的訓練對於產生式零樣本學習演算法至關重要。在理想情況下,生成器根據語義描述產生的未見類別的視覺特徵樣本,應該與該類別的真實樣本的視覺特徵具有相同的分佈。這意味著生成器需要能夠準確地捕捉到視覺特徵之間的關係和規律,以便產生具有高度一致性和可信度的樣本。透過訓練生成器,使其能夠有效地學習到不同類別之間的視覺特徵差異,並

#在現有的生成式零樣本學習方法中,生成器在被訓練和使用時,都是以高斯噪聲和類別整體的語義描述為條件的,這限制了生成器只能針對整個類別進行優化,而不是描述每個樣本實例,所以難以準確反映真實樣本視覺特徵的分佈,導致模型的泛化表現較差。另外,已見類與未見類所共享的資料集視覺訊息,即域知識,也沒有在生成器的訓練過程中被充分利用,限制了知識從已見類到未見類的遷移。

為了解決這些問題,華中科技大學研究生與阿里巴巴旗下銀泰商業集團的技術專家提出了一種名為視覺增強的動態語義原型方法(VADS)。此方法將已見​​類別的視覺特徵更充分地引入語意條件中,從而讓推動生成器能夠學習準確的語意-視覺映射。這項研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已經被電腦視覺領域頂尖國際學術會議CVPR 2024所接收。

具體而言,上述研究呈現了三個創新點:

#在零樣本學習中,使用視覺特徵來增強生成器,以便產生可靠的視覺特徵,這是一種創新的方法。

研究也引入了VDKL和VOSU兩個組件,在這些組件的幫助下,資料集的視覺先驗被有效獲取,並且透過動態更新影像的視覺特徵,預定義的類別語義描述得到了更新。這一方法有效地利用了視覺特徵。

試驗結果表明,本研究採用視覺特徵來增強生成器的效果十分顯著。這種即插即用的方法不僅具有強大的通用性,而且在提高生成器性能方面表現出色。

研究细节

VADS 由两个模块组成:(1)视觉感知域知识学习模块(VDKL)学习视觉特征的局部偏差和全局先验,即域视觉知识,这些知识取代了纯高斯噪声,提供了更丰富的先验噪声信息;(2)面向视觉的语义更新模块(VOSU)学习如何根据样本的视觉表示更新其语义原型,更新的后语义原型中也包含了域视觉知识。

最终,研究团队将两个模块的输出连接为一个动态语义原型向量,作为生成器的条件。大量实验表明,VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能,并可以与其他生成式零样本学习方法结合,获得精度的普遍提升。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在视觉感知域知识学习模块(VDKL)中,研究团队设计了一个视觉编码器(VE)和一个域知识学习网络(DKL)。其中,VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE,VE 可以增强视觉特征的类别可分性。

在训练 ZSL 分类器时,生成器生成的未见类视觉特征也被输入 VE,得到的隐特征与生成的视觉特征连接,作为最终的视觉特征样本。VE 的另一个输出,即隐编码,经过 DKL 变换后形成局部偏差 b,与可学习的全局先验 p,以及随机高斯噪声一起,组合成域相关的视觉先验噪声,代替其他生成式零样本学习中常用的纯高斯噪声,作为生成器生成条件的一部分。

在面向视觉的语义更新模块(VOSU)中,研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段,VSP 以图像视觉特征为输入,生成一个能够捕获目标图像视觉模式的预测语义向量,同时,SUM 以类别语义原型为输入,对其进行更新,得到更新后的语义原型,然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整,使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。

在试验部分,上述研究使用了学术界常用的三个 ZSL 数据集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),对传统零样本学习和广义零样本学习的主要指标,与近期有代表性的其他方法进行了全面对比。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在传统零样本学习的 Acc 指标方面,该研究的方法与已有方法相比,取得了明显的精度提升,在三个数据集上分别领先 8.4%,10.3% 和 8.4%。在广义零样本学习场景,上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。

VADS 方法也可以與其他生成式零樣本學習方法結合。例如,與CLSWGAN,TF-VAEGAN 和FREE 這三種方法結合後,在三個資料集上的Acc 和H 指標均有明顯提升,三個資料集的平均提升幅度為7.4%/5.9%, 5.6% /6.4% 和3.3%/4.2%。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

透過對生成器產生的視覺特徵進行視覺化可以看出,原本混淆在一起的部分類別的特徵,例如下圖(b ) 中顯示的已見類別「Yellow breasted Chat」和未見類別「Yellowthroat」兩類特徵,在使用VADS 方法後,在圖(c)中能夠被明顯地分離為兩個類別簇,從而避免了分類器訓練時的混淆。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

可延展到智慧安防與大模型領域

機器之心了解到,上述研究研究團隊關注的零樣本學習旨在使模型能夠識別在訓練階段沒有圖像樣本的新類別,在智慧安防領域具有潛在的價值。

第一,處理安防場景中新出現的風險,由於安防場景下,會不斷出現新的威脅類型或不尋常的行為模式,它們可能在先前的訓練數據中未曾出現。零樣本學習使安防系統能快速識別和回應新風險類型,進而提高安全性。

第二,減少對樣本資料的依賴:取得足夠的標註資料來訓練有效的安防系統是昂貴且耗時的,零樣本學習減少了系統對大量影像樣本的依賴,從而節省了研發成本。

第三,提升動態環境下的穩定性:零樣本學習使用語義描述實現對未見類別模式的識別,與完全依賴圖像特徵的傳統方法相比,對於視覺環境的變化自然具有更強的穩定性。

此技術作為解決影像分類問題的底層技術,還可以在依賴視覺分類技術的場景落地,例如人、貨、車、物的屬性識別,行為識別等。尤其在需要快速增加新的待識別類別,來不及收集訓練樣本,或難以收集大量樣本的場景(如風險識別),零樣本學習技術相對於傳統方法具有較大優勢。

此研究技術對於目前大模型的發展有無借鏡之處?

研究者認為,生成式零樣本學習的核心思想是對齊語意空間和視覺特徵空間,這與目前多模態大模型中的視覺語言模型(如CLIP)的研究目標是一致的。

它們最大的不同點是,生成式零樣本學習是在預先定義好的有限類別的資料集上訓練和使用,而視覺語言大模型則是透過對大資料的學習獲得具有通用性的語意和視覺表徵能力,不侷限在有限的類別,作為基礎模型,具有更廣泛的應用範圍。

如果技術的應用場景是特定領域,可以選擇將大模型針對此領域進行適配微調,在此過程中,與本文相同或相似研究方向的工作,理論上可以帶來一些有益的啟發。

作者介紹

侯文金,華中科技大學碩士研究生,感興趣的研究方向包括電腦視覺,生成建模,少樣本學習等,他在阿里巴巴- 銀泰商業實習期間完成了本論文工作。

王炎,阿里巴巴 - 銀泰商業技術總監,深象智慧團隊演算法負責人。

馮雪濤,阿里巴巴 - 銀泰商業資深​​演算法專家,主要關注視覺和多模態演算法在線下零售等行業的應用落地。

以上是提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元Apr 07, 2023 pm 02:57 PM

自从ChatGPT掀起浪潮,不少人都在担心AI快要抢人类饭碗了。然鹅,现实可能更残酷QAQ......据就业服务平台Resume Builder调查统计,在1000多家受访美国企业中,用ChatGPT取代部分员工的,比例已达到惊人的48%。在这些企业中,有49%已经启用ChatGPT,还有30%正在赶来的路上。就连央视财经也为此专门发过一个报道:相关话题还曾一度冲上了知乎热榜,众网友表示,不得不承认,现在ChatGPT等AIGC工具已势不可挡——浪潮既来,不进则退。有程序员还指出:用过Copil

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器