搜索
首页科技周边人工智能用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

零样本学习(Zero-Shot Learning)聚焦于对训练过程中没有出现过的类别进行分类,基于语义描述的零样本学习通过预先定义的每个类别的高阶语义信息来实现从可见类(seen class)到未见类(unseen class)的知识迁移。传统零样本学习在测试阶段仅需要对未见类进行识别,而广义零样本学习(GZSL)需要同时识别可见类和未见类,其评测指标是可见类类平均准确率与未见类类平均准确率的调和平均。

一种通用的零样本学习策略是使用可见类样本和语义训练从语义空间到视觉样本空间的条件生成模型,再借助未见类语义生成未见类的伪样本,最后使用可见类样本和未见类伪样本训练分类网络。然而,要学习两个模态(语义模态与视觉模态)间的良好映射关系通常需要大量样本(参照 CLIP),这在传统零样本学习环境下无法实现。因此,使用未见类语义生成的视觉样本分布通常和真实样本分布存在偏差(bias),这意味着以下两点:1. 这种方法获得的未见类准确率有限。2. 在未见类平均每类生成伪样本数量与可见类平均每类样本数量相当的情况下,未见类准确率与可见类准确率存在较大差值,如下表 1 所示。

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

我们发现就算只学习语义到类别中心点的映射,并将未见类语义映射为的单一样本点复制多次再参加分类器训练也能得到接近使用生成模型的效果。这意味着生成模型生成的未见类伪样本特征对分类器来说是较为同质(homogeneity)的。

先前的方法通常通过生成大量未见类伪样本来迎合 GZSL 评测指标(尽管大的采样数量对未见类类间判别没有帮助)。然而这种重采样(re-sampling)的策略在长尾学习(Long-tail Learning)领域被证明会导致分类器在部分特征上过拟合,在这里即是与真实样本偏移的伪未见类特征。这种情况不利于可见类和未见类真实样本的识别。那么,能否舍弃这种重采样策略,转而将生成未见类伪样本的偏移性和同质性(或者可见类与未见类的类别不平衡)作为归纳偏置(inductive bias)植入分类器学习呢?

基于此,我们提出了一个即插即用的分类器模块,只需修改一行代码就能提升生成型零样本学习方法的效果。每个不可见类只需生成 10 个伪样本,就能达到 SOTA 水平。与其他生成型零样本方法相比,新方法在计算复杂度上具有巨大优势。研究成员来自南京理工大学和牛津大学。

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块


  • 论文: https://arxiv.org/abs/2204.11822
  • 代码: https://github.com/cdb342/IJCAI-2022-ZLA

本文以一致化训练与测试目标为指引,推导出广义零样本学习评测指标的变分下界。以此建模的分类器能够避免使用重采用策略,防止分类器在生成的伪样本上过拟合对真实样本的识别造成不利影响。所提方法能够使基于嵌入的分类器在生成型方法框架上有效,减少了分类器对于生成伪样本质量的依赖。

方法

1. 引入参数化先验

我们决定从分类器的损失函数上着手。假设类别空间已经被生成的未见类伪样本所完善,先前的分类器以最大化全局准确率为优化目标:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

其中用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块为全局准确率,用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块表示分类器输出,用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块表示样本分布,用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块为样本 X 对应标签。而 GZSL 的评测指标为:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

其中用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块分别代表可见类和未见类集合。训练目标和测试目标的不一致意味着先前的分类器训练策略没有考虑可见类和未见类的差异。自然而然地,我们试图通过对用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块进行推导来实现训练与测试目标一致的结果。经过推导,我们得到了其下界:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

其中用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块代表可见类 - 未见类先验,其与数据无关,在实验中作为超参数进行调整,用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块代表可见类或未见类内部先验,在实现过程中用可见类样本频率或均匀分布代替。通过最大化用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块的下界,我们得到了最终的优化目标:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

由此,我们的分类建模目标相较先前发生了以下改变:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

通过使用交叉熵(cross-entropy)拟合后验概率用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块,我们得到分类器损失为:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

这与长尾学习中的逻辑调整(Logit Adjustment)类似,因此我们称之为零样本逻辑调整(ZLA)。至此,我们实现了通过引入参数化先验将可见类与未见类的类别不平衡作为归纳偏置植入到分类器训练中,并且在代码实现中只需对原始 logits 加上额外偏置项就能达到以上效果。

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

2. 引入语义先验

到目前为止,零样本迁移的核心,即语义先验(semantic prior)仅在训练生成器与生成伪样本阶段发挥作用,对未见类的识别完全取决于生成的未见类伪样本的质量。显然,如果能够在分类器训练阶段引入语义先验,将会有助于未见类的识别。在零样本学习领域有一类基于嵌入(embedding-based)的方法能够实现这一功能。然而,这一类方法与生成模型学习到的知识是相似的,即语义与视觉间的联系(semantic-visual link),这导致在先前的生成型框架中(参照论文 f-CLSWGAN)直接引入基于嵌入的分类器无法取得比原先更好的效果(除非这种分类器本身就有更好的零样本性能)。通过本文提出的 ZLA 策略,我们能够改变生成的未见类伪样本在分类器训练中扮演的角色。从原先的提供不可见类信息到现在的调整不可见类与可见类间的决策界限(decision boundary),我们得以在分类器训练阶段引入语义先验。具体地,我们采用了原型学习的方法将每个类别的语义映射为视觉原型(即分类器权值),再将调整的后验概率(adjusted posterior)建模为样本与视觉原型间的余弦相似度(cosine similarity),即

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

其中用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块为温度系数。在测试阶段,样本被预测为与其余弦相似度最大的视觉原型对应类别。

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

实验

我们将所提出的分类器与基础 WGAN 结合,在每个未见类生成 10 个样本的情况下达到了媲美 SoTAs 的效果。另外我们将其插入到更加先进的 CE-GZSL 方法中,在不改变其他参数(包括生成样本数量)的情况下提升了初始效果。

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

在消融实验中,我们将基于生成的原型学习器(prototype learner)与纯原型学习器进行了比较。我们发现,最后一个 ReLU 层对于纯原型学习器的成功至关重要,因为将负数置零可以增大类别原型与未见类特征的相似度(未见类特征同样经过 ReLU 激活)。然而将部分数值置零也限制了原型的表达,不利于更进一步的识别性能。借助伪未见类样本来弥补未见类信息不仅能在使用 RuLU 时达到更高性能,更能在没有 ReLU 层的情况下实现进一步的性能超越。

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

在另一项消融研究中,我们将原型学习器与初始分类器进行比较。结果显示当生成大量未见类样本时,原型学习器与初始分类器相比没有优势。而在使用本文提出的 ZLA 技术时,原型学习器显示出其优越性。正如前文所说,这是因为原型学习器和生成模型都在学习语义 - 视觉联系,所以语义信息很难被充分利用。ZLA 使生成的未见类样本能够调整决策边界,而不是仅仅提供未见类信息,从而对原型学习器起到激活作用。

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

以上是用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石Apr 22, 2025 am 11:48 AM

自2008年以来,我一直倡导这辆共享乘车面包车,即后来被称为“ Robotjitney”,后来是“ Vansit”,这是城市运输的未来。 我预见这些车辆是21世纪的下一代过境解决方案Surpas

Sam俱乐部在AI上押注以消除收据检查并增强零售Sam俱乐部在AI上押注以消除收据检查并增强零售Apr 22, 2025 am 11:29 AM

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

Nvidia的AI Omniverse在GTC 2025扩展Nvidia的AI Omniverse在GTC 2025扩展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

下一波《 Genai:与Kirk Borne博士的观点》 -Analytics Vidhya下一波《 Genai:与Kirk Borne博士的观点》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

AI适合跑步者和运动员:我们取得了出色的进步AI适合跑步者和运动员:我们取得了出色的进步Apr 22, 2025 am 11:12 AM

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型Apr 22, 2025 am 11:10 AM

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

新的Google照片更新使任何具有Ultra HDR质量的照片流行新的Google照片更新使任何具有Ultra HDR质量的照片流行Apr 22, 2025 am 11:09 AM

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。