基于对抗梯度的探索模型及其在点击预估中的应用-人工智能-PHP中文网

首页

科技周边

人工智能

基于对抗梯度的探索模型及其在点击预估中的应用

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 11:34 PM

模型应用

1. 摘要

排序模型在广告、推荐和搜索系统中起到了至关重要的作用。在排序模块中，点击率预估技术又是重中之重。目前工业界的点击率预估技术大多采用深度学习算法，基于数据驱动来训练深度神经网络，然而数据驱动带来的相应问题是推荐系统中的新进项目会存在冷启动问题。

探索与利用（Exploration-Exploitation，E&E）方法通常用于处理大规模在线推荐系统中的数据循环问题。过去的研究通常认为模型预估不确定度高意味着潜在收益也较高，因此大部分研究文献聚焦到对不确定度的估计上。对于采用流式训练的在线推荐系统而言，探索策略会对训练样本的收集产生较大影响，进而影响模型的进一步学习。然而，当前大多数探索策略并不能很好的建模被探索的样本如何对后续模型学习产生影响。因此，我们设计了一个拟探索（Pseudo-Exploration）模块来模拟样本被成功探索并展现后对推荐模型后续学习的影响。

拟探索过程通过在模型输入中添加对抗扰动来实现，我们同时也给出了该过程相应的理论分析以及证明。基于此，我们将该方法命名为基于对抗梯度的探索策略（ A dversarial G radient driven E xploration，以下简称 AGE ）。为了提高探索的效率，我们还提出了一个动态门控单元用来过滤低价值样本，避免将资源浪费在低价值的探索上。为了验证AGE算法的有效性，我们不仅在公开学术数据集上进行了大量的实验，也将AGE模型部署到了阿里妈妈展示广告平台上并取得了良好的线上收益。该工作已被KDD 2022 Research Track收录为Full Paper，欢迎阅读交流。

论文： Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

下载： https://arxiv.org/abs/2112.11136

2. 背景

在广告系统中，点击率（CTR）预估模型通常采用流式方式加以训练，而流式数据的来源又是由部署在线上的CTR模型产出，这就产生了所谓的数据循环问题。冷启动与长尾广告由于没有充分展现，CTR模型缺乏对这部分广告的训练数据，这也导致模型对这部分广告的估计可能存在较大误差，会使得这些广告更加难以展现，进而难以完成冷启动过程。具体而言，图一给出了广告真实点击率与展现数量之间的关系：我们系统中，一个新广告的展现平均需要达到约一万次，其点击率才能达到收敛态。这给许多在线系统带来了一个常见的难题，即如何在保证用户体验的前提下，为这些广告做好冷启动。

基于对抗梯度的探索模型及其在点击预估中的应用

图一：广告CTR和展现次数之间的关系

探索和利用（E&E）算法通常被用来解决上述问题。在推荐或广告系统中，常见的方法（如Contextual Multi-Armed Bandits，上下文多臂老虎机）一般会将该问题按照如下方式加以建模。在每步中，系统会基于策略P选择一个操作（即为用户推荐一个项目_ _）。为了最大化累积奖励（通常使用总点击量来衡量），系统需要权衡当前是偏重探索，还是偏重利用。先前的研究通常认为，高不确定性是潜在回报的衡量指标。一方面，策略P需要优先选择当前效用较大的项目以最大化本轮收益；另一方面，算法也需要选择不确定度较大的操作以实现探索。如果用来表示权衡探索和利用的策略，那么系统对项目最终打分可以用如下公式表示：

不确定性估计已成为许多E&E算法的核心模块。不确定性可能源于数据的可变性、测量噪声和模型不稳定性（例如：参数的随机性），典型的估计方法包括蒙特卡洛MC-Dropout、贝叶斯神经网络、预测不确定性的高斯过程，以及基于梯度范数（模型权重）的不确定性建模等。在此基础上，有两种典型的探索策略：基于UCB的方法通常采用潜在回报的上限作为最终打分[1,2]，而基于汤普森采样的方法是通过从估计的概率分布中抽样来完成 [3]。

3. 方法介绍

我们认为，上述方法并未考虑一个完整的探索闭环。对于数据驱动的在线系统而言，探索的最终收益来自于从探索过程中获取的反馈数据，以及反馈数据对于模型的训练与更新。而模型预估的不确定度本身并不能完全反映整个反馈闭环。为此，我们引入了一个拟探索模块，用于模拟完成探索动作后反馈数据对于模型的影响，并以此来衡量探索的有效性。分析发现，探索的有效性不仅取决于模型的预估不确定度，还取决于“对抗扰动”的大小。所谓对抗扰动，指的是在模型的输入上加入的固定模长的扰动中使得模型输出变化最大的扰动向量。在论文中，我们也证明了，模型利用被探索的数据进行一次训练后，模型输出变化的期望等价于在输入向量中加入模长为不确定度、扰动向量为对抗梯度的增量向量。我们验证了按照这种方式进行建模，可以闭环地估计出被探索样本对模型的后续影响，从而估计出被探索样本的真实价值。

我们将这种方法称为基于对抗梯度的探索（Adversarial Gradient driven Exploration），简称AGE。AGE模型由拟探索模块（Pseudo-Exploration Module）与动态门控阈值单元（Dynamic Gating Unit）两部分组成，其整体结构如图二所示。

基于对抗梯度的探索模型及其在点击预估中的应用

图二：AGE结构图

其中部分的详细介绍详见3.1节，部分的详见3.3节。

3.1 拟探索模块（Pseudo-Exploration Module）

3.1.1 模块简介

拟探索模块的主要目的是定量模拟模型使用探索样本加以训练后，对该样本打分的变化，从而估计探索对于模型的闭环影响。经过推导，我们发现可以通过公式(2)来完成上述过程，其中代表了探索后模型对该样本的打分，我们将其用于最终的排序。

上式表示我们不需要对原有模型参数进行任何操作，只需要在输入的表征中加上对抗梯度，预估不确定度以及手工设定的超参数的乘积，即可完成对探索后模型预估分的模拟。其中参数与的计算方法，我们在下一节中介绍。本节后续我们将介绍拟探索模块中公式(2)的详细推导过程。

3.1.2 详细推导

对于每条数据样本而言，模型的训练将会影响两部分参数：该样本对应的表征（包含商品、用户embedding等）与模型参数。因为模型参数在训练中的目标是适应所有样本而不是单条样本，所以我们可以认为训练单条样本主要会对样本对应的表征产生影响，而模型参数本身只需要微小的调整。因此，在后续研究中，我们将忽略的调整，而仅关注样本对应的表征的变化。假设包含表征的样本真实label为，训练时，我们需要寻找到的更新量，以最小化损失函数。基于此，我们定义：

基于对抗梯度的探索模型及其在点击预估中的应用

其中代表训练中使用的损失函数，而在CTR预估任务中一般使用交叉熵损失函数。同时，我们用来约束表征的最大变化。为了简化书写，后续我们将上述公式右侧写为。

依据拉格朗日中值定理，在的二范数接近0的情况下，我们可以将上述损失函数公式(3)推导为：

基于对抗梯度的探索模型及其在点击预估中的应用

我们观察公式(4)，易发现该损失函数在与两个向量有相反的方向时，获得最小值。在公式(3)中，我们约束对抗扰动。因此，通过求解公式(3)，我们得到：

基于对抗梯度的探索模型及其在点击预估中的应用

实践中，我们用来替代公式(5)中的归一化梯度。通过求导链式法则，可以展开为和两部分。进一步计算，得到：

基于对抗梯度的探索模型及其在点击预估中的应用

在上式中，我们将重新缩放到以保持等式的成立。尽管含义不同，但它们都是手动调节的超参数，故我们可以直接以完成替换。我们进一步简化公式(6)为：

基于对抗梯度的探索模型及其在点击预估中的应用

上式中，归一化梯度表示模型输出相对于输入表征的导数方向。由于真实的用户反馈在探索时无法得到，我们将使用预估不确定度来衡量预测得分与真实用户反馈之间的差值。

公式(7)中，我们找到了在的约束下可以最大化改变模型预测输出的解析解（推导与公式(3)到公式(5)相同）。进一步，我们也发现上述对输入表征添加的过程与对抗扰动（见公式(9)）的形式相同。

基于对抗梯度的探索模型及其在点击预估中的应用

因此，我们利用对抗梯度来的替代公式(7)中的，并将我们的方法命名为基于对抗性梯度的探索算法。

公式(9)表明，AGE最有效的探索方式为给表征输入加入对抗扰动，以扰动后模型的输出结果为排序因子：以对抗梯度为输入表征的扰动向量方向，以及以预测不确定性度的扰动力度。于是，在得到和后，我们可以用下述公式来计算探索后的模型预测分数，该公式即为前述公式(2)。

3.2 实现细节

在AGE中，我们采用MC-Dropout的方法估计不确定度。具体说来，MC-Dropout为深度模型中的每个神经元赋予随机Mask权重，具体做法如下公式(11)所示。该方法的一个好处是，我们可以在不改变模型原始结构的基础上直接获取不确定性。在实际操作中，可以通过UCB的思想计算dropout的方差来表示不确定度，或者参考汤普森随机采样的方式通过计算采样与均值的差异来计算不确定度，也即公式（12）和公式（13）。

基于对抗梯度的探索模型及其在点击预估中的应用

归一化对抗梯度可以根据公式(8)中的快速梯度法（FGM）来计算获得。为了更加精确地计算出对抗梯度，我们还可以进一步利用近端梯度下降（PGD）方法，多步迭代更新梯度，如公式（14）所示。

基于对抗梯度的探索模型及其在点击预估中的应用

3.3 动态门控阈值单元（Dynamic Gating Unit）

在实践中，我们发现并非所有广告都值得探索。在一般的Top-K广告系统中，能够为最终用户展现的广告数量是相对较少。因此，本身点击率低的广告（比如广告本身质量较低），即使模型对这部分广告的预估存在很高的不确定性，但考虑广告系统的业务属性，其探索价值仍然是很低的。虽然我们可以通过探索获得了这些广告的大量数据，使得这些广告被模型充分训练而估计的更加准确；但因为这些广告的本身过低的点击率会使得即使充分探索后，这些广告依然无法自行获取流量，这样的探索无疑是低效的。在本文中，我们尝试了一种简单的启发式方法来提高探索的效率——如果模型对该广告的预估分数高于该广告在所有人群中的平均点击率，我们将进行探索；否则，探索将不会发生。

为了计算广告的平均点击率，我们引入了动态门控阈值单元（DGU）模块。DGU仅使用广告侧特征作为输入来预估广告的平均点击率。当模型的预估点击率低于DGU模块预估的广告平均点击率时，不予探索，反之则进行正常的探索。该过程如下式所示：

基于对抗梯度的探索模型及其在点击预估中的应用

最终，我们将代入公式(10)中，获得如下AGE探索模型最终完整的计算方式。

4. 实验评测

4.1 离线实验

我们对比了三大类基线方法，包括基于随机采样的探索方法，基于深度模型的探索方法，以及基于梯度的探索方法，结果如表1所示。观察可得，基于汤普森采样（TS）方法构建的基线模型均优于基于UCB的模型，证明TS是一种更好的衡量模型不确定度的算法。此外，我们可以观察到AGE算法优于所有的基线方法，这也证明了AGE方法的有效性。具体而言，AGE-TS和AGE-UCB的表现均优于最好基线UR-gradient-TS和UR-gradient-UCB [4]，提升数值分别为5.41%和15.3%。而AGE-TS方法相比于不进行探索的基准方法提高了整整28.0%的点击量。值得注意的是，基于AGE的UCB和TS算法AGE-UCB和AGE-TS取得了相似的效果，基于gradient的UCB和TS算法并非如此，这也证明了AGE可以弥补UCB方法的不稳定性。

基于对抗梯度的探索模型及其在点击预估中的应用

表1：离线实验结果

我们也进行了大量的消融实验来证明了各个模块的有效性。如表2所示，阈值单元、对抗梯度、不确定度单元，三者均不可或缺。为了进一步确定DGU的效果，我们尝试了不同的固定阈值参数，最后也发现其效果也不及DGU的动态阈值。

基于对抗梯度的探索模型及其在点击预估中的应用

表2：消融实验结果

4.2 在线实验

我们也将AGE模型部署到阿里妈妈展示广告系统中，为了准确评估模型的探索价值，我们设计了基于公平桶的评测方法。如图三所示，我们首先设置桶C和桶D用于收集数据。在桶D中，我们部署AGE等探索算法，而在桶C中，我们采用不做探索的常规CTR模型。经过一段时间之后，我们将桶C和桶D获取的反馈数据分别应用于公平桶A和B上部署模型的训练。最终，我们将比较公平桶A和B上的模型效果。在线实验中，我们使用几个标准指标进行评估，包括点击率CTR、被探索广告的展现数量PV和预测CTR与真实CTR之比PCOC。此外，我们还引入了一个用于衡量广告主的满意度的业务指标（AFR）。

基于对抗梯度的探索模型及其在点击预估中的应用

图三：公平桶实验方案

如表3所示，上述指标都得到了有效的提升。其中，AGE明显优于所有其他方法：CTR和PV分别比基线模型高6.4%和3.0%。同时AGE模型的使用还提升了模型的预测精度，即预估准度PCOC更接近1。更重要的是，AFR指标也有5.5%的提升，这表明我们的探索方法可以有效提升广告主的体验。

基于对抗梯度的探索模型及其在点击预估中的应用

表3：在线实验结果

5. 总结

与大多数专注于估计潜在回报的探索&利用方法不同，我们的方法AGE从在线学习的数据驱动的角度重新构建了这一问题。除了可以估计当前模型预测的不确定度外，AGE算法借助拟探索模块，更进一步地考虑探索样本对模型训练的后续影响。我们在学术研究数据集和生产链路上都进行了A/B测试实验，相关结果均证实了AGE方法的有效性。今后我们会将AGE部署于更多的应用场景中。

以上是基于对抗梯度的探索模型及其在点击预估中的应用的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

从VAE到扩散模型：一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后，OpenAI在今年春天带了续作DALL·E 2，以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来，随着生成对抗网络（GAN）、变分自编码器（VAE）、扩散模型（Diffusion models）的出现，深度学习已向世人展现其强大的图像生成能力；加上GPT-3、BERT等NLP模型的成功，人类正逐步打破文本和图像的信息界限。在DALL·E 2中，只需输入简单的文本（prompt），它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recognition, ASR），语音合成（Text-to-speech, TTS）和语音转换（Voice Conversation，VC）等语音下游任务的性能。然而这些模型都没有公开的中文版本，不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦：如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求，针对大模型昂贵的环境和训练成本，陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势；而后者可以在保证下游任务准确度的同时实现更快的处理速度，具有更小的模型结构。陈丹琦普

解锁CNN和Transformer正确结合方法，字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计，大多数现有的视觉 Transformer（ViT）在现实的工业部署场景中不能像卷积神经网络（CNN）那样高效地执行。这就带来了一个问题：视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大？近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题，但这些工作的整体性能远不能令人满意。基于此，来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看，

Stable Diffusion XL 现已推出—有什么新功能，你知道吗？Apr 07, 2023 pm 11:21 PM

3月27号，Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布，Stable Diffusion XL 现已可用于公开测试。以下是一些事项：“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告，名称将会更改。与先前版本相比，图像质量有所提高与先前版本相比，图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍！十二家机构联合发表88页长文：「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业，如果没有高性能计算设备，别说开发基础模型，就连微调模型都做不到。但如果只靠拼硬件，单靠当前计算性能的发展速度，迟早有一天无法满足日益膨胀的需求，所以还需要配套的软件来协调统筹计算能力，这时候就需要用到「智能计算」技术。最近，来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文，首次对智能计算领域进行了全面的调研，涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接：https://spj.scien

什么是Transformer机器学习模型？Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟近年来， Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来，Transformer 架构不断发展并扩展到多种不同的变体，从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你，为啥巴西最可能在今年夺冠！曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红，一定非「章鱼保罗」莫属！这只位于德国海洋生物中心的神奇章鱼，不仅成功预测了德国队全部七场比赛的结果，还顺利地选出了最终的总冠军西班牙队。不幸的是，保罗已经永远地离开了我们，但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所（The Alan Turing Institute），随着2022年卡塔尔世界杯的持续进行，三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles