搜索
首页科技周边人工智能研究表明:基于相似性加权交错学习可有效应对深度学习中的“失忆症”问题

​与人类不同,人工神经网络在学习新事物时会迅速遗忘先前学到的信息,必须通过新旧信息的交错来重新训练;但是,交错全部旧信息非常耗时,并且可能没有必要。只交错与新信息有实质相似性的旧信息可能就足够了。

近日,美国科学院院报(PNAS)刊登了一篇论文,“Learning in deep neural networks and brains with similarity-weighted interleaved learning”,由加拿大皇家学会会士、知名神经科学家 Bruce McNaughton 的团队发表。他们的工作发现,通过将旧信息与新信息进行相似性加权交错训练,深度网络可以快速学习新事物,不仅降低了遗忘率,而且使用的数据量大幅减少。

论文作者还作出一个假设:通过跟踪最近活跃的神经元和神经动力学吸引子(attractor dynamics)的持续兴奋性轨迹,可以在大脑中实现相似性加权交错。这些发现可能会促进神经科学和机器学习的进一步发展。

研究背景

了解大脑如何终身学习仍然是一项长期挑战。

在人工神经网络(ANN)中,过快地整合新信息会产生灾难性干扰,即先前获得的知识突然丢失。互补学习系统理论 (Complementary Learning Systems Theory,CLST) 表明,通过将新记忆与现有知识交错,新记忆可以逐渐融入新皮质。

CLST指出,大脑依赖于互补的学习系统:海马体 (HC) 用于快速获取新记忆,新皮层 (NC) 用于将新数据逐渐整合到与上下文无关的结构化知识中。在“离线期间”,例如睡眠和安静的清醒休息期间,HC触发回放最近在NC中的经历,而NC自发地检索和交错现有类别的表征。交错回放允许以梯度下降的方式逐步调整NC突触权重,以创建与上下文无关的类别表征,从而优雅地整合新记忆并克服灾难性干扰。许多研究已经成功地使用交错回放实现了神经网络的终身学习。

然而,在实践中应用CLST时,有两个重要问题亟待解决。首先,当大脑无法访问所有旧数据时,如何进行全面的信息交错呢?一种可能的解决方案是“伪排练”,其中随机输入可以引发内部表征的生成式回放,而无需显式访问先前学习的示例。类吸引子动力学可能使大脑完成“伪排练”,但“伪排练”的内容尚未明确。因此,第二个问题是,每进行新的学习活动之后,大脑是否有充足的时间交织所有先前学习的信息。

相似性加权交错学习(Similarity-Weighted Interleaved Learning,SWIL)算法被认为是第二个问题的解决方案,这表明仅交错与新信息具有实质表征相似性的旧信息可能就足够了。实证行为研究表明,高度一致的新信息可以快速整合到NC结构化知识中,几乎没有干扰。这表明整合新信息的速度取决于其与先验知识的一致性。受此行为结果的启发,并通过重新检查先前获得的类别之间的灾难性干扰分布,McClelland等人证明SWIL可以在具有两个上义词类别(例如,“水果”是“苹果”和“香蕉”的上义词)的简单数据集中,每个epoch使用少于2.5倍的数据量学习新信息,实现了与在全部数据上训练网络相同的性能。然而,研究人员在使用更复杂的数据集时并没有发现类似的效果,这引发了对该算法可扩展性的担忧。

实验表明,深度非线性人工神经网络可以通过仅交错与新信息共享大量表征相似性的旧信息子集来学习新信息。通过使用SWIL算法,ANN能够以相似的精度水平和最小的干扰快速学习新信息,同时使用的每个时期呈现的旧信息量少之又少,这意味着数据利用率高且可以快速学习。

同时,SWIL也可应用于序列学习框架。此外,学习一种新类别可以极大地提高数据利用率 。如果旧信息与之前学习过的类别有着非常少的相似性,那么呈现的旧信息数量就会少得多,这很可能是人类学习的实际情况。

最后,作者提出了一个关于SWIL如何在大脑中实现的理论模型,其兴奋性偏差与新信息的重叠成正比。

应用于图像分类数据集的DNN动力学模型

McClelland等人的实验表明,在具有一个隐藏层的深度线性网络中,SWIL可以学习一个新类别,类似于完全交错学习 (Fully Interleaved Learning,FIL),即将整个旧类别与新类别交错,但使用的数据量减少了40%。

然而,网络是在一个非常简单的数据集上训练的,只有两个上义词类别,这就对算法的可扩展性提出了疑问。

首先针对更复杂的数据集(如Fashion-MNIST),探索不同类别的学习在具有一个隐藏层的深度线性神经网络中如何演变。移出了“boot”(“靴子”)和“bag”(“纸袋”)类别后,该模型在剩余的8个类别上的测试准确率达到了87%。然后作者团队重新训练模型,在两种不同的条件下学习(新的)“boot”类,每个条件重复10次:

  • 集中学习(Focused Learning ,FoL),即仅呈现新的“boot”类;
  • 完全交错学习 (FIL),即所有类别(新类别+以前学过的类别)以相等的概率呈现。在这两种情况下,每个epoch总共呈现180张图像,每个epoch中的图像相同。

该网络在总共9000张从未见过的图像上进行了测试,其中测试数据集由每类1000张图像组成,不包括“bag”类别。当网络的性能达到渐近线时,训练停止。

不出所料,FoL对旧类别造成了干扰,而FIL克服了这一点(图1第2列)。如上所述,FoL对旧数据的干扰因类别而异,这是SWIL最初灵感的一部分,并表明新“boot”类别和旧类别之间存在分级相似关系。例如,“sneaker”(“运动鞋”)和“sandals”(“凉鞋”)的召回率比“trouser”(“裤子”)下降得更快(图1第2列),可能是因为整合新的“boot”类会选择性地改变代表“sneaker”和“sandals”类的突触权重,从而造成更多的干扰。

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS

图1:预训练网络在两种情况下学习新“boot”类的性能对比分析:FoL(上)和 FIL(下)。从左到右依次为预测新“boot”类别的召回率(橄榄色)、现有类别的召回率(用不同颜色绘制)、总准确度(高分意味着低误差)和交叉熵损失(总误差的度量)曲线,是保留的测试数据集上与epoch数有关的函数。

计算不同类别之间的相似度

FoL在学习新类别的时候,在相似的旧类别上的分类性能会大幅下降。

之前已经探讨了多类别属性相似度和学习之间的关系,并且表明深度线性网络可以快速获取已知的一致属性。相比之下,在现有类别层次结构中添加新分支的不一致属性,需要缓慢、渐进、交错的学习。

在当前的工作中,作者团队使用已提出的方法在特征级别计算相似度。简言之,计算目标隐藏层(通常是倒数第二层)现有类别和新类别的平均每类激活向量之间的余弦相似度。图2A显示了基于Fashion MNIST数据集的新“boot”类别和旧类别,作者团队根据预训练网络的倒数第二层激活函数计算的相似度矩阵。

类别之间的相似性与我们对物体的视觉感知一致。例如,在层次聚类图(图2B)中,我们可以观察到“boot”类与“sneaker”和“sandal”类之间、以及“shirt”(“衬衫”)和“t-shirt”(“T恤”)类之间具有较高的相似性。相似度矩阵(图2A)与混淆矩阵(图2C)完全对应。相似度越高,越容易混淆,例如,“衬衫”类与“T恤”、“套头衫”和“外套”类图像容易混淆,这表明相似性度量预测了神经网络的学习动态。

在上一节的FoL结果图(图1)中,旧类别的召回率曲线中存在相近的类相似度曲线。与不同的旧类别(“trouser”等)相比,FoL学习新“boot”类的时候会快速遗忘相似的旧类别(“sneaker” 和 “sandal”)。

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS

图2:( A ) 作者团队根据预训练网络的倒数第二层激活函数,计算的现有类别和新“boot”类的相似度矩阵,其中对角线值(同一类别的相似性绘制为白色)被删除。( B ) 对A中的相似矩阵进行层次聚类。( C ) FIL算法在训练学习“boot”类后生成的混淆矩阵。为了缩放清晰,删除了对角线值。

深度线性神经网络实现快速和高效学习新事物

接下来在前两个条件基础上增加了3种新条件,研究了新的分类学习动态,其中每个条件重复10次:

  • FoL(共计n=6000张图像/epoch);
  • FIL(共计n=54000张图像/epoch,6000张图像/类);
  • 部分交错学习 (Partial Interleaved Learning,PIL)使用了很小的图像子集(共计n=350张图像/epoch,大约39张图像/类),每一类别(新类别+现有类别)的图像以相等的概率呈现;
  • SWIL,每个epoch使用与PIL 相同的图像总数进行重新训练,但根据与(新)“boot”类别的相似性对现有类别图像进行加权;
  • 等权交错学习(Equally Weighted Interleaved Learning,EqWIL),使用与SWIL相同数量的“boot”类图像重新训练,但现有类别图像的权重相同(图3A)。

作者团队使用了上述相同的测试数据集(共有n=9000张图像)。当在每种条件下神经网络的性能都达到渐近线时,停止训练。尽管每个epoch使用的训练数据较少,预测新“boot”类的准确率需要更长的时间达到渐近线,与FIL(H=7.27,P

对于SWIL,相似度计算用于确定要交错的现有旧类别图像的比例。在此基础上,作者团队从每个旧类别中随机抽取具有加权概率的输入图像。与其他类别相比,“sneaker”和“sandal”类最相似,从而导致被交错的比例更高(图3A)。

根据树状图(图2B),作者团队将“sneaker”和“sandal”类称为相似的旧类,其余则称为不同的旧类。与PIL(H=5.44,P0.05)的新类别召回率(图3B第1列和表1“New class”列)、总准确率和损失与FIL相当。EqWIL(H=10.99,P

作者团队使用以下两种方法比较SWIL和FIL:

  • 内存比,即FIL和SWIL中存储的图像数量之比,表示存储的数据量减少;
  • 加速比,即在FIL和SWIL中呈现的内容总数的比率,以达到新类别回忆的饱和精度,表明学习新类别所需的时间减少。

SWIL可以在数据需求减少的情况下学习新内容,内存比=154.3x (54000/350),并且速度更快,加速比=77.1x (54000/(350×2))。即使和新内容有关的图像数量较少,该模型也可以通过使用SWIL,利用模型先验知识的层次结构实现相同的性能。SWIL在PIL和EqWIL之间提供了一个中间缓冲区,允许集成一个新类别,并将对现有类别的干扰降到最低。

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS

图3 ( A ) 作者团队在五种不同的学习条件下预训练神经网络学习新的“boot”类(橄榄绿),直到性能平稳:1)FoL(共计n=6000张图像/epoch);2)FIL(共计n=54000张图像/epoch);3) PIL(共计n=350张图像/epoch);4) SWIL(共计n=350张图像/epoch)和 5) EqWIL(共计n=350张图像/epoch)。(B)FoL(黑色)、FIL(蓝色)、PIL(棕色)、SWIL(洋红色)和 EqWIL(金色)预测新类别、相似旧类别(“sneaker”和“sandals”)和不同旧类别的召回率,预测所有类别的总准确率,以及在测试数据集上的交叉熵损失,其中横坐标都是epoch数。

基于CIFAR10使用SWIL在CNN中学习新类别

接下来,为了测试SWIL是否可以在更复杂的环境中工作,作者团队训练了一个具有全连接输出层的6层非线性CNN(图4A),以识别CIFAR10数据集中剩余8个不同类别(“cat”和“car”除外)的图像。他们还对模型进行了重新训练,在之前定义的5种不同训练条件(FoL、FIL、PIL、SWIL和EqWIL)下学习“cat”(“猫”)类。图4C显示了5种情况下每类图像的分布。对于SWIL、PIL和EqWIL条件,每个epoch的总图像数为2400,而对于FIL和FoL,每个epoch的总图像数分别为45000和5000。作者团队针对每种情况对网络分别进行训练,直到性能趋于稳定。

他们在之前未见过的总共9000张图像(1000张图像/类,不包括“car”(“轿车”)类)上对该模型进行了测试。图4B是作者团队基于CIFAR10数据集计算的相似性矩阵。“cat”类和“dog”(“狗”)类更类似,而其他动物类属于同一分支(图4B左)。

根据树状图(图4B),将“truck” (“货车”)、“ship”(“轮船”) 和 “plane”(“飞机”) 类别称为不同的旧类别,除“cat”类外其余的动物类别称为相似的旧类别。对于FoL,模型学习了新的“cat”类,但遗忘了旧类别。与Fashion-MNIST数据集结果类似,“dog”类(与“cat”类相似性最大)和“truck”类(与“cat”类相似性最小)均存在干扰梯度,其中“dog”类的遗忘率最高,而“truck”类遗忘率最低。

如图4D所示,FIL算法学习新的“cat”类时克服了灾难性的干扰。对于PIL算法,模型在每个epoch使用18.75倍的数据量学习新的“cat”类,但“cat”类的召回率比FIL(H=5.72,P0.05;见表2和图4D)。SWIL对新“cat”类的召回率高于PIL(H=7.89,P

FIL、PIL、SWIL和EqWIL这4种算法预测不同旧类别的性能相当(H=0.6,P>0.05)。SWI比PIL更好地融合了新的“cat”类,并有助于克服EqWIL中的观测干扰。与FIL相比,使用SWIL学习新类别速度更快,加速比=31.25x (45000×10/(2400×6)),同时使用更少的数据量 (内存比=18.75x)。这些结果证明,即使在非线性CNN和更真实的数据集上,SWIL也可以有效学习新类别事物。

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS

图4:( A ) 作者团队使用具有全连接输出层的6层非线性CNN学习CIFAR10数据集中的8类事物。( B ) 相似度矩阵 (右)是在呈现新的“cat”类之后,作者团队根据最后一个卷积层的激活函数计算获得。对相似矩阵应用层次聚类(左),在树状图中显示动物(橄榄绿)和交通工具(蓝色)两个上义词类别的分组情况。( C ) 作者团队在5种不同的条件下预训练CNN学习新的“cat”类(橄榄绿),直到性能平稳:1)FoL(共计n=5000张图像/epoch);2)FIL(共计n=45000张图像/epoch);3) PIL(共计n=2400张图像/epoch);4) SWIL(共计n=2400张图像/epoch);5) EqWIL(共计n=2400张图像/epoch)。每个条件重复10次。(D)FoL(黑色)、FIL(蓝色)、PIL(棕色)、SWIL(洋红色)和 EqWIL(金色)预测新类别、相似旧类别(CIFAR10数据集中的其他动物类)和不同旧类别(“plane” 、“ship” 和 “truck”)的召回率,预测所有类别的总准确率,以及在测试数据集上的交叉熵损失,其中横坐标都是epoch数。

新内容与旧类别的一致性对学习时间和所需数据的影响

如果一项新内容可以添加到先前学习过的类别中,而不需要对网络进行较大更改,则称二者具有一致性。基于此框架,与干扰多个现有类别(低一致性)的新类别相比,学习干扰更少现有类别(高一致性)的新类别可以更容易地集成到网络中。

为了测试上述推断,作者团队使用上一节中经过预训练的CNN,在前面描述的所有5种学习条件下,学习了一个新的“car”类别。图5A显示了“car”类别的相似性矩阵,与其他现有类别相比,“car”和“truck”、“ship”和“plane”在同一层次节点下,说明它们更相似。为了进一步确认,作者团队在用于相似性计算的激活层上进行了t-SNE降维可视化分析(图5B)。研究发现“car”类与其他交通工具类(“truck”、“ship”和“plane”)有显著重叠,而“cat”类与其他动物类(“dog”、 “frog”(“青蛙”)、“horse”(“马”)、“bird”(“鸟”)和“deer”(“鹿”))有重叠。

和作者团队预期相符,FoL学习“car”类别时会产生灾难性干扰,对相近的旧类别干扰性更强,而使用FIL克服了这一点(图5D)。对于PIL、SWIL和EqWIL,每个epoch总共有n=2000张图像(图5C)。使用SWIL算法,模型学习新的“car”类别可以达到和FIL(H=0.79,P>0.05)相近的精度,而对现有类别(包括相似和不同类别)的干扰最小。如图5D第2列所示,使用EqWIL,模型学习新“car”类的方式与SWIL相同,但对其他相似类别(例如“truck”)的干扰程度更高(H=53.81,P

与FIL相比,SWIL可以更快地学习新内容,加速比=48.75x(45000×12/(2000×6)),内存需求减少,内存比=22.5x。与“cat”(48.75x vs.31.25x)相比,“car”可以通过交错更少的类(如“truck”、“ship”和“plane”)更快地学习,而“cat”与更多的类别(如“dog” 、“frog” 、“horse” 、“frog” 和“deer”)重叠。这些仿真实验表明,交叉和加速学习新类别所需的旧类别数据量,取决于新信息与先验知识的一致性。

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS

图 5:( A ) 作者团队根据倒数第二层激活函数计算获得相似度矩阵(左),以及呈现新的“car”类别后对相似度矩阵进行层次聚类后的结果图(右)。( B ) 模型分别学习新的“car”类别和“cat”类别,经过最后一个卷积层过激活函数后,作者团队进行t-SNE降维可视化的结果图。( C ) 作者团队在5种不同的条件下预训练CNN学习新的“car”类(橄榄绿),直到性能平稳:1)FoL(共计n=5000张图像/epoch);2)FIL(共计n=45000张图像/epoch);3) PIL(共计n=2000张图像/epoch);4) SWIL(共计n=2000张图像/epoch);5) EqWIL(共计n=2000张图像/epoch)。(D)FoL(黑色)、FIL(蓝色)、PIL(棕色)、SWIL(洋红色)和 EqWIL(金色)预测新类别、相似旧类别(“plane” 、“ship” 和 “truck”)和不同旧类别(CIFAR10数据集中的其他动物类)的召回率,预测所有类别的总准确率,以及在测试数据集上的交叉熵损失,其中横坐标都是epoch数。每张图显示的是重复10次后的平均值,阴影区域为±1 SEM。

利用SWIL进行序列学习

接下来,作者团队测试是否可以使用SWIL学习序列化形式呈现的新内容(序列学习框架)。为此他们采用了图4中经过训练的CNN模型,在FIL和SWIL条件下学习CIFAR10数据集中的“cat”类(任务1),只在CIFAR10的剩余9个类别上训练,然后在每个条件下训练模型学习新的“car”类(任务2)。图6第1列显示了SWIL条件下学习“car”类别时,其他各项类别的图像数量分布情况(共计n=2500张图像/epoch)。需要注意的是,预测“cat”类时也交叉学习新的“car”类。由于在FIL条件下模型性能最佳,SWIL仅与FIL进行了结果比较。

如图6所示,SWIL预测新、旧类别的能力与FIL相当(H=14.3,P>0.05)。模型使用SWIL算法可以更快地学习新的“car”类别,加速比为45x(50000×20/(2500×8)),每个epoch的内存占用比FIL少20倍。模型学习“cat”和“car”类别时,在SWIL条件下每个epoch使用的图像数量(内存比和加速比分别为18.75x 和 20x),少于在FIL条件下每个epoch使用的整个数据集(内存比和加速比分别为31.25x 和45x),并且仍然可以快速学习新类别。扩展这一思想,随着学过的类别数目不断增加,作者团队预期模型的学习时间和数据存储会成倍减少,从而更高效地学习新类别,这或许反映了人类大脑实际学习时的情况。

实验结果表明,SWIL可在序列学习框架中集成多个新类,使神经网络能够在不受干扰的情况下持续学习。

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS

图6:作者团队训练6层CNN学习新的“cat”类(任务1),然后学习“car”类(任务2),直到性能在以下两种情况下趋于稳定:1)FIL:包含所有旧类别(以不同颜色绘制)和以相同概率呈现的新类别(“cat”/“car”)图像;2) SWIL:根据与新类别(“cat”/“car”)的相似性进行加权并按比例使用旧类别示例。同时将任务1中学习的“cat”类包括在内,并根据任务2中学习“car”类的相似性进行加权。第1张子图表示每个epoch使用的图像数量分布情况,其余各子图分别表示FIL(蓝色)和SWIL(洋红色)预测新类别、相似旧类别和不同旧类别的召回率,预测所有类别的总准确率,以及在测试数据集上的交叉熵损失,其中横坐标都是epoch数。

利用SWIL扩大类别间的距离,减少学习时间和数据量

作者团队最后测试了SWIL算法的泛化性,验证其是否可以学习包括更多类别的数据集,以及是否适用于更复杂的网络架构。

他们在CIFAR100数据集(训练集500张图像/类,测试集100张图像/类)上训练了一个复杂的CNN模型-VGG19(共有19层),学习了其中的90个类别。然后对网络进行再训练,学习新类别。图7A显示了基于CIFAR100数据集,作者团队根据倒数第二层的激活函数计算的相似性矩阵。如图7B所示,新“train”(“火车”)类与许多现有的交通工具类别(如“bus” (“公共汽车”)、“streetcar” (“有轨电车”)和“tractor”(“拖拉机”)等)很相似。

与FIL相比,SWIL可以更快地学习新事物(加速比=95.45x (45500×6/(1430×2)))并且使用的数据量 (内存比=31.8x) 显著减少,而性能基本相同(H=8.21, P>0.05) 。如图7C所示,在PIL(H=10.34,P

同时,为了探索不同类别表征之间的较大距离是否构成了加速模型学习的基本条件,作者团队另外训练了两种神经网络模型:

  • 6层CNN(与基于CIFAR10的图4和图5相同);
  • VGG11(11层)学习CIFAR100数据集中的90个类别,仅在FIL和SWIL两个条件下对新的“train”类进行训练。

如图7B所示,对于上述两种网络模型,新的“train”类和交通工具类别之间的重叠度更高,但与VGG19模型相比,各类别的分离度较低。与FIL相比,SWIL学习新事物的速度与层数的增加大致呈线性关系(斜率=0.84)。该结果表明,类别间表征距离的增加可以加速学习并减少内存负载。

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS

图7:( A ) VGG19学习新的“train”类后,作者团队根据倒数第二层激活函数计算的相似性矩阵。“truck” 、“streetcar” 、“bus” 、“house” 和 “tractor”5种类别与“train”的相似性最大。从相似度矩阵中排除对角元素(相似度 =1)。(B,左)作者团队针对6层CNN、VGG11和VGG19网络,经过倒数第二层激活函数后,进行t-SNE降维可视化的结果图。(B,右)纵轴表示加速比(FIL/SWIL),横轴表示3个不同网络的层数相对于6层CNN的比率。黑色虚线、红色虚线和蓝色实线分别代表斜率 =1的标准线、最佳拟合线和仿真结果。( C ) VGG19模型的学习情况:FoL(黑色)、FIL(蓝色)、PIL(棕色)、SWIL(洋红色)和 EqWIL(金色)预测新“train”类、相似旧类别(交通工具类别)和不同旧类别(除了交通工具类别)的召回率,预测所有类别的总准确率,以及在测试数据集上的交叉熵损失,其中横坐标都是epoch数。每张图显示的是重复10次后的平均值,阴影区域为±1 SEM。( D ) 从左到右依次表示模型预测Fashion-MNIST“boot”类(图3)、CIFAR10“cat”类(图4)、CIFAR10“car”类(图5)和CIFAR100“train”类的召回率,是SWIL(洋红色)和FIL(蓝色)使用的图像总数(对数比例)的函数。“N”表示每种学习条件下每个epoch使用的图像总数(包括新、旧类别)。

如果在更多非重叠类上训练网络,并且各表征之间的距离更大,速度是否会进一步提升?

为此,作者团队采用了一个深度线性网络(用于图1-3中的Fashion-MNIST示例),并对其进行训练,以学习由8个Fashion-MNIST类别(不包括“bags”和“boot”类)和10个Digit-MNIST类别形成的组合数据集,然后训练网络学习新的“boot”类别。

和作者团队的预期相符,“boot”与旧类别“sandals”和“sneaker”相似度更高,其次是其余的Fashion-MNIST类(主要包括服饰类图像),最后Digit-MNIST类(主要包括数字类图像)。

基于此,作者团队首先交织了更多相似的旧类别样本,再交织Fashion-MNIST和Digit-MNIST类样本(共计n=350张图像/epoch)。实验结果表明,与FIL类似,SWIL可以快速学习新类别内容而不受干扰,但使用的数据子集要小得多,内存比为325.7x (114000/350) ,加速比为162.85x (228000/1400)。作者团队在当前结果中观察到的加速比为2.1x (162.85/77.1),与Fashion-MNIST数据集相比,类别数目增加了 2.25倍 (18/8)。

本节的实验结果有助于确定SWIL可以适用于更复杂的数据集 (CIFAR100) 和神经网络模型(VGG19),证明了该算法的泛化性。同时证明了扩大类别之间的内部距离或增加非重叠类别的数量,可能会进一步提高学习速度并降低内存负载。

总结

人工神经网络在持续学习方面面临重大挑战,通常表现出灾难性干扰。为了克服此问题,许多研究都使用了完全交错学习(FIL),即新旧内容交叉学习,联合训练网络。FIL需要在每次学新信息时交织所有现有信息,使其成为一个生物学意义上不可信且耗时的过程。最近,有研究表明FIL可能并非必需,仅交错与新内容具有实质表征相似性的旧内容,即采用相似性加权交错学习(SWIL)的方法可以达到相同的学习效果。然而,有人对SWIL的可扩展性表示了担忧。

本文扩展了SWIL算法,并基于不同的数据集(Fashion-MNIST、CIFAR10 和 CIFAR100)和神经网络模型(深度线性网络和CNN)对其进行了测试。在所有条件下,与部分交错学习(PIL)相比,相似性加权交错学习(SWIL)和等权交错学习(EqWIL)在学习新类别方面的表现更好。这和作者团队的预期相符,因为与旧类别相比,SWIL和EqWIL增加了新类别的相对频率。

本文同时还证明,与同等子抽样现有类别(即EqWIL方法)相比,仔细选择和交织相似内容减少了对相近旧类别的灾难性干扰。在预测新类别和现有类别方面,SWIL的性能与FIL类似,却显著加快了学习新内容的速度(图7D),同时大大减少了所需的训练数据。SWIL可以在序列学习框架中学习新类别,进一步证明了其泛化能力。

最后,与许多旧类别具有相似性的新类别相比,如果其与之前学过的类别重叠更少(距离更大),可以缩短集成时间,并且数据效率更高。总体来说,实验结果提供了一种可能的见解,即大脑事实上通过减少不切实际的训练时间,克服了原始CLST模型的一项主要弱点。​

以上是研究表明:基于相似性加权交错学习可有效应对深度学习中的“失忆症”问题的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。