搜索
首页科技周边人工智能近万人围观Hinton最新演讲:前向-前向神经网络训练算法,论文已公开

NeurIPS 2022 会议正在如火如荼地进行之中,各路专家学者围绕着深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域展开交流与探讨。

会上,图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲,以表彰他十年前与其研究生 Alex Krizhevsky 和 Ilya Sutskever 共同撰写的论文《ImageNet Classification with Deep Convolutional Neural Networks》,该论文因对该领域的「巨大影响」而被授予时间检验奖。这项工作发表于 2012 年,是卷积神经网络首次在 ImageNet 图像识别竞赛中表现人类水平的能力,它是启动第三次人工智能浪潮的关键事件。

图片

Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中,Geoffrey Hinton 表示,「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器学习形式将引发计算机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。

他继续说到,「我认为我们将看到一种完全不同的计算机,虽然几年内无法实现。但我们有充分的理由来研究这种完全不同的计算机。」

图片

构建完全不同的新型计算机

迄今为止,所有的数字计算机都被构建为「不朽」(immortal),其中硬件设计非常可靠,以便相同的软件可以在任何地方运行。「我们可以在不同的物理硬件上运行相同的程序,知识是不朽的。」

Hinton 表示,这种设计要求意味着数字计算机已经错过了「硬件的各种可变、随机、不稳定、模拟和不可靠特性」,而这些特性可能对我们非常有用。

在 Hinton 看来,未来的计算机系统将采取不同的方式:它们将是「神经形态的」,并且是普通的(mortal)。这意味着每台计算机都将是神经网络软件与杂乱无章硬件的紧密结合,在具有模拟而非数字元件的意义上,它可以包含不确定性因素并随时间推移而发展。

图片

Hinton 解释到,「现在的替代方案是我们将放弃硬件与软件的分离,但计算机科学家真的不喜欢这种做法。」

所谓的普通计算(mortal computation),就是系统学习到的知识和硬件是密不可分的。这些普通计算机可以「成长」,摆脱造价高昂的芯片制造厂。

Hinton 指出,如果我们这样做了,就可以使用功耗极低的模拟计算,还能使用忆阻器权重来进行万亿次并行处理。这里指的是一种基于非线性电路元件、拥有数十年历史的实验芯片。此外我们还可以在不了解不同位硬件的精确行为的精准质量时发展硬件。

但是,Hinton 也表示,新的普通计算机并不会取代传统的数字计算机,「它不是掌控你的银行账户的计算机,也不会确切知道你有多少钱。」

这种计算机用于放置(即处理)其他东西,比如它可以使用一美元将 GPT-3 之类的东西「放入你的烤面包机中」,这样只需几瓦的功率,就可以与自己的烤面包机对话。

图片

适合普通计算硬件的 FF 网络

在这次演讲中,Hinton 花了大部分时间谈论一种新的神经网络方法,他称之为 Forward-Forward(FF)网络,它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出,通过去除反向传播,前向网络可能更合理地接近现实生活中在大脑中发生的情况。

这篇论文草稿被张贴在多伦多大学的 Hinton 主页上:

图片

论文链接:https://www.cs.toronto.edu/~hinton/FFA13.pdf

Hinton 表示,FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的学习程序,必须要学习利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」

他说,建造新的模拟计算机的一个障碍是,人们对在数百万台设备上运行一个软件的可靠性很重视。「这些手机中的每一部都必须从一个婴儿手机开始取代,而且它必须学习如何成为一部手机,」Hinton 说。「而这是非常痛苦的。」

即使是最擅长相关技术的工程师,也会因为担心不确定性,而迟迟不能放弃完美的、相同的不朽计算机的范式。

Hinton 说:「在对模拟计算感兴趣的人中,仍有极少数人愿意放弃不朽。这是因为对一致性、可预测性的依恋。但如果你希望模拟硬件每次都做同样的事情,你迟早因为这些杂乱的东西遇到真正的问题。」

论文内容

在论文中,Hinton 介绍了一种新的神经网络学习程序,并通过实验证明它在一些小问题上的效果足够好。具体内容如下:

反向传播有什么问题?

过去十年,深度学习的成功确立了在大量参数和大量数据的情况下执行随机梯度下降的有效性。梯度通常是通过反向传播来计算的,这导致人们对大脑是否实现了反向传播或是否有其他方式来获得调整连接权重所需的梯度产生了兴趣。

作为大脑皮层如何学习的模型,反向传播仍然是不可信的,尽管人们做出了相当大的努力来让它像真实的神经元一样实施。目前没有令人信服的证据表明大脑皮层明确地传播误差导数或储存神经活动,以便在随后的反向传播中使用。从一个皮层区域到视觉通路中较早的区域的自上而下的连接并不像预期的那样,即如果在视觉系统中使用反向传播,就会出现自下而上的连接。相反,它们形成了循环,其中神经活动经过两个区域的大约半打皮质层,然后回到它开始的地方。

通过时间的反向传播作为学习序列的一种方式是特别不靠谱的。为了处理感官输入流而不频繁超时,大脑需要通过感官处理的不同阶段对感官数据进行 pipeline 处理,它需要一个能「在飞行中」学习的学习程序。Pipeline 后期阶段的表征可能提供自上而下的信息,在后续的时间步中影响 pipeline 早期阶段的表征,但感知系统需要实时地进行推理和学习,而不需要停止执行反向传播。

反向传播的另一个严重限制是,它需要完全了解在前向传递中进行的计算,以便计算出正确的导数。如果我们在前向传递中插入一个黑匣子,那么就不可能再进行反向传播,除非我们学习了黑匣子的可微分模型。正如我们将看到的,黑匣子根本不会改变 FF 算法的学习程序,因为不需要通过它进行反向传播。

在没有完美的前向传递模型的情况下,或许能求助于许多形式的强化学习之一。这个想法是对权重或神经活动进行随机扰动,并将这些扰动与收益函数的变化联系起来。但强化学习程序存在高变异性:当许多其他变量同时被扰动时,很难看到扰动一个变量的效果。为了平均化所有其他扰动造成的噪音,学习率需要与被扰动的变量数量成反比,这意味着强化学习的规模很差,对于包含数百万或数十亿参数的大型网络,无法与反向传播竞争。

这篇论文的主要观点是,含有未知非线性的神经网络不需要借助于强化学习。FF 算法的速度与反向传播相当,但它的优点是可以在正向计算的精确细节未知时使用。它的优势还在于可以在通过神经网络对顺序数据进行流水作业时进行学习,而不需要储存神经活动或停止传播误差导数。

总体来说,FF 算法比反向传播要慢一些,而且在本文研究的几个 toy problem 上,它的归纳性也不太理想,所以在功率不太受限的应用中,它不太可能取代反向传播。对于在非常大的数据集上训练的非常大的模型,这类探索将继续使用反向传播。FF 算法在两个方面可能优于反向传播,一是作为大脑皮层的学习模型,二是作为使用非常低功率的模拟硬件而不需要借助于强化学习。

FF 算法

Forward-Forward 算法是一种贪婪的多层学习程序,其灵感来自玻尔兹曼机和噪声对比估计。思路是用两个前向传递代替反向传播的前向和后向传递,这两个前向传递又以完全相同的方式彼此运算,但在不同的数据上,目标也相反。其中,positive 传递在真实数据上运算,并调整权重以增加每个隐藏层的优点(goodness);negative 传递在 negative 数据上运算,并调整权重以减少每个隐藏层中的优点。

在论文中,Hinton 通过在 CIFAR-10 上的实验展示了 FF 算法的性能。

CIFAR-10 有 50000 幅训练图像,这些图像为 32 x 32 像素大小,每个像素有三个颜色通道。因此,每幅图像有 3072 个维度。这些图像的背景很复杂,变化很大,在如此有限的训练数据下无法很好地建模。一般来说,有两到三个隐藏层的全连接网络在用反向传播法训练时,除非隐藏层非常小,否则过拟合效果很差,所以几乎所有的报告结果都是卷积网络。

由于 FF 的目的是用于权重共享不可行的网络,所以将它与反向传播网络进行了比较,后者使用局部感受野来限制权重的数量,而不过于限制隐藏单元的数量。其目的只是为了表明,在有大量隐藏单元的情况下,对于包含高度可变背景的图像,FF 的性能与反向传播相当。

表 1 显示了用反向传播和 FF 训练网络的测试性能,这两种方法都使用了权重衰减来减少过拟合。

图片

更多研究细节,可参考原论文。

以上是近万人围观Hinton最新演讲:前向-前向神经网络训练算法,论文已公开的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

您需要查看的3台Openai' s的动手实验 - 分析Vidhya您需要查看的3台Openai' s的动手实验 - 分析VidhyaApr 13, 2025 am 11:06 AM

介绍 您在讲话之前真正思考和理性多久?当前最新的LLM GPT-4O已经在不花很多时间做出回应的情况下提供了令人印象深刻的回应。但是想象一下它是否开始服用

如何访问OpenAi O1? - 分析Vidhya如何访问OpenAi O1? - 分析VidhyaApr 13, 2025 am 11:05 AM

介绍 草莓在市场上!!!我希望这将像其他OpenAI最新车型带来的人工智能的最新进步一样富有成果。 我们一直在等待GPT-5这么长时间

使用llamaindex构建多文件代理抹布使用llamaindex构建多文件代理抹布Apr 13, 2025 am 11:03 AM

介绍 在人工智能快速发展的领域中,处理和理解大量信息的能力变得越来越重要。输入多文件代理抹布 - 一个功能强大的应用

免费学习SQL的YouTube频道 - 分析Vidhya免费学习SQL的YouTube频道 - 分析VidhyaApr 13, 2025 am 10:46 AM

介绍 掌握SQL(结构化查询语言)对于追求数据管理,数据分析和数据库管理的个人至关重要。如果您是从新手开始的,或者是经验丰富的专业人士,请寻求改进,

具有多模式和Azure文档智能的抹布具有多模式和Azure文档智能的抹布Apr 13, 2025 am 10:38 AM

介绍 在基于数据运行的当前世界中,关系AI图(RAG)通过关联数据并绘制关系来对行业产生很大影响。但是,如果一个人可以再进一步多怎么办

在生成AI时代负责的AI在生成AI时代负责的AIApr 13, 2025 am 10:28 AM

介绍 现在,我们生活在人工智能时代,我们周围的一切都在一天变得更加聪明。最先进的大语言模型(LLM)和AI代理,能够执行复杂的任务

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗?GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗?Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具