搜索
首页科技周边人工智能LeCun领导下的Meta AI,押注自监督

自监督学习真的是通往 AGI 的关键一步?

Meta 的 AI 首席科学家 Yann LeCun 在谈到「此时此刻要采取的具体措施」时,也没有忘记远期的目标。他在一次采访时说:「我们想要构建像动物和人类一样学习的智能机器。」

近几年,Meta 发表了一系列关于 AI 系统自监督学习(SSL)的论文。LeCun 坚定地认为,SSL 是 AI 系统的必要前提,它可以帮助 AI 系统构建世界模型,以获得类似人类的能力,如理性、常识,以及将技能和知识从一个环境迁移到另一个环境的能力。

他们的新论文展示了一种被称为掩蔽自编码器(MAE)的自监督系统如何学会从非常零散、不完整的数据中重建图像、视频甚至音频。虽然 MAE 并不是一个新的想法,但 Meta 已经将这项工作扩展到了新的领域。​

LeCun 说,通过研究如何预测丢失的数据,无论是静态图像还是视频或音频序列,MAE 系统都是在构建一个世界模型。他说:「如果它能预测视频中即将发生的事情,它必须明白世界是三维的,有些物体是无生命的,它们自己不会移动,其他物体是有生命的,很难预测,一直到预测有生命的人的复杂行为。」一旦 AI 系统有了一个精确的世界模型,它就可以使用这个模型来计划行动。

LeCun 说,「智能的本质是学会预测。」虽然他并没有声称 Meta 的 MAE 系统接近于通用人工智能,但他认为这是通往通用人工智能的重要一步。​

但并非所有人都同意 Meta 的研究人员走在通往通用人工智能的正确道路上。Yoshua Bengio 有时会与 LeCun 就 AI 领域的重大想法进行友好的辩论。在给 IEEE Spectrum 的一封电子邮件中,Bengio 阐述了他们在目标上的一些不同和相似之处。

Bengio 写道:「我真的不认为我们目前的方法(无论是不是自监督)足以弥合人工与人类智能水平的差距。」他说,该领域需要取得「质的进步」,才能真正推动技术向人类规模的人工智能靠拢。

对于 LeCun 的「对世界的推理能力是智能的核心要素」这一观点,Bengio 表示赞同,但他的团队并没有把重点放在能够预测的模型上,而是放在了能够以自然语言的形式呈现知识的模型上。他指出,这样的模型将允许我们将这些知识片段结合起来,以解决新问题,进行反事实模拟,或研究可能的未来。Bengio 的团队开发了一种新的神经网络框架,它比致力于端到端学习的 LeCun 所青睐的框架更具模块化的性质。​

大火的 Transformer

Meta 的 MAE 建立在一种名为 Transformer 的神经网络架构基础之上。这种架构最初在自然语言处理领域走红,之后扩展到计算机视觉等多个领域。​

当然,Meta 并不是第一个成功将 Transformer 用到视觉任务中的团队。Meta AI 的研究者 Ross Girshick 介绍说,谷歌在视觉 Transformer(ViT)上的研究启发了 Meta 的团队,「ViT 架构的采用帮助(我们)消除了试验过程中遇到的一些障碍」。

Girshick 是 Meta 第一篇 MAE 系统论文​的作者之一,这篇论文的一作是何恺明,他们论述了一种非常简单的方法:掩蔽输入图像的随机区块并重建丢失的像素。

LeCun领导下的Meta AI,押注自监督

这种模型的训练类似于 BERT 以及其他一些基于 Transformer 的语言模型,研究人员会向它们展示巨大的文本数据库,但有些词是缺失的,或者说被「掩蔽」了。模型需要自己预测出缺失的词,然后被掩蔽的词会被揭开,这样模型就能检查自己的工作并更新自己的参数。这一过程会一直重复下去。Girshick 解释说,为了在视觉上做类似的事情,研究小组将图像分解成 patch,然后掩蔽一些 patch 并要求 MAE 系统预测图像缺失的部分。

该团队的突破之一是意识到,掩蔽大部分图像会获得最好的结果,这与语言 transformer 有着关键区别,后者可能只会掩蔽 15% 的单词。「语言是一种极其密集和高效的交流系统,每个符号都包含很多含义,」Girshick 说,「但是图像——这些来自自然世界的信号——并不是为了消除冗余而构建的。所以我们才能在创建 JPG 图像时很好地压缩内容。」

LeCun领导下的Meta AI,押注自监督

​Meta AI 的研究人员试验需要掩蔽多少图像获得最佳效果。

Girshick 解释说,通过掩蔽图像中超过 75% 的 patch,他们消除了图像中的冗余,否则会使任务变得过于琐碎,不适合训练。他们那个由两部分组成的 MAE 系统首先使用一个编码器,通过训练数据集学习像素之间的关系,然后一个解码器尽最大努力从掩蔽图像中重建原始图像。在此训练方案完成后,编码器还可以进行微调,用于分类和目标检测等视觉任务。

Girshick 说,「最终让我们兴奋的点在于,我们看到了这个模型在下游任务中的结果。」当使用编码器完成目标识别等任务时,「我们看到的收益非常可观。」他指出,继续增大模型可以获得更好的性能,这对未来的模型来说是一个有潜力的方向,因为 SSL「具有使用大量数据而不需要手动注释的潜力」。

全力以赴地学习海量的未经筛选的数据集可能是 Meta 提高 SSL 结果的策略,但也是一个越来越有争议的方法。Timnit Gebru 等人工智能伦理研究人员已经呼吁大家注意大型语言模型学习的未经整理的数据集固有的偏见,这些偏见有时会导致灾难性的结果。

视频和音频的自监督学习

在视频 MAE 系统中,掩蔽物遮蔽了每个视频帧的 95%,因为帧之间的相似性意味着视频信号比静态图像有更多的冗余。Meta 研究人员 Christoph Feichtenhofer 说,就视频而言,MAE 方法的一大优势是视频通常需要大量计算,而 MAE 通过屏蔽每帧高达 95% 的内容,减少了高达 95% 的计算成本。​

这些实验中使用的视频片段只有几秒钟,但 Feichtenhofer 表示,用较长的视频训练人工智能系统是一个非常活跃的研究课题。想象一下,你有一个虚拟助理,他有你家的视频,可以告诉你一个小时之前你把钥匙放在哪里了。

更直接地说,我们可以想象图像和视频系统对 Facebook 和 Instagram 上的内容审核所需的分类任务都很有用,Feichtenhofer 说,「integrity」是一种可能的应用,「我们正在与产品团队沟通,但这是非常新的,我们还没有任何具体的项目。」

对于音频 MAE 工作,Meta AI 的团队表示他们将很快将研究成果发布在 arXiv 上。他们发现了一个巧妙的方法来应用掩蔽技术。他们将声音文件转化为声谱图,即信号中频率频谱的视觉表征,然后将部分图像掩蔽起来进行训练。重建的音频令人印象深刻,尽管该模型目前只能处理几秒钟的片段。​

该音频系统的研究人员 Bernie Huang 说,这项研究的潜在应用包括分类任务,通过填充数据包被 drop 时丢失的音频来辅助基于 IP 的语音传输(VoIP),或者找到更有效的压缩音频文件的方法。

Meta 一直在进行开源 AI 方面的研究,如这些 MAE 模型,还为人工智能社区提供了一个预训练的大型语言模型​。但批评人士指出,尽管在研究方面如此开放,但 Meta 还没有把它的核心商业算法开放出来供大家研究,即那些控制新闻推送、推荐和广告植入的算法。​

以上是LeCun领导下的Meta AI,押注自监督的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境