人工智能的爆炸正在扭曲我们的时间感。
你能相信Stable Diffusion只有4个月大,而ChatGPT的出现还不到一个月吗?
打个形象的比喻,只要眨一下眼,你就会错过一个全新的行业。
2022年的AI领域,大规模的生成模型像雨后春笋一样地冒出,改变了整个AI界的格局。
而且,这些模型正在迅速走出实验室,在现实中被应用。
比如,LLM技术就启发了两个新兴的领域——决策代理(游戏、机器人等等)和 AI4Science。
李飞飞高徒Jim Fan为我们总结了2022年的十大AI高光时刻。让我们把时间倒转,看看2022年都有哪些令人惊叹的AI突破。
一、文字-图像生成
DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。
它启动了AI的艺术革命,催生了许多新的应用程序、初创公司和思维方式。
但 DALLE-2被保护在OpenAI的围墙后面,并没有开源。
在OpenAI之后,LMU的StabilityAI和runwayml迈出了英勇的一步,基于「潜在扩散」算法训练了他们自己的互联网规模的text2image模型。他们称该模型为「稳定扩散」,并开源了代码和权值(weighs)。
事实证明,Stable Diffusion的开放性,让它给游戏带来了巨变。
现在,许多初创公司和研究实验室都在Stable Diffusion的基础上创建新的应用程序,Stable Diffusion本身也被开源社区不断改进。
最近,Stable Diffusion已经达到了v2.1版本,可以在单个GPU上运行了。
另外,今年还有来自GoogleAI的两个image2text模型。GoogleAI既没有发布模型也没有发布API,但从论文中,我们仍然可以看到不少有趣的见解。
Imagen
https://imagen.research.google
Parti
https://parti.research.google。它是一个没有diffusion的Transformer模型。
二、文字-文字生成
大家都知道,我说的是ChatGPT!
这是历史上唯一一个在5天内就获得了100万用户的应用程序。
ChatGPT也大大启发了我们人类的创造力。
在这个列表中,可以看到所有有用的和有想象力的关于ChatGPT想法:https://github.com/f/awesome-chat
ChatGPT和GPT-3.5都使用了一种叫做RLHF(「从人类反馈中强化学习」)的新技术。
这也就意味着,提示工程或许很快就会消失了。
ChatGPT的流行,已经催生了一波新的创业公司和竞争者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。
这些竞争者提供了如此直观的搜索方式,连谷歌的高管们都开始出汗了!
三、文本- 机器人模型
如何给GPT提供胳膊和腿,让它们能打扫你混乱的厨房?
与NLP不同,机器人模型需要与物理世界互动。
在今年,大的预训练Transformer终于开始解决机器人领域最难的问题了!
VIMA
10月,我和同事创建了一个 「机器人GPT 」——名为VIMA的tranformer。
它可以接收任何混合的文本、图像和视频作为prompt,并输出机器人手臂的控制。
我们的模型被称为VIMA(「VisuoMotor Attention」),已经完全开源了。
现在,单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等,具有了模型容量和数据的强大扩展性。
RT-1
沿着与VIMA类似的路径,来自GoogleAI的研究人员发布了RT-1,这是一种在700项任务和130K的人类演示上训练的机器人transformer。
这些数据是由13个机器人在17个月内收集的,是字面意义上的钢铁部队!
四、文本 - 视频
本质上说,视频就是随着时间的推移捆绑在一起的一系列图像,给我们创造了运动的错觉。
如果我们可以做text2image,那为什么不在里面加上时间轴,来获得额外的乐趣呢?
目前,文本 - 视频领域有3个重大的工作,但没有一个是开源的。
Make-A-Video
首先是Meta AI的Make-A-Video:不需要成对的文本-视频数据,就可以得到文本-视频的生成。
您可以在此处注册试用访问权限:https://makeavevideo.studio
论文链接:https://arxiv.org/abs/2209.14792
Imagen Video
Google AI的Imagen Video:它能使用扩散模型生成高清视频,基于Imagen静态图像生成器。
演示:http://imagen.research.google/video/
论文链接:https://arxiv.org/abs/2210.02303
Phenaki
来自谷歌AI的Phenaki: 从开放领域的文本描述中生成可变长度的视频。
演示:https://phenaki.video
论文链接:https://arxiv.org/abs/2210.02399
五、文本-3D建模
从设计创新产品到在电影和游戏中创造奇妙的视觉效果,3D建模正成为文本-X生成模型的下一片蓝海。
令人惊喜的是,2022年出现了许多卓有前途的3D生成模型。在此,Fan列举了3个模型。
DreamFusion
首先登场的,是Google AI研究团队与UC Berkeley联合开发的DreamFusion。
论文链接:https://arxiv.org/pdf/2209.14988.pdf
该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。
基于NeRF算法,DreamFusion可以通过给定文本生成3D模型。
该模型可以从任何角度查看,在任意照明下可以重新点亮,还可以合成到任何三维环境当中。
Magic3D
第二项成果,是英伟达AI团队的两个项目,名为GET3D和Magic3D。
GET3D论文链接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Magic3D论文链接:https://arxiv.org/pdf/2211.10440.pdf
GET3D仅使用二维图像进行训练,可生成具有高保真纹理和复杂几何细节的三维图形。
该模型允许用户立即将其形体导入3D渲染器和游戏引擎,以便进行后续编辑。
Magic3D与DreamFusion类似,使用文本到图像模型生成2D图像,然后优化为体积NeRF(神经辐射场)数据,将低分辨率生成的粗略模型优化为高分辨率的精细模型。
根据英伟达AI团队,由此产生的Magic3D方法,可以比DreamFusion更快地生成3D目标。
Point-E
继年初推出的DALL-E 2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像生成模型「POINT-E」,它可通过文本直接生成3D模型。
论文链接:https://arxiv.org/pdf/2212.08751.pdf
相比竞争对手们(如谷歌的DreamFusion)需要几个GPU工作数个小时,POINT-E只需单个GPU便可在几分钟内生成3D图像。
根据测试,Prompt输入后POINT-E基本可以秒出3D图像,此外输出图像还支持自定义编辑、保存等功能。
六、会玩《我的世界》的AI
《我的世界》是一款测试AI通用智能的绝佳游戏。首先,它是一款无限开放的沙盒游戏,极度体现玩家的创造力。
其次,该游戏有1.4亿的玩家群体,是英国总人口的两倍。用户基础如此庞大,供AI学习的游戏数据可谓是源源不绝。
那么,AI能否和人类一样尽情挥洒想象力呢?
Jim Fan和同事合作开发了第一个玩《我的世界》的AI「MineDojo」,它可以在自然语言提示下解决许多任务。
论文链接:https://arxiv.org/pdf/2206.08853.pdf
Fan的最终目标是建立一个「具身的ChatGPT」。目前,MineDojo平台已经完全开源。
与此同时,Jeff Clune的团队宣布了一个名为视频预训练(VPT)的模型,该模型可以直接输出键盘和鼠标的动作。
论文链接:https://arxiv.org/pdf/2206.11795.pdf
VPT拥有更广阔的视野,但不受语言条件的限制。在这点上,MineDojo和VPT恰好相辅相成。
七、AI外交官
Meta AI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。
论文链接:https://www.science.org/doi/10.1126/science.ade9097
《外交》是一款七人制经典策略游戏,可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合。该游戏需要广泛的自然语言协商才能与人类合作和竞争。
然而,CICERO的出现表明,人工智能现在已经有说服他人和虚张声势的能力。
目前,DeepMind也宣布开发自己的外交官AI智能体。那么,如果CICERO使用这个AI模型,又会发生什么呢?
八、音频-文本模型
Whisper是OpenAI发布的一个大型开源语音识别模型,在英语语音识别方面有接近人类水平的鲁棒性和准确性。
论文链接:https://arxiv.org/pdf/2212.04356.pdf
Whisper经过了来自网络的680,000小时音频数据的训练。Open AI强调,Whisper的语音识别能力已达到人类水准。
Open AI将Whisper开源,是否是为了解锁更多文本token,用以训练万众瞩目的GPT-4呢?
九、核聚变
DeepMind与瑞士洛桑联邦理工学院(EPFL)联合开发了第一个核聚变相关的深度强化学习系统,可以保持核聚变等离子体在托卡马克内的稳定。
论文链接:https://www.nature.com/articles/s41586-021-04301-9
同样在本月,美国能源部宣布了一项巨大的突破:人类首次实现了核聚变反应的净能量增益!
这是人类首次实现这一里程碑。这一生,我们或许会成为聚变文明!
十、应用于生物学的Transformer
2021年,AlphaFold开启了语言模型预测蛋白质3D结构的序幕。
7月,DeepMind宣布了「蛋白质宇宙」——将AlphaFold的蛋白质数据库扩展到2亿个结构!
此外,英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架,以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。
视频讲解:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
以上便是Jim Fan对2022年十大AI亮点的盘点。当然,Fan也表示,还有无数令人兴奋的作品为人工智能的进步做出了贡献。
每篇论文都是AI大厦里的一砖一瓦,所有的努力都应该庆祝。
不过,Fan在最后也强调,随着人工智能系统变得越来越强大,我们必须意识到潜在的危险和风险,并采取措施减轻它们。
无论是通过仔细的培训设计、适当的监督还是全新的保障方法,人工智能的安全与伦理成为越来越的AI专家所讨论的议程。
毫无疑问,2022年是充满奇迹的一年,也是令人惊叹的一年。未来一年又会有什么震惊世界的突破?我们与你一起关注。
参考资料:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
以上是李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜的详细内容。更多信息请关注PHP中文网其他相关文章!

ChatGPT账户信息变更指南:轻松切换邮箱和手机号! 许多用户都希望更改ChatGPT注册邮箱或手机号,但目前ChatGPT不支持直接修改已注册信息。 解决方法是创建一个新账户。本文将详细指导您如何创建新账户、处理旧账户以及安全删除账户。 我们将涵盖密码修改、新账户创建注意事项等,助您更安全、高效地使用ChatGPT。 OpenAI最新AI代理“OpenAI Deep Research”介绍请点击此处⬇️ 【ChatGPT】OpenAI Deep Research详解:使用方法及收费标准!

深入浅出ChatGPT:揭秘其背后的运作机制 如今,人们已能与AI进行自然流畅的对话,而ChatGPT正是其中的佼佼者。然而,很多人并不了解其背后的运作原理。本文将逐步揭示OpenAI开发的ChatGPT如何生成如此智能的回答,从文本预处理到基于Transformer模型的自注意力机制,为您细致解读ChatGPT的运行机制。 通过学习ChatGPT的运作方式,您可以更深入地理解AI技术,并体会其魅力和潜力。 OpenAI发布的最新AI代理——OpenAI Deep Research,详情请点击

chatgpt:AI聊天机器人图标更改指南 Chatgpt是一个出色的AI,可以进行自然对话,但并不能正式提供更改图标的能力。在本文中,我们将解释如何更改用户和chatgpt的图标。 是否可以更改Chatgpt中的图标? 基本上,您无法更改用户端和chatgpt方面的图标。用户图标的显示因您的注册方式有所不同(Gmail,Microsoft,Apple ID,电子邮件地址)。 OpenAI徽标是Chatgpt侧的默认值。
![[包括示例句子]易于理解的解释如何询问有关chatgpt和提示的问题!](https://img.php.cn/upload/article/001/242/473/174707077087986.jpg?x-oss-process=image/resize,p_40)
掌握问题技术的问题! 提出问题的方式对于有效利用Chatgpt很重要。本文提供了针对与CHATGPT互动的质疑技术的详细说明。 从如何使用问题模板促使工程和要注意的要点,它涵盖了有效使用ChatGPT的所有专业知识。 阅读本文后,您将能够与Chatgpt进行巨大交流。 目录 有效的问题提示 适当的质量

使用chatgpt有效的英语校对:降低时间和成本,并实现高质量的英语句子 在商业和学术领域至关重要的英语校对需要时间,成本和高水平的英语水平。但是,Chatgpt可以帮助您有效地解决这些挑战并获得本地水平的表现力。在本文中,我们将使用Chatgpt,其好处,要注意的点以及人类专家的作用来解释英语校对的具体方法。这对于任何旨在写高质量英语句子的人都有用的实用信息。 Openai的最新AI代理

ChatGPT赋能企业财务分析:高效、精准、省时 准确的财务分析是制定企业经营战略的关键。然而,传统财务数据分析耗时费力,且需要专业知识。 ChatGPT的出现为这一难题提供了有效的解决方案。 本文将详细介绍如何利用ChatGPT高效进行复杂的财务分析。无论是免费版(GPT-3.5)还是付费版ChatGPT Plus(GPT-4),都能胜任财务分析任务,而GPT-4则能显着提升速度和自动化程度,大幅改善财务分析流程。我们将从构建提示词到分析特定指标,结合具体案例进行详细讲解,帮助您提升财务分析的质

Chatgpt加上退订指南:平稳的取消过程和要注意的点 本文将以易于理解的方式解释如何取消Chatgpt Plus。我们还将详细解释如何取消浏览器和应用程序版本,取消时要谨慎,如果您不能取消,该怎么办以及如何删除帐户。 如何取消chatgpt plus 如何取消CHATGPT加PC浏览器版本和应用程序版本(iOS/Android)之间有所不同。 如何在浏览器版本(PC)上取消 登录到chatgpt。 “我的”位于左侧栏

让ChatGPT更有趣!赋予它猫的性格和关西腔!本文将详细介绍如何为ChatGPT设定角色,使其对话更具魅力。 我们将涵盖免费版ChatGPT的准备工作、角色定制功能、实际Prompt示例等实用信息。通过个性化定制与AI的沟通方式,开启全新的互动体验! OpenAI发布的最新AI代理“OpenAI Deep Research”详情请点击下方链接: [ChatGPT]OpenAI Deep Research详解:使用方法及收费标准! 目录 为ChatGPT设定角色的方法 准备工作 角色设定方法 实


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Dreamweaver CS6
视觉化网页开发工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)