搜索
首页科技周边人工智能小扎下血本!Meta专为元宇宙搞了个AI模型

​人工智能将成为虚拟世界的支柱。

人工智能在元宇宙中可与多种相关技术结合,如计算机视觉、自然语言处理、区块链和数字双胞胎。 

图片

2月,扎克伯格在该公司的第一个虚拟活动——Inside The Lab中展示了元宇宙的样子。他说,该公司正在开发一系列新的生成式AI模型,用户只需通过描述就可以生成自己的虚拟现实化身。 

扎克伯格宣布了一系列即将推出的项目,例如CAIRaoke项目,一项用于构建设备语音助手的完全端到端的神经模型,可帮助用户更自然地与语音助手进行交流。 同时,Meta正努力构建一个通用语音翻译器,可为所有语言提供直接的语音到语音翻译。 

几个月后,Meta兑现了他们的承诺。 然而,Meta并不是唯一一家在游戏中拥有皮肤的科技公司。英伟达等公司也发布了其自主研发的AI模型以提供更丰富的元宇宙体验。 

图片

开源预训练Transformer(OPT-1750亿参数) 

GAN verse 3D  

GANverse 3D由英伟达AI Research开发,是一种使用深度学习将2D图像处理成3D动画版本的模型,去年的ICLR和CVPR上发表的一篇研究论文中介绍了该工具,它可以用更低的成本更快地生成模拟。 

该模型使用StyleGAN可自动从单个图像生成多个视图。该应用程序可以作为NVIDIA Omniverse的扩展导入,以在虚拟世界中准确地渲染3D对象。 英伟达推出的Omniverse可帮助用户在虚拟环境中创建他们最终想法的模拟。 

3D模型的制作已成为构建元宇宙的关键因素。耐克和Forever21等零售商已经在元宇宙建立了他们的虚拟商店,以推动电子商务销售。

视觉声学匹配模型(AViTAR) 

图片

Meta的现实实验室团队与德克萨斯大学合作,建立了一个人工智能模型,以改善元空间的声音质量。该模型帮助匹配场景中的音频和视频。它对音频片段进行转换,使其听起来像是在特定环境中录制的。该模型在从随机的在线视频中提取数据后使用了自我监督学习。 理想情况下,用户应该能够在他们的AR眼镜上观看他们最喜欢的记忆,并聆听实际体验中产生的确切声音。

Meta AI发布了AViTAR的开源,同时还发布了其他两个声学模型,考虑到声音是metaverse体验中经常被忽视的部分,这是非常罕见的。

视觉影响的减震(VIDA)

Meta AI发布的第二个声学模型被用来去除声学中的混响。

图片

该模型是在一个大规模的数据集上训练出来的,该数据集有各种来自家庭三维模型的真实音频渲染。混响不仅降低了音频的质量,使其难以理解,而且还提高了自动语音识别的准确性。

 图片

VIDA的独特之处在于,它在使用视觉线索的同时也使用音频方式进行观察。在典型的仅有音频的方法的基础上进行改进,VIDA可以增强语音,并识别语音和说话者。

视觉语音(VisualVoice)

Meta AI发布的第三个声学模型VisualVoice可以从视频中提取语音。与VIDA一样,VisualVoice也是根据未标记的视频中的视听线索进行训练。该模型已经自动分离了语音。

 这个模型有重要的应用场景,如为听障人士制作技术,增强可穿戴AR设备的声音,从环境嘈杂的在线视频中转录语音等。

Audio2Face

去年,英伟达发布了Omniverse Audio2Face的开放测试版,以生成人工智能驱动的面部动画,以匹配任何配音。该工具简化了为游戏和视觉效果制作动画的漫长而繁琐的过程。该应用还允许用户以多种语言发出指令。

 图片

今年年初,英伟达发布了该工具的更新,增加了BlendShape Generation等功能,帮助用户从一个中性头像中创建一组blendhapes。此外,还增加了流媒体音频播放器的功能,允许使用文本到语音应用程序的音频数据流。 Audio2Face设置了一个3D人物模型,可以用音轨做动画。然后,音频被送入一个深度神经网络。用户还可以在后期处理中编辑角色,改变角色的表现。​

以上是小扎下血本!Meta专为元宇宙搞了个AI模型的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
AI技能差距正在减慢供应链AI技能差距正在减慢供应链Apr 26, 2025 am 11:13 AM

经常使用“ AI-Ready劳动力”一词,但是在供应链行业中确实意味着什么? 供应链管理协会(ASCM)首席执行官安倍·埃什肯纳齐(Abe Eshkenazi)表示,它表示能够评论家的专业人员

一家公司如何悄悄地努力改变AI一家公司如何悄悄地努力改变AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地获得动力。 本周五在德克萨斯州奥斯汀,Bittensor最终游戏峰会标志着一个关键的时刻,将分散的AI(DEAI)从理论转变为实际应用。 与闪闪发光的广告不同

NVIDIA释放NEMO微服务以简化AI代理开发NVIDIA释放NEMO微服务以简化AI代理开发Apr 26, 2025 am 11:11 AM

企业AI面临数据集成挑战 企业AI的应用面临一项重大挑战:构建能够通过持续学习业务数据来保持准确性和实用性的系统。NeMo微服务通过创建Nvidia所描述的“数据飞轮”来解决这个问题,允许AI系统通过持续接触企业信息和用户互动来保持相关性。 这个新推出的工具包包含五个关键微服务: NeMo Customizer 处理大型语言模型的微调,具有更高的训练吞吐量。 NeMo Evaluator 提供针对自定义基准的AI模型简化评估。 NeMo Guardrails 实施安全控制,以保持合规性和适当的

AI为艺术与设计的未来描绘了一幅新图片AI为艺术与设计的未来描绘了一幅新图片Apr 26, 2025 am 11:10 AM

AI:艺术与设计的未来画卷 人工智能(AI)正以前所未有的方式改变艺术与设计领域,其影响已不仅限于业余爱好者,更深刻地波及专业人士。AI生成的艺术作品和设计方案正在迅速取代传统的素材图片和许多交易性设计活动中的设计师,例如广告、社交媒体图片生成和网页设计。 然而,专业艺术家和设计师也发现AI的实用价值。他们将AI作为辅助工具,探索新的美学可能性,融合不同的风格,创造新颖的视觉效果。AI帮助艺术家和设计师自动化重复性任务,提出不同的设计元素并提供创意输入。 AI支持风格迁移,即将一种图像的风格应用

Zoom如何彻底改变与Agent AI的合作:从会议到里程碑Zoom如何彻底改变与Agent AI的合作:从会议到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其视频会议平台而闻名,它通过创新使用Agentic AI来引领工作场所革命。 最近与Zoom的CTO XD黄的对话揭示了该公司雄心勃勃的愿景。 定义代理AI 黄d

对大学的存在威胁对大学的存在威胁Apr 26, 2025 am 11:08 AM

AI会彻底改变教育吗? 这个问题是促使教育者和利益相关者的认真反思。 AI融入教育既提出了机遇和挑战。 正如科技Edvocate的马修·林奇(Matthew Lynch)所指出的那样

原型:美国科学家正在国外寻找工作原型:美国科学家正在国外寻找工作Apr 26, 2025 am 11:07 AM

美国科学研究和技术发展或将面临挑战,这或许是由于预算削减导致的。据《自然》杂志报道,2025年1月至3月期间,美国科学家申请海外工作的数量比2024年同期增加了32%。此前一项民意调查显示,75%的受访研究人员正在考虑前往欧洲和加拿大寻找工作。 过去几个月,数百项NIH和NSF的拨款被终止,NIH今年的新拨款减少了约23亿美元,下降幅度接近三分之一。泄露的预算提案显示,特朗普政府正在考虑大幅削减科学机构的预算,削减幅度可能高达50%。 基础研究领域的动荡也影响了美国的一大优势:吸引海外人才。35

所有有关打开AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有关打开AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了强大的GPT-4.1系列:一个专为现实世界应用设计的三种高级语言模型家族。 这种巨大的飞跃提供了更快的响应时间,增强的理解和大幅降低了成本

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。