AI早报 | 文本、图像、音视频、3D互相生成是什么体验？-人工智能-PHP中文网

首页

科技周边

人工智能

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 26, 2023 pm 02:29 PM

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

当地时间5月9日，Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind，包括视觉（图像和视频形式）、温度（红外图像）、文本、音频、深度信息、运动读数（由惯性测量单元或IMU产生）。目前，相关源代码已托管至GitHub。

何为横跨6种模态？

ImageBind以视觉为核心，能够在6个模态之间自由理解和转换。Meta展示了一些案例，如听到狗叫画出一只狗，同时给出对应的深度图和文字描述；如输入鸟的图像+海浪的声音，得到鸟在海边的图像。

相比 Midjourney、Stable Diffusion 和 DALL-E 2 这样将文字与图像配对的图像生成器，ImageBind 更像是广撒网，可以连接文本、图像/视频、音频、3D 测量（深度）、温度数据（热）和运动数据（来自 IMU），而且它无需先针对每一种可能性进行训练，直接预测数据之间的联系，类似于人类感知或者想象环境的方式。

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

研究者表示 ImageBind 可以使用大规模视觉语言模型（如 CLIP）进行初始化，从而利用这些模型的丰富图像和文本表示。因此，ImageBind 可以通过很少的训练就适用于不同的模态和任务。

ImageBind 是 Meta 致力于创建多模态 AI 系统的一部分，从而实现从所有相关类型数据中学习。随着模态数量的增加，ImageBind 为研究人员打开了尝试开发全新整体性系统的闸门，例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。此外它还可以提供一种探索记忆的丰富方式，即组合使用文本、视频和图像来搜索图像、视频、音频文件或文本信息。

该模型目前只是一个研究项目，没有直接的消费者和实际应用，但是它展现了生成式 AI 在未来能够生成沉浸式、多感官内容的方式，也表明了 Meta 正在以与 OpenAI、Google 等竞争对手不同的方式，趟出一条属于开源大模型的路。

最终，Meta 认为 ImageBind 这项技术最终会超越目前的六种“感官”，其在博客上说道，“虽然我们在当前的研究中探索了六种模式，但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”

ImageBind的用途

如果说 ChatGPT 可以充当搜索引擎、问答社区，Midjourney 可以被用来当画画工具，那么用 ImageBind 可以做什么？

根据官方发布的 Demo 显示，它可以直接用图片生成音频：

也可以音频生成图片：

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？