复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持-人工智能-PHP中文网

首页

科技周边

人工智能

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 05, 2024 am 09:19 AM

模型训练排列

最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。

现实世界本质上是多模态的，生物体通过不同的渠道感知和交换信息，包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力，主要涉及多模态编码器与语言模型的集成，从而使其能够跨各种模态处理信息，并利用 LLM 的文本处理能力来产生连贯的响应。

然而，这一策略仅仅适用于文本生成，并不涵盖多模态输出。一些开拓性的研究在语言模型中实现了多模态理解和生成，取得了重大进展，但这些模型仅限于单一的非文本模态，比如图像或音频。

为了解决上述问题，复旦大学邱锡鹏团队联合 Multimodal Art Projection（MAP）、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型，该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说，AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令，并能熟练地选择合适的多模态组合进行响应。

例如给出一段语音 prompt，AnyGPT 能够生成语音、图像、音乐形式的综合响应：

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

给出文本 + 图像形式的 prompt，AnyGPT 能够按照 prompt 要求生成音乐：

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

论文地址：https://arxiv.org/pdf/2402.12226.pdf
项目主页：https://junzhan2000.github.io/AnyGPT.github.io/

方法简介

AnyGPT 利用离散表征来统一处理各种模态，包括语音、文本、图像和音乐。

为了完成任意模态到任意模态的生成任务，该研究提出了一个可以统一训练的综合框架。如下图 1 所示，该框架由三个主要组件组成，包括：

多模态 tokenizer
作为主干网络的多模态语言模型
多模态 de-tokenizer

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

其中，tokenizer 将连续的非文本模态转换为离散的 token，随后将其排列成多模态交错序列。然后，语言模型使用下一个 token 预测训练目标进行训练。在推理过程中，多模态 token 被相关的 de-tokenizer 解码回其原始表征。为了丰富生成的质量，可以部署多模态增强模块来对生成的结果进行后处理，包括语音克隆或图像超分辨率等应用。

AnyGPT 可以稳定地训练，无需对当前的大型语言模型（LLM）架构或训练范式进行任何改变。相反，它完全依赖于数据级预处理，使得新模态无缝集成到 LLM 中，类似于添加新语言。

这项研究的一个关键挑战是缺乏多模态交错指令跟踪数据。为了完成多模态对齐预训练，研究团队利用生成模型合成了第一个大规模「任意对任意」多模态指令数据集 ——AnyInstruct-108k。它由 108k 多轮对话样本组成，这些对话错综复杂地交织着各种模态，从而使模型能够处理多模态输入和输出的任意组合。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

这些数据通常需要大量比特才能准确表征，从而导致序列较长，这对语言模型的要求特别高，因为计算复杂度随着序列长度呈指数级增加。为了解决这个问题，该研究采用了两阶段的高保真生成框架，包括语义信息建模和感知信息建模。首先，语言模型的任务是生成在语义层面经过融合和对齐的内容。然后，非自回归模型在感知层面将多模态语义 token 转换为高保真多模态内容，在性能和效率之间取得平衡。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

实验

实验结果表明，AnyGPT 能够完成任意模态对任意模态的对话任务，同时在所有模态中实现与专用模型相当的性能，证明离散表征可以有效且方便地统一语言模型中的多种模态。

该研究评估了预训练基础 AnyGPT 的基本功能，涵盖所有模态的多模态理解和生成任务。该评估旨在测试预训练过程中不同模态之间的一致性，具体来说是测试了每种模态的 text-to-X 和 X-to-text 任务，其中 X 分别是图像、音乐和语音。

为了模拟真实场景，所有评估均以零样本模式进行。这意味着 AnyGPT 在评估过程中不会对下游训练样本进行微调或预训练。这种具有挑战性的评估设置要求模型泛化到未知的测试分布。

评估结果表明，AnyGPT 作为一种通用的多模态语言模型，在各种多模态理解和生成任务上取得了令人称赞的性能。

图像

该研究评估了 AnyGPT 在图像描述任务上的图像理解能力，结果如表 2 所示。

文本到图像生成任务的结果如表 3 所示。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持语音

该研究通过计算 LibriSpeech 数据集的测试子集上的词错误率 (WER) 来评估 AnyGPT 在自动语音识别 (ASR) 任务上的性能，并使用 Wav2vec 2.0 和 Whisper Large V2 作为基线，评估结果如表 5 所示。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

音乐

该研究在 MusicCaps 基准上评估了 AnyGPT 在音乐理解和生成任务方面的表现，采用 CLAP_score 分数作为客观指标，衡量生成的音乐和文本描述之间的相似度，评估结果如表 6 所示。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

感兴趣的读者可以阅读论文原文，了解更多研究内容。

以上是复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

从VAE到扩散模型：一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后，OpenAI在今年春天带了续作DALL·E 2，以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来，随着生成对抗网络（GAN）、变分自编码器（VAE）、扩散模型（Diffusion models）的出现，深度学习已向世人展现其强大的图像生成能力；加上GPT-3、BERT等NLP模型的成功，人类正逐步打破文本和图像的信息界限。在DALL·E 2中，只需输入简单的文本（prompt），它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recognition, ASR），语音合成（Text-to-speech, TTS）和语音转换（Voice Conversation，VC）等语音下游任务的性能。然而这些模型都没有公开的中文版本，不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦：如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求，针对大模型昂贵的环境和训练成本，陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势；而后者可以在保证下游任务准确度的同时实现更快的处理速度，具有更小的模型结构。陈丹琦普

解锁CNN和Transformer正确结合方法，字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计，大多数现有的视觉 Transformer（ViT）在现实的工业部署场景中不能像卷积神经网络（CNN）那样高效地执行。这就带来了一个问题：视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大？近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题，但这些工作的整体性能远不能令人满意。基于此，来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看，

Stable Diffusion XL 现已推出—有什么新功能，你知道吗？Apr 07, 2023 pm 11:21 PM

3月27号，Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布，Stable Diffusion XL 现已可用于公开测试。以下是一些事项：“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告，名称将会更改。与先前版本相比，图像质量有所提高与先前版本相比，图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

什么是Transformer机器学习模型？Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟近年来， Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来，Transformer 架构不断发展并扩展到多种不同的变体，从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍！十二家机构联合发表88页长文：「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业，如果没有高性能计算设备，别说开发基础模型，就连微调模型都做不到。但如果只靠拼硬件，单靠当前计算性能的发展速度，迟早有一天无法满足日益膨胀的需求，所以还需要配套的软件来协调统筹计算能力，这时候就需要用到「智能计算」技术。最近，来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文，首次对智能计算领域进行了全面的调研，涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接：https://spj.scien

AI模型告诉你，为啥巴西最可能在今年夺冠！曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红，一定非「章鱼保罗」莫属！这只位于德国海洋生物中心的神奇章鱼，不仅成功预测了德国队全部七场比赛的结果，还顺利地选出了最终的总冠军西班牙队。不幸的是，保罗已经永远地离开了我们，但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所（The Alan Turing Institute），随着2022年卡塔尔世界杯的持续进行，三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles