찾다
기술 주변기기일체 포함Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

최근 OpenAI의 영상 생성 모델인 Sora가 인기를 끌면서 생성 AI 모델의 멀티모달 기능이 다시 한번 폭넓은 관심을 끌었습니다.

실제 세계는 본질적으로 다중 모드이며 유기체는 시각, 언어, 소리 및 촉각을 포함한 다양한 채널을 통해 정보를 감지하고 교환합니다. 다중 모드 시스템 개발을 위한 한 가지 유망한 방향은 LLM의 다중 모드 인식 기능을 향상시키는 것입니다. 이는 주로 다중 모드 인코더와 언어 모델의 통합을 포함하여 다양한 양식에 걸쳐 정보를 처리하고 LLM의 텍스트 처리 기능을 활용하여 일관된 응답을 생성할 수 있도록 합니다.

그러나 이 전략은 텍스트 생성에만 적용되며 다중 모드 출력에는 적용되지 않습니다. 일부 선구적인 연구는 언어 모델의 다중 모드 이해 및 생성을 달성하는 데 상당한 진전을 이루었지만 이러한 모델은 이미지 또는 오디오와 같은 단일 비텍스트 형식으로 제한됩니다.

위 문제를 해결하기 위해 푸단대학교 Qiu Xipeng 팀은 Multimodal Art Projection(MAP) 및 Shanghai Artificial Intelligence Laboratory의 연구원과 함께 AnyGPT라는 다중 모드 언어 모델을 제안했습니다. 모드 조합은 다양한 양식의 내용을 이해하고 추론하는 데 사용됩니다. 특히 AnyGPT는 텍스트, 음성, 이미지, 음악 등과 같은 다양한 양식과 얽혀 있는 명령을 이해할 수 있으며 대응할 적절한 다중 모드 조합을 능숙하게 선택할 수 있습니다.

예를 들어 음성 프롬프트가 제공되면 AnyGPT는 음성, 이미지 및 음악 형식으로 포괄적인 응답을 생성할 수 있습니다.

Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

텍스트 + 이미지 형식의 프롬프트가 제공되면 AnyGPT는 다음을 생성할 수 있습니다. 프롬프트 요구 사항에 따른 음악:

Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.


  • 문서 주소: https://arxiv.org/pdf/2402.12226.pdf
  • 프로젝트 홈페이지: https ://junzhan2000 .github.io/ AnyGPT.github.io/
방법 소개

AnyGPT는 개별 표현을 활용하여 음성, 텍스트, 이미지 및 음악을 포함한 다양한 양식을 균일하게 처리합니다.

어떤 양식에서 어떤 양식으로든 생성 작업을 완료하기 위해 본 연구에서는 균일하게 훈련할 수 있는 포괄적인 프레임워크를 제안합니다. 아래 그림 1에 표시된 바와 같이, 프레임 워크는 다음을 포함한 세 가지 주요 구성 요소로 구성됩니다.

그중 토크나이저는 연속적인 비텍스트 형식을 개별 토큰으로 변환한 후 이를 다중 모드 인터리브 시퀀스로 배열합니다. 그런 다음 언어 모델은 다음 토큰 예측 훈련 대상을 사용하여 훈련됩니다. 추론 중에 다중 모드 토큰은 관련 토큰 해제 도구에 의해 원래 표현으로 다시 디코딩됩니다. 생성 품질을 향상시키기 위해 음성 복제 또는 이미지 초해상도와 같은 응용 프로그램을 포함하여 생성된 결과를 사후 처리하기 위해 다중 모드 향상 모듈을 배포할 수 있습니다.

    AnyGPT는 현재 LLM(Large Language Model) 아키텍처나 교육 패러다임을 변경하지 않고도 안정적으로 교육할 수 있습니다. 대신 데이터 수준 전처리에 전적으로 의존하므로 새로운 언어를 추가하는 것과 유사하게 새로운 양식을 LLM에 원활하게 통합할 수 있습니다.
  • 이 연구의 주요 과제는 다중 모드 인터리브 명령 추적 데이터가 부족하다는 것입니다. 다중 모드 정렬 사전 훈련을 완료하기 위해 연구팀은 생성 모델을 사용하여 최초의 대규모 "any-to-any" 다중 모드 명령 데이터 세트인 AnyInstruct-108k를 합성했습니다. 이는 다양한 양식과 복잡하게 얽혀 있는 108k 다중 회전 대화 샘플로 구성되어 모델이 다중 모드 입력 및 출력의 모든 조합을 처리할 수 있도록 합니다.
  • Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

    이러한 데이터는 일반적으로 정확하게 표현하기 위해 많은 수의 비트가 필요하므로 긴 시퀀스가 ​​발생합니다. 이는 시퀀스 길이에 따라 계산 복잡성이 기하급수적으로 증가하기 때문에 언어 모델에 특히 까다롭습니다. 이러한 문제를 해결하기 위해 본 연구에서는 의미 정보 모델링과 지각 정보 모델링을 포함한 2단계 고충실도 생성 프레임워크를 채택했습니다. 첫째, 언어 모델은 의미론적 수준에서 융합되고 정렬된 콘텐츠를 생성하는 작업을 담당합니다. 그런 다음 비자동회귀 모델은 다중 모드 의미 체계 토큰을 지각 수준에서 충실도가 높은 다중 모드 콘텐츠로 변환하여 성능과 효율성 사이의 균형을 유지합니다.

    Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

    Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

    Experiment

    실험 결과에 따르면 AnyGPT는 모든 모드에서 모든 모드 간 대화 작업을 완료하는 동시에 모든 모드에서 전용 모델에 필적하는 성능을 달성하여 Discrete를 입증했습니다. 표현은 언어 모델의 여러 양식을 효과적이고 편리하게 통합할 수 있습니다.

    이 연구에서는 모든 양식에 걸쳐 다중 모드 이해 및 생성 작업을 다루는 사전 훈련된 기본 AnyGPT의 기본 기능을 평가합니다. 이 평가는 사전 훈련 과정에서 다양한 양식 간의 일관성을 테스트하는 것을 목표로 합니다. 특히 각 양식의 텍스트-X 및 X-텍스트 작업을 테스트합니다. 여기서 X는 이미지, 음악 및 음성입니다.

    실제 시나리오를 시뮬레이션하기 위해 모든 평가는 제로 샘플 모드에서 수행됩니다. 이는 AnyGPT가 평가 프로세스 중에 다운스트림 훈련 샘플을 미세 조정하거나 사전 훈련하지 않는다는 것을 의미합니다. 이 까다로운 평가 설정에서는 모델을 알 수 없는 테스트 분포로 일반화해야 합니다.

    평가 결과 AnyGPT는 일반적인 다중 모드 언어 모델로서 다양한 다중 모드 이해 및 생성 작업에서 뛰어난 성능을 달성하는 것으로 나타났습니다.

    Image

    본 연구에서는 이미지 설명 작업에 대한 AnyGPT의 이미지 이해 능력을 평가하였으며, 그 결과는 Table 2와 같다.

    Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

    텍스트-이미지 생성 작업의 결과는 표 3과 같습니다.

    Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.Speech

    이 연구에서는 Wav2vec 2.0 및 Whisper를 사용하여 LibriSpeech 데이터세트의 테스트 하위 집합에서 단어 오류율(WER)을 계산하여 자동 음성 인식(ASR) 작업에 대한 AnyGPT의 성능을 평가합니다. 큰 V2를 기준으로 하고, 평가 결과를 표 5에 나타내었다.

    Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

    Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

    Music

    이 연구는 생성된 음악을 측정하기 위한 객관적인 지표로 CLAP_score 점수를 사용하여 MusicCaps 벤치마크에서 음악 이해 및 생성 작업에 대한 AnyGPT의 성능을 평가했습니다. 텍스트 설명 간의 유사성, 평가 결과는 표 6에 나와 있습니다.

    Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

    관심 있는 독자는 논문 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.

위 내용은 Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!