Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 05, 2024 am 09:19 AM

모델기차준비

최근 OpenAI의 영상 생성 모델인 Sora가 인기를 끌면서 생성 AI 모델의 멀티모달 기능이 다시 한번 폭넓은 관심을 끌었습니다.

실제 세계는 본질적으로 다중 모드이며 유기체는 시각, 언어, 소리 및 촉각을 포함한 다양한 채널을 통해 정보를 감지하고 교환합니다. 다중 모드 시스템 개발을 위한 한 가지 유망한 방향은 LLM의 다중 모드 인식 기능을 향상시키는 것입니다. 이는 주로 다중 모드 인코더와 언어 모델의 통합을 포함하여 다양한 양식에 걸쳐 정보를 처리하고 LLM의 텍스트 처리 기능을 활용하여 일관된 응답을 생성할 수 있도록 합니다.

그러나 이 전략은 텍스트 생성에만 적용되며 다중 모드 출력에는 적용되지 않습니다. 일부 선구적인 연구는 언어 모델의 다중 모드 이해 및 생성을 달성하는 데 상당한 진전을 이루었지만 이러한 모델은 이미지 또는 오디오와 같은 단일 비텍스트 형식으로 제한됩니다.

위 문제를 해결하기 위해 푸단대학교 Qiu Xipeng 팀은 Multimodal Art Projection(MAP) 및 Shanghai Artificial Intelligence Laboratory의 연구원과 함께 AnyGPT라는 다중 모드 언어 모델을 제안했습니다. 모드 조합은 다양한 양식의 내용을 이해하고 추론하는 데 사용됩니다. 특히 AnyGPT는 텍스트, 음성, 이미지, 음악 등과 같은 다양한 양식과 얽혀 있는 명령을 이해할 수 있으며 대응할 적절한 다중 모드 조합을 능숙하게 선택할 수 있습니다.

예를 들어 음성 프롬프트가 제공되면 AnyGPT는 음성, 이미지 및 음악 형식으로 포괄적인 응답을 생성할 수 있습니다.

Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

텍스트 + 이미지 형식의 프롬프트가 제공되면 AnyGPT는 다음을 생성할 수 있습니다. 프롬프트 요구 사항에 따른 음악:

Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.

문서 주소: https://arxiv.org/pdf/2402.12226.pdf
프로젝트 홈페이지: https ://junzhan2000 .github.io/ AnyGPT.github.io/

방법 소개

AnyGPT는 개별 표현을 활용하여 음성, 텍스트, 이미지 및 음악을 포함한 다양한 양식을 균일하게 처리합니다.

어떤 양식에서 어떤 양식으로든 생성 작업을 완료하기 위해 본 연구에서는 균일하게 훈련할 수 있는 포괄적인 프레임워크를 제안합니다. 아래 그림 1에 표시된 바와 같이, 프레임 워크는 다음을 포함한 세 가지 주요 구성 요소로 구성됩니다.

그중 토크나이저는 연속적인 비텍스트 형식을 개별 토큰으로 변환한 후 이를 다중 모드 인터리브 시퀀스로 배열합니다. 그런 다음 언어 모델은 다음 토큰 예측 훈련 대상을 사용하여 훈련됩니다. 추론 중에 다중 모드 토큰은 관련 토큰 해제 도구에 의해 원래 표현으로 다시 디코딩됩니다. 생성 품질을 향상시키기 위해 음성 복제 또는 이미지 초해상도와 같은 응용 프로그램을 포함하여 생성된 결과를 사후 처리하기 위해 다중 모드 향상 모듈을 배포할 수 있습니다.

이러한 데이터는 일반적으로 정확하게 표현하기 위해 많은 수의 비트가 필요하므로 긴 시퀀스가 발생합니다. 이는 시퀀스 길이에 따라 계산 복잡성이 기하급수적으로 증가하기 때문에 언어 모델에 특히 까다롭습니다. 이러한 문제를 해결하기 위해 본 연구에서는 의미 정보 모델링과 지각 정보 모델링을 포함한 2단계 고충실도 생성 프레임워크를 채택했습니다. 첫째, 언어 모델은 의미론적 수준에서 융합되고 정렬된 콘텐츠를 생성하는 작업을 담당합니다. 그런 다음 비자동회귀 모델은 다중 모드 의미 체계 토큰을 지각 수준에서 충실도가 높은 다중 모드 콘텐츠로 변환하여 성능과 효율성 사이의 균형을 유지합니다.

Experiment

실험 결과에 따르면 AnyGPT는 모든 모드에서 모든 모드 간 대화 작업을 완료하는 동시에 모든 모드에서 전용 모델에 필적하는 성능을 달성하여 Discrete를 입증했습니다. 표현은 언어 모델의 여러 양식을 효과적이고 편리하게 통합할 수 있습니다.

이 연구에서는 모든 양식에 걸쳐 다중 모드 이해 및 생성 작업을 다루는 사전 훈련된 기본 AnyGPT의 기본 기능을 평가합니다. 이 평가는 사전 훈련 과정에서 다양한 양식 간의 일관성을 테스트하는 것을 목표로 합니다. 특히 각 양식의 텍스트-X 및 X-텍스트 작업을 테스트합니다. 여기서 X는 이미지, 음악 및 음성입니다.

실제 시나리오를 시뮬레이션하기 위해 모든 평가는 제로 샘플 모드에서 수행됩니다. 이는 AnyGPT가 평가 프로세스 중에 다운스트림 훈련 샘플을 미세 조정하거나 사전 훈련하지 않는다는 것을 의미합니다. 이 까다로운 평가 설정에서는 모델을 알 수 없는 테스트 분포로 일반화해야 합니다.

평가 결과 AnyGPT는 일반적인 다중 모드 언어 모델로서 다양한 다중 모드 이해 및 생성 작업에서 뛰어난 성능을 달성하는 것으로 나타났습니다.

Image

본 연구에서는 이미지 설명 작업에 대한 AnyGPT의 이미지 이해 능력을 평가하였으며, 그 결과는 Table 2와 같다.

텍스트-이미지 생성 작업의 결과는 표 3과 같습니다.

Speech

이 연구에서는 Wav2vec 2.0 및 Whisper를 사용하여 LibriSpeech 데이터세트의 테스트 하위 집합에서 단어 오류율(WER)을 계산하여 자동 음성 인식(ASR) 작업에 대한 AnyGPT의 성능을 평가합니다. 큰 V2를 기준으로 하고, 평가 결과를 표 5에 나타내었다.

Music

이 연구는 생성된 음악을 측정하기 위한 객관적인 지표로 CLAP_score 점수를 사용하여 MusicCaps 벤치마크에서 음악 이해 및 생성 작업에 대한 AnyGPT의 성능을 평가했습니다. 텍스트 설명 간의 유사성, 평가 결과는 표 6에 나와 있습니다.

관심 있는 독자는 논문 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.

위 내용은 Fudan University 등은 이미지, 음악, 텍스트 및 음성을 포함한 모든 모달 입력 및 출력인 AnyGPT를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Apr 27, 2025 am 09:20 AM

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.