>기술 주변기기 >일체 포함 >Cambridge, Tencent AI Lab 등은 대규모 언어 모델인 PandaGPT를 제안했습니다. 하나의 모델이 6가지 양식을 통합합니다.

Cambridge, Tencent AI Lab 등은 대규모 언어 모델인 PandaGPT를 제안했습니다. 하나의 모델이 6가지 양식을 통합합니다.

WBOY
WBOY앞으로
2023-06-05 12:19:51816검색

Cambridge, NAIST 및 Tencent AI Lab의 연구원은 최근 PandaGPT라는 연구 결과를 발표했습니다. 이는 대규모 언어 모델을 다양한 양식과 정렬하고 결합하여 교차 모달 교육 기능을 달성하는 방법입니다. PandaGPT는 자세한 이미지 설명 생성, 비디오에서 스토리 작성, 오디오에 대한 질문에 답변과 같은 복잡한 작업을 수행할 수 있습니다. 다중 모드 입력을 동시에 수신하고 의미를 자연스럽게 결합할 수 있습니다. T 프로젝트 홈페이지: https://panda-gpt.github.io/

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

코드: https://github.com/yxuansu/pandagpt
  • Paper: http://arxiv.org /abs/2305.16355
  • 온라인 데모 디스플레이: https://huggingface.co/spaces/GMFTBY/PandaGPT
  • In 6가지 능력에 따라 명령을 따르기 위해 모드: 이미지 및 비디오, 텍스트, 오디오, 히트 맵, 깊이 맵 및 IMU 판독값, PandaGPT는 ImageBind의 다중 모드 인코더를 Vicuna 대형 언어 모델(위에 표시된 대로)과 결합합니다.

ImageBind의 다중 모드 인코더와 Vicuna의 대규모 언어 모델의 기능 공간을 정렬하기 위해 PandaGPT는 LLaVa와 Mini-GPT4를 결합하여 발표된 데이터에 이어 총 160,000개의 이미지 기반 언어 명령을 훈련 데이터로 사용했습니다. 각 훈련 인스턴스는 이미지와 해당 대화 라운드 세트로 구성됩니다. 剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

ImageBind 자체의 다중 모드 정렬 속성을 파괴하지 않고 훈련 비용을 줄이기 위해 PandaGPT는 다음 모듈만 업데이트했습니다.

ImageBind의 인코딩 결과에 새로운 선형 투영 행렬을 추가하여 ImageBind에 의해 생성된 표현은 변환 후 Vicuna의 입력 시퀀스에 삽입됩니다.

Vicuna의 주의 모듈에 추가 LoRA 가중치를 추가합니다. 두 매개변수의 총합은 비쿠나 매개변수의 약 0.4%를 차지한다. 훈련 기능은 전통적인 언어 모델링 목표입니다. 훈련 과정에서는 모델 출력 중 해당 부분의 가중치만 업데이트되고 사용자 입력 부분은 계산되지 않는다는 점에 유의할 필요가 있습니다. 전체 훈련 과정은 8×A100(40G) GPU에서 완료하는 데 약 7시간이 걸립니다.

현재 버전의 PandaGPT는 훈련을 위해 정렬된 이미지-텍스트 데이터만 사용하지만 ImageBind 인코더의 6가지 모달 이해 기능(이미지/비디오, 텍스트, 오디오, 깊이, 히트 맵 및 IMU) 및 이들 사이의 정렬 속성을 통해 모든 모드 간에 교차 모드 기능을 갖습니다.
  1. 실험에서 저자는 이미지/동영상 기반 질문 및 답변, 이미지/동영상 기반 창의적 글쓰기, 시각 및 청각 정보 기반 추론 등 다양한 양식을 이해하는 PandaGPT의 능력을 보여주었습니다. 다음은 몇 가지 예입니다. :
  2. 이미지:

오디오:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

동영상:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

다른 다중 모드 언어 모델과 비교할 때 PandaGPT의 가장 뛰어난 기능은 다양한 양식의 정보를 이해하고 자연스럽게 결합하는 능력입니다.

비디오 + 오디오:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态


이미지 + 오디오:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

요약

저자는 현재 PandaGPT의 많은 문제점도 요약했습니다. 그리고 앞으로의 발전방향. PandaGPT는 여러 양식과 그 조합을 처리할 수 있는 놀라운 능력을 갖추고 있지만 PandaGPT의 성능을 크게 향상시킬 수 있는 방법은 여전히 ​​많습니다.

  1. PandaGPT는 오디오 텍스트 양식의 기능을 따르는 모달 이해 및 명령을 위해 ASR 및 TTS 데이터를 사용하는 등 다른 모달 정렬 데이터를 사용하여 이미지 이외의 양식에 대한 이해를 더욱 향상시킬 수 있습니다.
  2. 텍스트 이외의 모드는 임베딩 벡터로만 표현되므로 언어 ​​모델은 텍스트 이외의 모델의 세밀한 정보를 이해할 수 없습니다. 교차 모달 주의 메커니즘과 같은 세분화된 특징 추출에 대한 추가 연구는 성능 향상에 도움이 될 수 있습니다.
  3. PandaGPT는 현재 텍스트 이외의 모달 정보만 입력으로 사용할 수 있도록 허용합니다. 향후 이 모델은 AIGC 전체를 하나의 모델로 통합할 수 있는 잠재력을 갖고 있다. 즉, 하나의 모델이 이미지 및 영상 생성, 음성 합성, 텍스트 생성 등의 작업을 동시에 완료할 수 있다는 것이다.
  4. 다중 모드 입력을 결합하는 능력을 평가하려면 새로운 벤치마크가 필요합니다.
  5. PandaGPT는 환각, 독성 및 고정관념을 포함하여 기존 언어 모델의 몇 가지 일반적인 결함을 나타낼 수도 있습니다.

마지막으로 저자는 PandaGPT가 연구 프로토타입일 뿐이며 아직 생산 환경에 직접 적용할 준비가 되지 않았음을 강조합니다.

위 내용은 Cambridge, Tencent AI Lab 등은 대규모 언어 모델인 PandaGPT를 제안했습니다. 하나의 모델이 6가지 양식을 통합합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제