Cambridge, NAIST 및 Tencent AI Lab의 연구원은 최근 PandaGPT라는 연구 결과를 발표했습니다. 이는 대규모 언어 모델을 다양한 양식과 정렬하고 결합하여 교차 모달 교육 기능을 달성하는 방법입니다. PandaGPT는 자세한 이미지 설명 생성, 비디오에서 스토리 작성, 오디오에 대한 질문에 답변과 같은 복잡한 작업을 수행할 수 있습니다. 다중 모드 입력을 동시에 수신하고 의미를 자연스럽게 결합할 수 있습니다. T 프로젝트 홈페이지: https://panda-gpt.github.io/
코드: https://github.com/yxuansu/pandagptImageBind의 다중 모드 인코더와 Vicuna의 대규모 언어 모델의 기능 공간을 정렬하기 위해 PandaGPT는 LLaVa와 Mini-GPT4를 결합하여 발표된 데이터에 이어 총 160,000개의 이미지 기반 언어 명령을 훈련 데이터로 사용했습니다. 각 훈련 인스턴스는 이미지와 해당 대화 라운드 세트로 구성됩니다.
ImageBind 자체의 다중 모드 정렬 속성을 파괴하지 않고 훈련 비용을 줄이기 위해 PandaGPT는 다음 모듈만 업데이트했습니다.
ImageBind의 인코딩 결과에 새로운 선형 투영 행렬을 추가하여 ImageBind에 의해 생성된 표현은 변환 후 Vicuna의 입력 시퀀스에 삽입됩니다.
Vicuna의 주의 모듈에 추가 LoRA 가중치를 추가합니다. 두 매개변수의 총합은 비쿠나 매개변수의 약 0.4%를 차지한다. 훈련 기능은 전통적인 언어 모델링 목표입니다. 훈련 과정에서는 모델 출력 중 해당 부분의 가중치만 업데이트되고 사용자 입력 부분은 계산되지 않는다는 점에 유의할 필요가 있습니다. 전체 훈련 과정은 8×A100(40G) GPU에서 완료하는 데 약 7시간이 걸립니다.
현재 버전의 PandaGPT는 훈련을 위해 정렬된 이미지-텍스트 데이터만 사용하지만 ImageBind 인코더의 6가지 모달 이해 기능(이미지/비디오, 텍스트, 오디오, 깊이, 히트 맵 및 IMU) 및 이들 사이의 정렬 속성을 통해 모든 모드 간에 교차 모드 기능을 갖습니다.
오디오:
동영상:
다른 다중 모드 언어 모델과 비교할 때 PandaGPT의 가장 뛰어난 기능은 다양한 양식의 정보를 이해하고 자연스럽게 결합하는 능력입니다.
비디오 + 오디오:
이미지 + 오디오:
저자는 현재 PandaGPT의 많은 문제점도 요약했습니다. 그리고 앞으로의 발전방향. PandaGPT는 여러 양식과 그 조합을 처리할 수 있는 놀라운 능력을 갖추고 있지만 PandaGPT의 성능을 크게 향상시킬 수 있는 방법은 여전히 많습니다.
마지막으로 저자는 PandaGPT가 연구 프로토타입일 뿐이며 아직 생산 환경에 직접 적용할 준비가 되지 않았음을 강조합니다.
위 내용은 Cambridge, Tencent AI Lab 등은 대규모 언어 모델인 PandaGPT를 제안했습니다. 하나의 모델이 6가지 양식을 통합합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!