Cambridge, Tencent AI Lab 등은 대규모 언어 모델인 PandaGPT를 제안했습니다. 하나의 모델이 6가지 양식을 통합합니다.
Cambridge, NAIST 및 Tencent AI Lab의 연구원은 최근 PandaGPT라는 연구 결과를 발표했습니다. 이는 대규모 언어 모델을 다양한 양식과 정렬하고 결합하여 교차 모달 교육 기능을 달성하는 방법입니다. PandaGPT는 자세한 이미지 설명 생성, 비디오에서 스토리 작성, 오디오에 대한 질문에 답변과 같은 복잡한 작업을 수행할 수 있습니다. 다중 모드 입력을 동시에 수신하고 의미를 자연스럽게 결합할 수 있습니다. T 프로젝트 홈페이지: https://panda-gpt.github.io/
- Paper: http://arxiv.org /abs/2305.16355
- 온라인 데모 디스플레이: https://huggingface.co/spaces/GMFTBY/PandaGPT
- In 6가지 능력에 따라 명령을 따르기 위해 모드: 이미지 및 비디오, 텍스트, 오디오, 히트 맵, 깊이 맵 및 IMU 판독값, PandaGPT는 ImageBind의 다중 모드 인코더를 Vicuna 대형 언어 모델(위에 표시된 대로)과 결합합니다.
ImageBind의 다중 모드 인코더와 Vicuna의 대규모 언어 모델의 기능 공간을 정렬하기 위해 PandaGPT는 LLaVa와 Mini-GPT4를 결합하여 발표된 데이터에 이어 총 160,000개의 이미지 기반 언어 명령을 훈련 데이터로 사용했습니다. 각 훈련 인스턴스는 이미지와 해당 대화 라운드 세트로 구성됩니다.
ImageBind 자체의 다중 모드 정렬 속성을 파괴하지 않고 훈련 비용을 줄이기 위해 PandaGPT는 다음 모듈만 업데이트했습니다.
ImageBind의 인코딩 결과에 새로운 선형 투영 행렬을 추가하여 ImageBind에 의해 생성된 표현은 변환 후 Vicuna의 입력 시퀀스에 삽입됩니다.
Vicuna의 주의 모듈에 추가 LoRA 가중치를 추가합니다. 두 매개변수의 총합은 비쿠나 매개변수의 약 0.4%를 차지한다. 훈련 기능은 전통적인 언어 모델링 목표입니다. 훈련 과정에서는 모델 출력 중 해당 부분의 가중치만 업데이트되고 사용자 입력 부분은 계산되지 않는다는 점에 유의할 필요가 있습니다. 전체 훈련 과정은 8×A100(40G) GPU에서 완료하는 데 약 7시간이 걸립니다.
현재 버전의 PandaGPT는 훈련을 위해 정렬된 이미지-텍스트 데이터만 사용하지만 ImageBind 인코더의 6가지 모달 이해 기능(이미지/비디오, 텍스트, 오디오, 깊이, 히트 맵 및 IMU) 및 이들 사이의 정렬 속성을 통해 모든 모드 간에 교차 모드 기능을 갖습니다.
- 실험에서 저자는 이미지/동영상 기반 질문 및 답변, 이미지/동영상 기반 창의적 글쓰기, 시각 및 청각 정보 기반 추론 등 다양한 양식을 이해하는 PandaGPT의 능력을 보여주었습니다. 다음은 몇 가지 예입니다. :
- 이미지:
오디오:
동영상:
다른 다중 모드 언어 모델과 비교할 때 PandaGPT의 가장 뛰어난 기능은 다양한 양식의 정보를 이해하고 자연스럽게 결합하는 능력입니다.
비디오 + 오디오:
이미지 + 오디오:
요약
저자는 현재 PandaGPT의 많은 문제점도 요약했습니다. 그리고 앞으로의 발전방향. PandaGPT는 여러 양식과 그 조합을 처리할 수 있는 놀라운 능력을 갖추고 있지만 PandaGPT의 성능을 크게 향상시킬 수 있는 방법은 여전히 많습니다.
- PandaGPT는 오디오 텍스트 양식의 기능을 따르는 모달 이해 및 명령을 위해 ASR 및 TTS 데이터를 사용하는 등 다른 모달 정렬 데이터를 사용하여 이미지 이외의 양식에 대한 이해를 더욱 향상시킬 수 있습니다.
- 텍스트 이외의 모드는 임베딩 벡터로만 표현되므로 언어 모델은 텍스트 이외의 모델의 세밀한 정보를 이해할 수 없습니다. 교차 모달 주의 메커니즘과 같은 세분화된 특징 추출에 대한 추가 연구는 성능 향상에 도움이 될 수 있습니다.
- PandaGPT는 현재 텍스트 이외의 모달 정보만 입력으로 사용할 수 있도록 허용합니다. 향후 이 모델은 AIGC 전체를 하나의 모델로 통합할 수 있는 잠재력을 갖고 있다. 즉, 하나의 모델이 이미지 및 영상 생성, 음성 합성, 텍스트 생성 등의 작업을 동시에 완료할 수 있다는 것이다.
- 다중 모드 입력을 결합하는 능력을 평가하려면 새로운 벤치마크가 필요합니다.
- PandaGPT는 환각, 독성 및 고정관념을 포함하여 기존 언어 모델의 몇 가지 일반적인 결함을 나타낼 수도 있습니다.
마지막으로 저자는 PandaGPT가 연구 프로토타입일 뿐이며 아직 생산 환경에 직접 적용할 준비가 되지 않았음을 강조합니다.
위 내용은 Cambridge, Tencent AI Lab 등은 대규모 언어 모델인 PandaGPT를 제안했습니다. 하나의 모델이 6가지 양식을 통합합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

드림위버 CS6
시각적 웹 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.
