>기술 주변기기 >일체 포함 >초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

PHPz
PHPz앞으로
2023-10-19 11:13:011417검색

표적 탐지를 위한 GPT-4V? 네티즌 실제 테스트 : 아직 준비되지 않았습니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

검색된 카테고리는 양호하지만 대부분의 경계 상자 위치가 잘못되었습니다.

상관없습니다. 누군가 조치를 취할 것입니다!

이미지 보기 능력에서 GPT-4를 수개월 앞선 Mini GPT-4가 업그레이드되었습니다 - MiniGPT-v2.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

Δ(왼쪽이 GPT-4V로 생성되고 오른쪽이 MiniGPT-v2로 생성됨)

그리고 이는 간단한 명령입니다. [접지] 이 이미지를 자세히 설명하여 결과를 얻으세요.

그뿐만 아니라 다양한 시각적 작업도 쉽게 처리할 수 있습니다.

물체에 동그라미를 치고 프롬프트 단어 앞에 [식별]을 추가하면 모델이 물체의 이름을 직접 식별할 수 있습니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

물론 아무것도 추가하지 않고 그냥 물어보셔도 됩니다~

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

MiniGPT-v2는 MiniGPT-4(사우디아라비아의 KAUST King Abdullah 과학 기술 대학교)의 원래 팀과 5명의 팀원으로 구성되어 있습니다. Meta Joint 개발팀의 연구진입니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

지난번 MiniGPT-4가 나왔을 때 큰 관심을 받았고 한동안 서버가 압도당했습니다. 이제 GitHub 프로젝트가 별 22,000개 이상을 넘었습니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

이번 업그레이드로 일부 네티즌들은 이미 사용하기 시작했습니다~

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

다양한 시각적 작업을 위한 범용 인터페이스

다양한 텍스트 애플리케이션을 위한 범용 인터페이스로 모두가 익숙해졌습니다. 이에 영감을 받아 연구팀은 이미지 설명, 시각적 질문 답변 등 다양한 시각적 작업에 사용할 수 있는 통합 인터페이스를 구축하고자 합니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

"단일 모델 조건에서 다양한 작업을 효율적으로 완료하기 위해 간단한 다중 모드 지침을 사용하는 방법은 무엇입니까?"가 팀에서 해결해야 할 문제가 되었습니다.

간단히 말하면 MiniGPT-v2는 시각적 백본, 선형 레이어 및 대규모 언어 모델의 세 부분으로 구성됩니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

모델은 ViT 시각적 백본을 기반으로 하며 모든 훈련 단계에서 변경되지 않습니다. 4개의 인접한 시각적 출력 토큰이 ViT에서 유도되어 선형 레이어를 통해 LLaMA-2 언어 모델 공간에 투영됩니다.

팀에서는 대형 모델이 각 작업 지침을 쉽게 구별하고 각 작업의 학습 효율성을 향상시킬 수 있도록 훈련 모델에서 다양한 작업에 고유 식별자를 사용할 것을 권장합니다.

교육은 주로 사전 교육 - 다중 작업 교육 - 다중 모드 교육 조정의 세 단계로 나뉩니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

결국 MiniGPT-v2는 수많은 시각적 질문 답변 및 시각적 접지 벤치마크에서 다른 시각적 언어 일반 모델보다 뛰어난 성능을 보였습니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

궁극적으로 이 모델은 대상 객체 설명, 시각적 위치 파악, 이미지 설명, 시각적 질문 답변, 주어진 입력 텍스트에서 이미지 객체 직접 구문 분석 등 다양한 시각적 작업을 완료할 수 있습니다.

초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.

관심 있는 친구는 아래 데모 링크를 클릭하여 체험해 볼 수 있습니다.

https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT -v2

논문 링크: https://arxiv.org/abs/2310.09478

GitHub 링크: https://github.com/Vision-CAIR/MiniGPT-4

위 내용은 초인기 미니 GPT-4의 시각적 능력이 급상승하여 중국 팀이 제작한 GitHub에서 별 20,000개를 기록했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제