>  기사  >  기술 주변기기  >  "MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다."

"MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다."

WBOY
WBOY앞으로
2023-04-24 11:16:15862검색

인간에게 그림의 정보를 이해하는 것은 사소한 일에 불과합니다. 아래 사진처럼 휴대폰을 꽂는 충전기가 다소 부적절하네요. 인간은 문제를 한눈에 알 수 있지만 AI는 여전히 매우 어렵다.

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

GPT-4의 등장으로 이러한 문제가 더 쉽게 해결되기 시작했습니다. iPhone을 충전하는 VGA 라인이라는 그림의 문제를 빠르게 지적할 수 있습니다.

사실 GPT-4의 매력은 이보다 훨씬 적습니다. 손으로 그린 ​​스케치를 이용해 직접 웹사이트를 생성하고, 스크래치 종이에 낙서를 하고, 사진을 찍고, 그런 다음 이를 GPT-4로 보내서 웹사이트 코드 작성의 개략도를 따르도록 하세요. 쉿, GPT-4가 웹페이지 코드를 작성했습니다.

하지만 아쉽게도 GPT-4의 기능은 아직 대중에게 공개되지 않아 시작하고 체험하는 것이 불가능합니다. 그러나 일부 사람들은 더 이상 기다릴 수 없으며 King Abdullah University of Science and Technology (KAUST) 팀이 GPT-4와 유사한 제품인 MiniGPT-4를 개발했습니다. 팀 연구원으로는 Zhu Deyao, Chen Jun, Shen Xiaoqian, Li Xiang 및 Mohamed H. Elhoseiny가 있으며 이들은 모두 KAUST Vision-CAIR 연구 그룹 소속입니다.

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

  • 논문 주소: https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
  • 논문 홈페이지: https:// minigpt-4.github.io/
  • 코드 주소: https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4는 GPT-4와 유사한 많은 기능을 보여줍니다. 자세한 이미지 설명을 생성하고 손으로 쓴 초안으로 웹사이트를 만드는 등의 작업을 수행합니다. 또한 저자는 주어진 이미지를 기반으로 이야기와 시를 만들고, 이미지에 표시된 문제에 대한 솔루션을 제공하고, 음식 사진을 기반으로 사용자에게 요리 방법을 가르치는 등 MiniGPT-4의 다른 새로운 기능을 관찰했습니다.

MiniGPT-4 사진만 봐도 이야기가 쉬워요

MiniGPT-4는 얼마나 효과적인가요? 몇 가지 예부터 시작해 보겠습니다. 또한 MiniGPT-4에 대한 더 나은 경험을 위해서는 영어 입력을 사용하여 테스트하는 것이 좋습니다.

먼저 MiniGPT-4의 이미지 설명 능력을 살펴보겠습니다. 왼쪽 사진에 대해 MiniGPT-4의 대답은 대략 "사진은 얼어붙은 호수 위에 자라는 선인장을 묘사한 것입니다. 선인장 주변에는 거대한 얼음 결정이 있고 멀리는 눈 덮인 봉우리가 있습니다... " 그렇다면 이 시나리오가 현실 세계에서 일어날 수 있을까요? MiniGPT-4가 제시한 답변은 이 이미지가 현실 세계에서는 흔하지 않다는 것과 그 이유입니다.

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

다음으로 MiniGPT-4 이미지 질문 및 답변 기능을 살펴보겠습니다. 질문: "이 식물에 무슨 문제가 있나요? 어떻게 해야 하나요?" MiniGPT-4는 문제를 지적했을 뿐만 아니라 잎에 갈색 반점이 있는 것은 곰팡이 감염에 의한 것일 수 있다고 명시하고 치료 단계를 제시했습니다.

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

몇 가지 예를 살펴보면 MiniGPT-4의 사진 보기 및 채팅 기능은 이미 매우 강력합니다. 뿐만 아니라 MiniGPT-4는 스케치로 웹사이트를 만들 수도 있습니다. 예를 들어, MiniGPT-4가 왼쪽의 초안 그림에 따라 웹 페이지를 그리도록 하면 MiniGPT-4는 필요에 따라 해당 HTML 코드와 해당 웹사이트를 제공합니다.

MiniGPT-4를 사용하면 사진에 대한 광고 슬로건 작성이 매우 간단해졌습니다. MiniGPT-4에게 왼쪽 컵에 대한 광고 문구를 작성하도록 요청하세요. MiniGPT-4는 컵에 졸린 고양이 패턴을 정확하게 지적했는데, 이는 커피를 좋아하는 사람이나 고양이를 좋아하는 사람에게 매우 적합합니다. 컵의 재질 등도 지적했습니다:

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

MiniGPT-4 사진으로 레시피를 생성하고 주방 전문가가 될 수도 있습니다:

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

널리 유포된 밈 설명:

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

사진을 바탕으로 시 쓰기:

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

또한 MiniGPT-4 데모가 현재 공개되어 온라인으로 플레이할 수 있다는 점을 언급할 가치가 있습니다. 직접 체험해 볼 수 있습니다(영어로 테스트하는 것이 좋습니다):

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

데모 주소: https:/ /0810e8582bcad31944.gradio.live/

프로젝트가 공개되자 네티즌들의 큰 관심을 끌었습니다. 예를 들어, MiniGPT-4가 사진 속의 물체를 설명하게 해주세요:

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

아래 네티즌들의 더 많은 테스트 경험이 있습니다:

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

방법 소개

작성자 GPT-4의 고급 LLM(대형 언어 모델)이 고급 다중 모드 생성 기능의 주된 이유라고 생각됩니다. 이 현상을 연구하기 위해 저자는 프로젝션 레이어를 사용하여 고정된 시각적 인코더와 고정된 LLM(Vicuna)을 정렬하는 MiniGPT-4를 제안합니다.

MiniGPT-4는 사전 훈련된 ViT 및 Q-Former 시각적 인코더, 별도의 선형 투영 레이어 및 고급 Vicuna 대형 언어 모델로 구성됩니다. MiniGPT-4는 시각적 특징을 Vicuna와 정렬하기 위해 선형 레이어 교육만 필요합니다.

MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다.

MiniGPT-4는 두 단계의 훈련을 거쳤습니다. 첫 번째 기존 사전 훈련 단계에서는 약 5백만 개의 정렬된 이미지-텍스트 쌍을 사용하여 4개의 A100 GPU에서 훈련하는 데 10시간이 걸렸습니다. 첫 번째 단계 이후, 비쿠나는 이미지를 이해할 수 있게 되었습니다. 그러나 Vicuna의 텍스트 생성 능력은 큰 영향을 받았습니다.

이 문제를 해결하고 사용성을 향상시키기 위해 연구원들은 모델 자체와 ChatGPT를 통해 고품질 이미지-텍스트 쌍을 생성하는 새로운 방법을 제안했습니다. 이를 바탕으로 연구에서는 작지만 고품질의 데이터 세트(총 3500쌍)를 만들었습니다.

두 번째 미세 조정 단계에서는 대화 템플릿을 사용하여 이 데이터 세트를 학습하여 생성 안정성과 전반적인 유용성을 크게 향상시킵니다. 이 단계는 계산적으로 효율적이며 완료하는 데 약 7분 안에 A100GPU만 필요합니다.

기타 관련 작업:

  • VisualGPT: https://github.com/Vision-CAIR/VisualGPT
  • ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner

또한 BLIP2, Lavis 및 Vicuna를 포함한 오픈 소스 코드 라이브러리도 프로젝트에 사용됩니다.

위 내용은 "MiniGPT-4는 놀라운 이미지 인식 기능과 다양한 기능(이미지 채팅, 스케치로 웹사이트 구축 등)을 입증합니다."의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제