집 >기술 주변기기 >일체 포함 >사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-05-11 23:28:051293검색

인간은 항상 로봇이 인간의 삶과 업무 처리를 도울 수 있다는 꿈을 꾸어왔습니다. “에어컨 온도 좀 낮춰주세요”, “쇼핑몰 홈페이지 작성 도와주세요”까지 OpenAI가 출시한 홈 어시스턴트와 코파일럿을 통해 최근 몇 년간 현실이 되었습니다.

GPT-4의 출현은 시각적 이해에서 다중 모드 대형 모델의 잠재력을 더욱 보여줍니다. 오픈 소스 중소형 모델의 경우 LLAVA와 minigpt-4가 잘 작동하며 사진을 보고 채팅할 수 있으며 음식 사진에서 레시피를 추측할 수도 있습니다. 그러나 이러한 모델은 실제 구현에서 여전히 중요한 문제에 직면해 있습니다. 정확한 위치 지정 기능이 없고, 그림에서 개체의 특정 위치를 제공할 수 없으며, 특정 개체를 감지하기 위한 복잡한 인간 지시를 이해할 수 없기 때문에 종종 인식할 수 없습니다. 특정 작업을 실행합니다. 실제 시나리오에서 사람들은 복잡한 문제에 직면하게 되는데, 스마트 어시스턴트에게 사진을 찍어 정답을 요구할 수 있다면 이러한 "사진 및 질문" 기능은 정말 멋질 것입니다.

"사진 및 질문" 기능을 실현하려면 로봇이 다양한 능력을 갖추어야 합니다.

1. 언어 이해 능력: 인간의 의도를 듣고 이해할 수 있음

2. 보이는 그림 속의 사물을 이해할 수 있습니다

3. 상식적인 추론 능력: 복잡한 인간의 의도를 위치를 찾을 수 있는 정확한 대상으로 변환할 수 있습니다

4. 그림 현재 소수의 대형 모델(예: Google PaLM-E)만이 객체

에 해당하는 이 네 가지 기능을 갖추고 있습니다. 그러나 홍콩과기대와 홍콩대학교 연구진은 300만 개의 매개변수만 미세 조정하면 모델이 복잡한 추론과 로컬을 쉽게 보유할 수 있는 완전 오픈 소스 모델 DetGPT(전체 이름 탐지GPT)를 제안했습니다. 객체 위치 지정 기능을 갖추고 있으며 대부분의 장면에 대규모로 일반화될 수 있습니다. 이는 모델이 자신의 지식을 바탕으로 추론하여 인간의 추상적인 지시를 이해하고 그림에서 인간이 관심을 갖는 대상을 쉽게 식별할 수 있다는 것을 의미합니다! 그들은 모델을 "사진 및 질문" 데모로 만들었으며 온라인으로 체험해 볼 수 있습니다: https://detgpt.github.io/

DetGPT를 사용하면 사용자가 필요 없이 자연어로 모든 것을 조작할 수 있습니다. 번거로운 명령이나 인터페이스의 경우. 동시에 DetGPT는 지능적인 추론과 표적 탐지 기능도 갖추고 있어 사용자의 요구와 의도를 정확하게 이해할 수 있습니다. 예를 들어, 인간이 “찬 음료를 마시고 싶다”라는 구두 명령을 보내면, 로봇은 현장에서 먼저 차가운 음료를 검색하지만 찾지 못한다. 그래서 '현장에 찬 음료가 없는데 어디서 찾을 수 있지?'라고 생각하기 시작했습니다. 강력한 상식추리모델을 통해 냉장고가 생각나서 현장을 스캔해서 냉장고를 발견하고, 음료수가 있는 위치를 잠그는 데 성공!