타겟 감지 분야가 새로운 발전을 이루었습니다. -
IDEA 연구소 팀이 개발한 Grounding DINO 1.5는 장치 측에서 실시간 인식을 달성할 수 있습니다.
이 진행 상황은 보통 1년에 한 번씩 자신의 속도를 바꾸는 AI 재벌 Shun Xiangyang이 전달했습니다.
이 릴리스에는 주로 Pro와 Edge의 두 가지 버전이 있습니다. Pro 버전은 더 강력하고 Edge 버전은 더 빠릅니다.
이전 버전을 그대로 유지합니다Grounding DINO이중 인코더-싱글 디코더 구조를 기반으로 보다 큰 시각적 백본을 결합하여 모델 크기를 확장하고, 2천만 개 이상의 Grounding 데이터를 사용하여 풍부한 코퍼스를 얻습니다. 감지 정확도와 속도가 크게 향상되었으며 Pro 및 Edge 버전을 통해 다양한 애플리케이션 시나리오에 최적화되었습니다.
대규모 데이터 세트 구축 및 고정밀 수요 시나리오에서 Pro 버전은 탁월한 성능을 발휘하는 반면 Edge 버전은 최종 배포에서 고유한 이점을 보여줍니다.
따로 살펴보겠습니다.
Grounding+DINO+1.5 Pro 버전은 현재 SOTA 수준의 오픈 세트 타겟 감지를 달성하고, 이미지와 텍스트의 의미론적 이해에 탁월한 성능을 발휘하며, 기반으로 이미지를 빠르고 정확하게 감지하고 식별할 수 있습니다. 언어는 대상 개체를 에서 프롬프트합니다.
ΔCOCO, LVIS, ODinW35 및 ODinW13 벤치마크의 제로샷 전송 성능 비교
객체 수준의 이해는 기계와 물리적 세계 간의 상호 작용을 위한 지각 기반이며 다중 - 모달 대형 모델(VLM) 환상 문제 우회할 수 없는 기본적인 문제입니다.
현재 최고 성능의 오픈 세트 감지 모델인 Grounding DINO 1.5 Pro는 객체 수준의 의미 정보로 대규모 다중 모드 데이터를 구성하여 다중 모드 대형 모델의 훈련을 효과적으로 지원할 수 있습니다.
긴 텍스트 설명의 문구를 이미지의 특정 개체 또는 장면과 정확하게 일치시켜 시각적 콘텐츠와 텍스트 간의 관계에 대한 AI의 이해를 높일 수 있습니다.
또한 대량의 복잡한 데이터를 처리해야 하는 기타 애플리케이션에서 전자상거래, 소셜 미디어, 자율주행 등의 분야에서도 Grounding DINO 1.5 Pro는 강력한 응용 가치를 갖고 있습니다.
예를 들어 전자상거래 분야에서 이 모델은 제품 이미지에 신속하게 주석을 추가하고 검색 및 추천 시스템을 최적화하는 데 도움이 될 수 있습니다. 소셜 미디어에서 이 모델은 사용자가 업로드한 이미지에 자동으로 라벨을 지정하여 콘텐츠 검토 및 분류의 효율성을 향상시킬 수 있습니다.
또한 Pro 버전은 다양한 산업의 특정 요구 사항을 충족하기 위해 산업 데이터를 통한 미세 조정도 지원하므로 보다 정확한 식별 결과를 얻을 수 있습니다.
Fine-Tuning에 따른 개선 효과를 검증하기 위해 CVR팀은 시각 분야에서 흔히 볼 수 있는 LVIS 등의 공개 데이터 세트를 대상으로 비교 실험을 진행했습니다.
마지막 두 줄에서 볼 수 있듯이 Grounding DINO 1.5 Pro는 미세 조정되었으며 여러 데이터 세트에서 상당한 성능 향상을 보여주었습니다.
그리고 많은 실용적인 장면에도 매우 적합합니다.
의료 분야와 마찬가지로 미세 조정된 Grounding DINO 1.5 Pro는 의료 영상에서 병변을 보다 정확하게 식별하고 의사의 진단을 보조하며 진단 및 치료 효율성을 향상시킬 수 있습니다.
소매 업계에서는 미세 조정된 모델을 통해 상품을 보다 정확하게 식별하고 분류할 수 있어 재고 관리 및 판매 분석에 도움이 됩니다.
클라이언트 측 배포 측면에서 Grounding DINO 1.5 Edge 버전은 모델 구조 최적화를 통해 NVIDIA Orin NX 카드에 성공적으로 배포되었으며 10FPS의 추론 속도를 달성했습니다.
게다가 로봇이 개방형 환경과 상호 작용할 수 있게 해줍니다.
자율 주행 분야에서 Grounding DINO 1.5 Edge는 미래의 차량에서 실시간으로 실행되어 효율적인 목표 감지 및 환경 인식을 달성하여 운전 안전성을 향상시킬 수 있습니다. 스마트 보안에서는 영상감시 데이터를 신속하게 처리하고, 이상행위를 실시간으로 감지하며, 보안감시 응답속도를 향상시킬 수 있는 모델이다.
향후 Grounding DINO 1.5 Edge의 실행 속도는 20~30FPS로 향상되어 엣지 컴퓨팅 분야에서 적용 범위가 더욱 확대될 것으로 예상됩니다.
논문 링크:
https://arxiv.org/abs/2405.10300
프로젝트 시험판 링크:
https://deepdataspace.com/playground/grounding_dino
위 내용은 표적 탐지를 위한 새로운 SOTA, 기기 및 측면에서 실시간 인식, Shen Xiangyang은 전달 및 좋아요를 거의 하지 않음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!