시각적 프롬프트를 사용할 때 어떤 종류의 경험을 가져다 줄까요?
사진에 무작위로 스케치를 그리면 같은 카테고리가 즉시 표시됩니다!
GPT-4V에서는 심지어 미터 단위 링크도 처리하기 어렵습니다. 모든 쌀알을 찾으려면 상자를 수동으로 당기기만 하면 됩니다.
새로운 객체 감지 패러다임으로!
방금 끝난 IDEA 연례 회의에서 IDEA 연구소 창립 회장이자 국립 공학 아카데미 외국 학자인 Shen Xiangyang이 최신 연구 결과를 발표했습니다. -
시각 프롬프트 모델을 기반으로 한 T-Rex의 콘텐츠
전체 프로세스는 대화형으로 즉시 사용할 수 있으며 몇 단계만으로 완료할 수 있습니다.
이전에는 Meta의 오픈 소스 SAM이 모든 모델을 분할하여 CV 분야에서 GPT-3 시대를 직접 열었습니다. 그러나 여전히 텍스트 프롬프트 패러다임을 기반으로 하여 복잡하고 희귀한 일부 모델을 처리하기가 더 어려웠습니다. 시나리오.
이제 사진을 변경하여 문제를 쉽게 해결할 수 있습니다.
이 밖에도 Think-on-Graph 지식 기반 대형 모델, 개발자 플랫폼 MoonBit, AI 과학 연구 아티팩트 ReadPaper 업데이트 2.0, SPU 기밀 컴퓨팅 코프로세서, 제어 가능한 인물 영상 등 컨퍼런스 전체에도 유용한 정보가 가득합니다. 세대 플랫폼 HiveNet 등.
마지막으로 Shun Xiangyang은 지난 몇 년간 가장 많은 시간을 투자한 프로젝트인 저고도 경제를 공유했습니다.
저고도 경제가 비교적 성숙해지면 선전 하늘에는 매일 10만 대의 드론이 떠돌고 매일 수백만 대의 드론이 이륙할 것이라고 믿습니다.
T -In 기본 단일 라운드 프롬프트 기능 외에도 Rex는 세 가지 고급 모드도 지원합니다
이는 다중 라운드 대화와 유사하여 더 정확한 결과를 생성하고 탐지 누락을 피할 수 있습니다
는 시각적 단서가 모호하고 잘못된 감지를 유발하는 시나리오에 적합합니다.
교차 그래프 모드를 사용하면 차트를 재설계하고 레이아웃하여 데이터와 정보를 쉽게 시각화할 수 있습니다.
하나의 참조 그래프를 사용하여 다른 이미지를 감지함으로써
보고서에 따르면 T-Rex는 미리 정의된 카테고리에 제한을 받지 않고 다음을 수행할 수 있습니다. 시각적 예시를 사용하여 감지 대상을 지정함으로써 특정 개체가 말로 완전히 표현하기 어려운 문제를 해결하고 프롬프트 효율성을 향상시킵니다. 특히 일부 산업 현장의 복잡한 부품의 경우 그 효과가 특히 두드러집니다
또한 사용자와의 상호 작용을 통해 언제든지 감지 결과를 신속하게 평가하고 오류 수정이 가능합니다.
T-Rex는 주로 이미지 인코더, 힌트 인코더, 프레임 디코더의 세 가지 구성 요소로 구성됩니다.
이 작업은 IDEA 연구소 컴퓨터 비전 및 로봇 공학 연구 센터에서 가져온 것입니다.
팀의 이전 오픈 소스 표적 탐지 모델 DINO는 COCO 표적 탐지 목록에서 1위를 차지한 최초의 DETR 모델입니다. 제로 샘플 탐지기 Grounding DINO는 Github에서 매우 인기가 높습니다 (지금까지 11,000개의 별을 받았습니다) 모든 것을 감지하고 분할할 수 있는 접지 SAM입니다. 더 자세한 기술적 내용을 보려면 기사 마지막에 있는 링크를 클릭하세요.
이 외에도 IDEA 컨퍼런스에서는 여러 가지 연구 결과도 강조되었습니다.
예를 들어 Think-on-Graph 지식 기반 대형 모델은 쉽게 말하면 대형 모델과 지식 그래프를 결합한 것입니다.
대형 모델은 의도 이해와 자율 학습에 능숙한 반면, 지식 그래프는 구조화된 지식 저장 방식으로 인해 논리적 연쇄 추론에 더 좋습니다.
Think-on-Graph는 대형 모델 에이전트가 지식 그래프 위에서 '생각'하도록 유도하고, 점차적으로 최적의 답변을 검색하고 추론합니다(지식 그래프의 관련 개체를 단계별로 검색 및 추론). 추론의 모든 단계에서 대형 모델이 직접 참여하고 지식 그래프를 통해 서로의 강점과 약점을 학습합니다.
MoonBit은 Wasm을 기반으로 하며 클라우드 컴퓨팅 및 엣지 컴퓨팅용으로 설계된 개발자 플랫폼입니다.
이 시스템은 범용 프로그래밍 언어 설계를 제공할 뿐만 아니라 컴파일러, 빌드 시스템, 통합 개발 환경(IDE), 배포 도구 및 기타 모듈을 통합하여 개발 경험과 효율성을 향상시킵니다.
이전에 출시된 과학 연구 유물 ReadPaper 2.0으로 업데이트도 됐고, 기자간담회에서는 독서 부조종사, 연마 부조종사 등 새로운 기능도 시연됐다.
기자회견 말미에 Shen Xiangyang은 "저고도 경제 개발 백서(2.0) - 완전 디지털 솔루션"을 발표하여 스마트 통합 저공역 시스템(SILAS)의 시간 공간 프로세스를 제안했습니다. 프로세스) 새로운 개념.
T-Rex 링크:
https://trex-counting.github.io/
위 내용은 비전을 사용하여 메시지를 표시하세요! Shen Xiangyang은 교육이나 미세 조정이 필요하지 않고 바로 사용할 수 있는 IDEA 연구소의 새로운 모델을 선보였습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!