>기술 주변기기 >일체 포함 >3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

WBOY
WBOY앞으로
2023-06-04 15:04:041468검색

흔들 의자와 말의 입체적인 모양을 입력하면 무엇을 얻을 수 있나요?

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

나무 수레와 말? 마차와 전기 말, 바나나와 범선을 구하시나요? 바나나 범선과 달걀을 얻으시겠습니까? 계란 의자를 얻으세요.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

UCSD, Shanghai Jiao Tong University 및 Qualcomm 팀의 연구진은 3차원 도형의 열린 세계를 이해할 수 있는 최신 3차원 표현 모델인 OpenShape를 제안했습니다.

  • 논문 주소: https://arxiv.org/pdf/2305.10764.pdf
  • 프로젝트 홈페이지: https://colin97.github. io/오픈셰이프 /
  • 인터랙티브 데모: https://huggingface.co/spaces/OpenShape/openshape-demo
  • 코드 주소: https://github.com/ Colin97/OpenShape_code

다중 모드 데이터(포인트 클라우드 - 텍스트 - 이미지)에 대한 3D 포인트 클라우드의 네이티브 인코더를 학습하여 OpenShape는 3D 도형의 표현 공간을 구축하고 CLIP으로 텍스트와 이미지를 통합합니다. 정렬되었습니다. 대규모의 다양한 3D 사전 학습 덕분에 OpenShape는 제로샷 3D 형상 분류, 다중 모드 3D 형상 검색(텍스트/이미지/포인트 클라우드 입력)을 지원하여 처음으로 3D 형상에 대한 개방형 이해를 달성합니다. 3D 포인트 클라우드 자막 이미지 생성, 3D 포인트 클라우드 기반 이미지 생성 등 Cross-modal 작업.

3D 형상 제로샷 분류

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

OpenShape는 제로샷 3D 형상 분류를 지원합니다. 추가 교육이나 미세 조정 없이 OpenShape는 일반적으로 사용되는 ModelNet40 벤치마크(40개 공통 범주 포함)에서 85.3%의 최고 정확도를 달성하여 기존 제로샷 방법을 24% 포인트 능가하고 완전히 감독되는 일부 방법과 비교할 수 있는 성능을 달성합니다. 처음으로.

ModelNet40에서 OpenShape의 top3 및 top5 정확도는 각각 96.5% 및 98.0%에 도달했습니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

주로 몇 가지 공통 개체 범주로 제한되는 기존 방법과 달리 OpenShape에서는 광범위한 오픈 월드 범주를 분류할 수 있습니다. Objaverse-LVIS 벤치마크(1156개 개체 범주 포함)에서 OpenShape는 46.8%의 top1 정확도를 달성했으며 이는 기존 제로샷 방법의 최고 정확도인 6.2%를 훨씬 뛰어넘습니다. 이러한 결과는 OpenShape가 열린 세상에서 3D 모양을 효과적으로 인식하는 능력을 가지고 있음을 보여줍니다.

다중 모드 3D 모양 검색

OpenShape의 다중 모드 표현을 사용하면 사용자는 이미지, 텍스트 또는 포인트 클라우드 입력에 대해 3D 모양 검색을 수행할 수 있습니다. 입력 표현과 3D 형상 표현 간의 코사인 유사성을 계산하고 kNN을 찾아 통합 데이터 세트에서 3D 형상 검색을 연구합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

이미지 입력에서 3차원 도형 검색

위 이미지는 입력 이미지와 검색된 두 개의 3D 도형을 보여줍니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

텍스트 입력을 위한 3차원 도형 검색

위 그림은 입력된 텍스트와 검색된 3차원 도형을 보여줍니다. OpenShape는 광범위한 시각적 및 의미적 개념을 학습하여 세분화된 하위 범주(처음 두 줄) 및 속성 제어(색상, 모양, 스타일 및 이들의 조합과 같은 마지막 두 줄)를 가능하게 합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드 입력에서 3D 형상 검색

위 그림은 입력된 3D 포인트 클라우드와 검색된 2개의 3D 형상을 보여줍니다.


3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

이중 입력을 사용한 3D 모양 검색

위 이미지는 두 개의 3D 모양을 입력으로 사용하고 OpenShape 표현을 사용하여 두 입력에 가장 가까운 동시를 검색합니다. 차원 모양. 검색된 모양은 두 입력 모양의 의미적 요소와 기하학적 요소를 교묘하게 결합합니다.

3D 모양을 기반으로 한 텍스트 및 이미지 생성

OpenShape의 3D 모양 표현은 CLIP의 이미지 및 텍스트 표현 공간과 정렬되므로 다양한 CLIP 기반 파생 모델과 결합하여 다양한 크로스 모달 애플리케이션을 지원할 수 있습니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드용 자막 생성

OpenShape은 기성 이미지 자막 모델(ClipCap)과 결합하여 3D 포인트 클라우드용 자막 생성을 구현합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드 기반 이미지 생성

기성 텍스트-이미지 확산 모델(Stable unCLIP)과 결합하여 OpenShape는 3D 포인트 클라우드 기반 이미지 생성을 구현합니다. (지원되는 선택적 텍스트 프롬프트).


3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드를 기반으로 한 추가 이미지 생성 예제

교육 세부 정보

대조 학습을 기반으로 한 다중 모달 표현 정렬: OpenShape 교육 3D 네이티브 인코더 3D 형상의 표현을 추출하기 위한 입력으로 3D 포인트 클라우드. 이전 작업에 이어 우리는 CLIP의 이미지 및 텍스트 표현 공간에 맞추기 위해 다중 모드 대조 학습을 활용합니다. 이전 작업과 달리 OpenShape은 보다 일반적이고 확장 가능한 관절 표현 공간을 학습하는 것을 목표로 합니다. 연구의 초점은 주로 3D 표현 학습의 규모를 확장하고 해당 문제를 해결하여 개방형 세계에서 3D 형상 이해를 실제로 실현하는 것입니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

여러 3D 모양 데이터 세트 통합: 훈련 데이터의 규모와 다양성은 대규모 3D 모양 표현을 학습하는 데 중요한 역할을 하기 때문에 이 연구는 현재 가장 큰 공개 3D 모양 데이터 세트 4개를 통합하여 수행되었습니다. 아래 그림에서 볼 수 있듯이 연구된 훈련 데이터에는 876,000개의 훈련 형태가 포함되어 있습니다. 4개의 데이터 세트 중 ShapeNetCore, 3D-FUTURE 및 ABO에는 인간이 검증한 고품질 3D 모양이 포함되어 있지만 제한된 수의 모양과 수십 개의 범주만 다룹니다. Objaverse 데이터세트는 훨씬 더 많은 3D 모양을 포함하고 더 다양한 개체 클래스를 다루는 최근 출시된 3D 데이터세트입니다. 그러나 Objaverse의 모양은 주로 온라인 사용자에 의해 업로드되며 수동으로 확인되지 않습니다. 따라서 품질이 고르지 않고 분포가 극도로 불균형하여 추가 처리가 필요합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

텍스트 필터링 및 강화: 연구에 따르면 3D 모양과 2D 이미지 사이에만 대조 학습을 적용하는 것만으로는 대규모 데이터 세트에서 수행하는 경우에도 3D 모양과 텍스트 공간의 정렬을 구동하는 데 충분하지 않은 것으로 나타났습니다. 훈련도 마찬가지다. 연구에 따르면 이는 CLIP의 언어 및 이미지 표현 공간에 내재된 도메인 격차 때문인 것으로 추측됩니다. 따라서 연구에서는 3D 모양을 텍스트와 명시적으로 정렬해야 합니다. 그러나 원본 3D 데이터 세트의 텍스트 주석은 누락, 잘못 또는 거친 단일 콘텐츠와 같은 문제에 직면하는 경우가 많습니다. 이를 위해 본 논문에서는 텍스트 주석의 품질을 향상시키기 위해 텍스트를 필터링하고 강화하는 세 가지 전략, 즉 GPT-4를 사용한 텍스트 필터링, 자막 생성 및 3D 모델의 2D 렌더링 이미지 검색을 제안합니다. 이 연구에서는 원본 데이터 세트에서 잡음이 있는 텍스트를 자동으로 필터링하고 강화하는 세 가지 전략을 제안합니다. ㅋㅋㅋ 오른쪽 상단 부분에는 두 캡션 모델의 이미지 캡션이 표시되고, 오른쪽 하단 부분에는 검색된 이미지와 해당 텍스트가 표시됩니다.


3차원 백본 네트워크를 확장합니다.

3D 포인트 클라우드 학습에 대한 이전 작업은 주로 ShapeNet과 같은 소규모 3D 데이터 세트를 대상으로 했기 때문에 이러한 백본 네트워크는 대규모 3D 교육에 직접 적용되지 않을 수 있으며 이에 따라 백본 네트워크의 규모가 확장되어야 합니다. 연구에 따르면 다양한 3D 백본 네트워크는 다양한 크기의 데이터 세트를 학습할 때 다양한 동작과 확장성을 나타냅니다. 그 중 Transformer 기반의 PointBERT와 3차원 컨볼루션 기반의 SparseConv가 더욱 강력한 성능과 확장성을 보여 3차원 백본 네트워크로 선정되었습니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

통합 데이터세트에서 3D 백본 모델의 크기를 확장할 때 다양한 백본 네트워크의 성능과 확장성을 비교합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

하드 네거티브 예제 마이닝: 이 연구의 앙상블 데이터 세트는 높은 수준의 클래스 불균형을 나타냅니다. 건축과 같은 일부 일반적인 카테고리는 수만 개의 모양을 차지할 수 있는 반면 바다코끼리, 지갑과 같은 다른 많은 카테고리는 수십 개 또는 그보다 더 적은 수의 모양으로만 표현됩니다. 따라서 대조 학습을 위해 배치가 무작위로 구성되면 쉽게 혼동되는 두 범주(예: 사과와 체리)의 모양이 동일한 배치에 표시되어 대조될 가능성이 없습니다. 이를 위해 본 논문에서는 훈련 효율성과 성과를 향상시키기 위한 오프라인 난해 부정 사례 마이닝 전략을 제안한다. HuggingFace의 대화형 데모에 오신 것을 환영합니다.

위 내용은 3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제