3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해-일체 포함-php.cn

집

기술 주변기기

일체 포함

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 04, 2023 pm 03:04 PM

ai찾다

흔들 의자와 말의 입체적인 모양을 입력하면 무엇을 얻을 수 있나요?

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

나무 수레와 말? 마차와 전기 말, 바나나와 범선을 구하시나요? 바나나 범선과 달걀을 얻으시겠습니까? 계란 의자를 얻으세요.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

UCSD, Shanghai Jiao Tong University 및 Qualcomm 팀의 연구진은 3차원 도형의 열린 세계를 이해할 수 있는 최신 3차원 표현 모델인 OpenShape를 제안했습니다.

논문 주소: https://arxiv.org/pdf/2305.10764.pdf
프로젝트 홈페이지: https://colin97.github. io/오픈셰이프 /
인터랙티브 데모: https://huggingface.co/spaces/OpenShape/openshape-demo
코드 주소: https://github.com/ Colin97/OpenShape_code

다중 모드 데이터(포인트 클라우드 - 텍스트 - 이미지)에 대한 3D 포인트 클라우드의 네이티브 인코더를 학습하여 OpenShape는 3D 도형의 표현 공간을 구축하고 CLIP으로 텍스트와 이미지를 통합합니다. 정렬되었습니다. 대규모의 다양한 3D 사전 학습 덕분에 OpenShape는 제로샷 3D 형상 분류, 다중 모드 3D 형상 검색(텍스트/이미지/포인트 클라우드 입력)을 지원하여 처음으로 3D 형상에 대한 개방형 이해를 달성합니다. 3D 포인트 클라우드 자막 이미지 생성, 3D 포인트 클라우드 기반 이미지 생성 등 Cross-modal 작업.

3D 형상 제로샷 분류

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

OpenShape는 제로샷 3D 형상 분류를 지원합니다. 추가 교육이나 미세 조정 없이 OpenShape는 일반적으로 사용되는 ModelNet40 벤치마크(40개 공통 범주 포함)에서 85.3%의 최고 정확도를 달성하여 기존 제로샷 방법을 24% 포인트 능가하고 완전히 감독되는 일부 방법과 비교할 수 있는 성능을 달성합니다. 처음으로.

ModelNet40에서 OpenShape의 top3 및 top5 정확도는 각각 96.5% 및 98.0%에 도달했습니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

주로 몇 가지 공통 개체 범주로 제한되는 기존 방법과 달리 OpenShape에서는 광범위한 오픈 월드 범주를 분류할 수 있습니다. Objaverse-LVIS 벤치마크(1156개 개체 범주 포함)에서 OpenShape는 46.8%의 top1 정확도를 달성했으며 이는 기존 제로샷 방법의 최고 정확도인 6.2%를 훨씬 뛰어넘습니다. 이러한 결과는 OpenShape가 열린 세상에서 3D 모양을 효과적으로 인식하는 능력을 가지고 있음을 보여줍니다.

다중 모드 3D 모양 검색

OpenShape의 다중 모드 표현을 사용하면 사용자는 이미지, 텍스트 또는 포인트 클라우드 입력에 대해 3D 모양 검색을 수행할 수 있습니다. 입력 표현과 3D 형상 표현 간의 코사인 유사성을 계산하고 kNN을 찾아 통합 데이터 세트에서 3D 형상 검색을 연구합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

이미지 입력에서 3차원 도형 검색

위 이미지는 입력 이미지와 검색된 두 개의 3D 도형을 보여줍니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

텍스트 입력을 위한 3차원 도형 검색

위 그림은 입력된 텍스트와 검색된 3차원 도형을 보여줍니다. OpenShape는 광범위한 시각적 및 의미적 개념을 학습하여 세분화된 하위 범주(처음 두 줄) 및 속성 제어(색상, 모양, 스타일 및 이들의 조합과 같은 마지막 두 줄)를 가능하게 합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드 입력에서 3D 형상 검색

위 그림은 입력된 3D 포인트 클라우드와 검색된 2개의 3D 형상을 보여줍니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

이중 입력을 사용한 3D 모양 검색

위 이미지는 두 개의 3D 모양을 입력으로 사용하고 OpenShape 표현을 사용하여 두 입력에 가장 가까운 동시를 검색합니다. 차원 모양. 검색된 모양은 두 입력 모양의 의미적 요소와 기하학적 요소를 교묘하게 결합합니다.

3D 모양을 기반으로 한 텍스트 및 이미지 생성

OpenShape의 3D 모양 표현은 CLIP의 이미지 및 텍스트 표현 공간과 정렬되므로 다양한 CLIP 기반 파생 모델과 결합하여 다양한 크로스 모달 애플리케이션을 지원할 수 있습니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드용 자막 생성

OpenShape은 기성 이미지 자막 모델(ClipCap)과 결합하여 3D 포인트 클라우드용 자막 생성을 구현합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드 기반 이미지 생성

기성 텍스트-이미지 확산 모델(Stable unCLIP)과 결합하여 OpenShape는 3D 포인트 클라우드 기반 이미지 생성을 구현합니다. (지원되는 선택적 텍스트 프롬프트).

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

3D 포인트 클라우드를 기반으로 한 추가 이미지 생성 예제

교육 세부 정보

대조 학습을 기반으로 한 다중 모달 표현 정렬: OpenShape 교육 3D 네이티브 인코더 3D 형상의 표현을 추출하기 위한 입력으로 3D 포인트 클라우드. 이전 작업에 이어 우리는 CLIP의 이미지 및 텍스트 표현 공간에 맞추기 위해 다중 모드 대조 학습을 활용합니다. 이전 작업과 달리 OpenShape은 보다 일반적이고 확장 가능한 관절 표현 공간을 학습하는 것을 목표로 합니다. 연구의 초점은 주로 3D 표현 학습의 규모를 확장하고 해당 문제를 해결하여 개방형 세계에서 3D 형상 이해를 실제로 실현하는 것입니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

여러 3D 모양 데이터 세트 통합: 훈련 데이터의 규모와 다양성은 대규모 3D 모양 표현을 학습하는 데 중요한 역할을 하기 때문에 이 연구는 현재 가장 큰 공개 3D 모양 데이터 세트 4개를 통합하여 수행되었습니다. 아래 그림에서 볼 수 있듯이 연구된 훈련 데이터에는 876,000개의 훈련 형태가 포함되어 있습니다. 4개의 데이터 세트 중 ShapeNetCore, 3D-FUTURE 및 ABO에는 인간이 검증한 고품질 3D 모양이 포함되어 있지만 제한된 수의 모양과 수십 개의 범주만 다룹니다. Objaverse 데이터세트는 훨씬 더 많은 3D 모양을 포함하고 더 다양한 개체 클래스를 다루는 최근 출시된 3D 데이터세트입니다. 그러나 Objaverse의 모양은 주로 온라인 사용자에 의해 업로드되며 수동으로 확인되지 않습니다. 따라서 품질이 고르지 않고 분포가 극도로 불균형하여 추가 처리가 필요합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

텍스트 필터링 및 강화: 연구에 따르면 3D 모양과 2D 이미지 사이에만 대조 학습을 적용하는 것만으로는 대규모 데이터 세트에서 수행하는 경우에도 3D 모양과 텍스트 공간의 정렬을 구동하는 데 충분하지 않은 것으로 나타났습니다. 훈련도 마찬가지다. 연구에 따르면 이는 CLIP의 언어 및 이미지 표현 공간에 내재된 도메인 격차 때문인 것으로 추측됩니다. 따라서 연구에서는 3D 모양을 텍스트와 명시적으로 정렬해야 합니다. 그러나 원본 3D 데이터 세트의 텍스트 주석은 누락, 잘못 또는 거친 단일 콘텐츠와 같은 문제에 직면하는 경우가 많습니다. 이를 위해 본 논문에서는 텍스트 주석의 품질을 향상시키기 위해 텍스트를 필터링하고 강화하는 세 가지 전략, 즉 GPT-4를 사용한 텍스트 필터링, 자막 생성 및 3D 모델의 2D 렌더링 이미지 검색을 제안합니다. 이 연구에서는 원본 데이터 세트에서 잡음이 있는 텍스트를 자동으로 필터링하고 강화하는 세 가지 전략을 제안합니다. ㅋㅋㅋ 오른쪽 상단 부분에는 두 캡션 모델의 이미지 캡션이 표시되고, 오른쪽 하단 부분에는 검색된 이미지와 해당 텍스트가 표시됩니다.

3차원 백본 네트워크를 확장합니다.

3D 포인트 클라우드 학습에 대한 이전 작업은 주로 ShapeNet과 같은 소규모 3D 데이터 세트를 대상으로 했기 때문에 이러한 백본 네트워크는 대규모 3D 교육에 직접 적용되지 않을 수 있으며 이에 따라 백본 네트워크의 규모가 확장되어야 합니다. 연구에 따르면 다양한 3D 백본 네트워크는 다양한 크기의 데이터 세트를 학습할 때 다양한 동작과 확장성을 나타냅니다. 그 중 Transformer 기반의 PointBERT와 3차원 컨볼루션 기반의 SparseConv가 더욱 강력한 성능과 확장성을 보여 3차원 백본 네트워크로 선정되었습니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

통합 데이터세트에서 3D 백본 모델의 크기를 확장할 때 다양한 백본 네트워크의 성능과 확장성을 비교합니다.

3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해

하드 네거티브 예제 마이닝: 이 연구의 앙상블 데이터 세트는 높은 수준의 클래스 불균형을 나타냅니다. 건축과 같은 일부 일반적인 카테고리는 수만 개의 모양을 차지할 수 있는 반면 바다코끼리, 지갑과 같은 다른 많은 카테고리는 수십 개 또는 그보다 더 적은 수의 모양으로만 표현됩니다. 따라서 대조 학습을 위해 배치가 무작위로 구성되면 쉽게 혼동되는 두 범주(예: 사과와 체리)의 모양이 동일한 배치에 표시되어 대조될 가능성이 없습니다. 이를 위해 본 논문에서는 훈련 효율성과 성과를 향상시키기 위한 오프라인 난해 부정 사례 마이닝 전략을 제안한다. HuggingFace의 대화형 데모에 오신 것을 환영합니다.

위 내용은 3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 게임 개발May 02, 2025 am 11:17 AM

격변 게임 : AI 에이전트와의 게임 개발 혁명 Blizzard 및 Obsidian과 같은 업계 대기업의 재향 군인으로 구성된 게임 개발 스튜디오 인 Upheaval은 혁신적인 AI 구동 Platfor로 게임 제작에 혁명을 일으킬 준비가되어 있습니다.

Uber는 Robotaxi 상점이되기를 원합니다. 제공자가 그들을 허락할까요?May 02, 2025 am 11:16 AM

Uber의 Robotaxi 전략 : 자율 주행 차량을위한 승차원 생태계 최근 Curbivore 컨퍼런스에서 Uber의 Richard Willder는 Robotaxi 제공 업체를위한 승마 플랫폼이되기위한 전략을 공개했습니다. 그들의 지배적 인 위치를 활용합니다

비디오 게임을하는 AI 요원은 미래의 로봇을 변화시킬 것입니다May 02, 2025 am 11:15 AM

비디오 게임은 특히 자율적 인 에이전트 및 실제 로봇의 개발에서 최첨단 AI 연구를위한 귀중한 테스트 근거로 입증되며, 인공 일반 정보 (AGI)에 대한 탐구에 잠재적으로 기여할 수 있습니다. 에이

스타트 업 산업 단지, VC 3.0 및 James Currier 's ManifestoMay 02, 2025 am 11:14 AM

진화하는 벤처 캐피탈 환경의 영향은 미디어, 재무 보고서 및 일상적인 대화에서 분명합니다. 그러나 투자자, 신생 기업 및 자금에 대한 구체적인 결과는 종종 간과됩니다. 벤처 캐피탈 3.0 : 패러다임

Adobe 업데이트 Adobe Max London 2025에서 Creative Cloud and FireflyMay 02, 2025 am 11:13 AM

Adobe Max London 2025는 Creative Cloud and Firefly에 상당한 업데이트를 제공하여 접근성 및 생성 AI로의 전략적 전환을 반영했습니다. 이 분석에는 Adobe Leadership과의 사전 이벤트 브리핑의 통찰력이 포함되어 있습니다. (참고 : Adob

모든 메타는 Llamacon에서 발표했습니다May 02, 2025 am 11:12 AM

Meta의 Llamacon 발표는 OpenAi와 같은 폐쇄 된 AI 시스템과 직접 경쟁하도록 설계된 포괄적 인 AI 전략을 보여 주며 동시에 오픈 소스 모델을위한 새로운 수익원을 만듭니다. 이 다각적 인 접근법은 Bo를 대상으로합니다

AI가 정상적인 기술에 지나지 않는다는 제안에 대한 양조 논쟁May 02, 2025 am 11:10 AM

이 결론에 대한 인공 지능 분야에는 심각한 차이가 있습니다. 어떤 사람들은 "황제의 새로운 옷"을 폭로 할 때라고 주장하는 반면, 인공 지능은 단지 일반적인 기술이라는 생각에 강력하게 반대합니다. 논의합시다. 이 혁신적인 AI 혁신에 대한 분석은 다양한 영향력있는 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI 분야의 최신 발전을 다루는 진행중인 Forbes 열의 일부입니다 (링크를 보려면 여기를 클릭하십시오). 공통 기술로서의 인공 지능 첫째,이 중요한 토론을위한 토대를 마련하기 위해서는 몇 가지 기본 지식이 필요합니다. 현재 인공 지능을 발전시키는 데 전념하는 많은 연구가 있습니다. 전반적인 목표는 인공 일반 지능 (AGI) 및 가능한 인공 슈퍼 인텔리전스 (AS)를 달성하는 것입니다.

모델 시민, AI 가치가 다음 비즈니스 척도 인 이유May 02, 2025 am 11:09 AM

회사의 AI 모델의 효과는 이제 핵심 성과 지표입니다. AI 붐 이후 생일 초대장 작성부터 소프트웨어 코드 작성에 이르기까지 생성 AI는 모든 데 사용되었습니다. 이로 인해 언어 모드가 확산되었습니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

드림위버 CS6

시각적 웹 개발 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.