집 >기술 주변기기 >일체 포함 >CVPR 24│ETH Zurich 및 기타 팀: 소규모 샘플 3D 분할 작업을 재정의하는 새로운 벤치마크는 개선을 위한 광범위한 잠재력을 열어줍니다!

CVPR 24│ETH Zurich 및 기타 팀: 소규모 샘플 3D 분할 작업을 재정의하는 새로운 벤치마크는 개선을 위한 광범위한 잠재력을 열어줍니다!

WBOY원래의: 2024-06-24 14:05:51891검색

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 첫 번째 저자인 An Zhaochong은 현재 Serge Belongie의 감독하에 코펜하겐 대학교에서 박사 과정을 공부하고 있습니다. 그는 취리히 공과대학(ETH Zurich)에서 석사 학위를 취득했으며, 석사 학위를 취득하는 동안 멘토인 Luc Van Gool의 연구실에서 여러 연구 프로젝트에 참여했습니다. 그의 주요 연구 관심 분야는 장면 이해, 퓨샷 학습, 다중 모드 학습입니다.

3D 장면 이해를 통해 휴머노이드 로봇은 주변 장면을 "볼" 수 있으며, 자동차의 자율 주행 기능이 운전 중 발생할 수 있는 상황을 실시간으로 인식하여 보다 지능적인 행동과 반응을 할 수 있습니다. 이 모든 작업에는 수많은 3D 장면에 대한 자세한 주석이 필요하므로 시간 비용과 리소스 투자가 급격히 늘어납니다.

최근 ETH Zurich와 다른 팀에서는 이러한 한계를 크게 개선한 Few-Shot 학습 방법을 제안하고 현재 FS-PCS 작업을 재검토했으며 3D 장면 인식 분야의 새로운 벤치마크를 도입하여 좋은 기반을 제공했습니다. 미래를 위한 모델 설계 및 개발이 새로운 지평을 열었습니다.

논문 링크: https://arxiv.org/abs/2403.00592
코드 링크: https://github.com/ZhaochongAn/COSeg

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

^{3D Few-shot 분할 결과 예시}

기술적 배경

3D 장면 이해는 자율주행, 지능형 로봇 등의 분야에서 중요한 역할을 합니다. -차원의 세계. 기존의 완전 지도 학습 모델은 특정 범주를 잘 인식하지만 이러한 모델은 사전 정의된 범주를 식별하는 데 국한되는 경우가 많습니다. 이는 새로운 객체 카테고리를 인식해야 할 때마다 대량의 3D 장면 데이터를 수집하고 자세히 주석을 달아야 함을 의미합니다. 이 프로세스는 시간이 많이 걸리고 노동 집약적일 뿐만 아니라 완전 감독 적용을 크게 제한합니다. 실제 세계의 모델을 활용하세요.

그런데 퓨샷 학습법의 도움으로 이런 상황이 획기적으로 개선되었습니다. 퓨샷 학습은 새로운 범주에 빠르게 적응하기 위해 라벨이 지정된 샘플이 거의 필요하지 않은 기술입니다. 이는 모델이 적은 수의 예시로 새로운 환경을 빠르게 학습하고 적응할 수 있어 데이터 수집 및 처리 비용을 크게 줄일 수 있음을 의미합니다. 이러한 빠르고 유연한 학습 방법은 3D 장면 이해 기술을 급변하는 현실 세계에 더욱 적합하게 만들어 자율 주행 및 고급 로봇 시스템과 같은 다양한 응용 시나리오에 대한 새로운 가능성을 열어줍니다. 따라서 퓨샷 3D 모델을 연구하면 더 넓은 세계에서 많은 중요한 작업의 실제 적용을 효과적으로 촉진할 수 있습니다.

특히 Few-shot 3D 포인트 클라우드 의미론적 분할(FS-PCS) 작업의 경우 모델 입력에는 지원 포인트 클라우드와 새 카테고리(지원 마스크) 및 쿼리 포인트 클라우드의 주석이 포함됩니다. 모델은 지원 포인트 클라우드와 지원 마스크를 활용하여 새로운 카테고리에 대한 지식을 얻고 이를 분할 쿼리 포인트 클라우드에 적용하여 이러한 새로운 카테고리의 라벨을 예측해야 합니다. 모델 훈련 및 테스트 중에 사용되는 대상 범주는 중복되지 않습니다. 이는 테스트 중에 사용된 범주가 모두 새로운 범주이고 훈련 중에 모델에 표시되지 않았는지 확인하기 위한 것입니다.审 작업 재검토 및 수정

그림 1. 두 장면의 시각화(예상 대상은 Door 및 BOARD)

W 표 1. 전망 유출이 없을 때(W/O FG) 존재(W/FG) 및 과거 모델의 성능

이 기사에서는 현재 FS-PCS 작업을 재검토합니다. 현재 작업 설정에는 두 가지 중요한 문제가 있는 것으로 나타났습니다.

첫 번째 문제는

전경 누출

벤치마크는 과거 모델의 실제 성능
을 반영할 수 없습니다. 표 1에서 볼 수 있듯이, 현재 설정에서 전경 누출을 보정한 후 과거 모델은 큰 성능 저하를 보였으며, 이는 과거 모델이 겉보기에 우수한 Few-Shot 성능을 달성하기 위해 밀도 차이에 크게 의존했음을 나타냅니다. 두 번째 문제는 희소 포인트 분포입니다. 현재 설정은 학습 및 테스트 중에 모델에 대한 입력으로 장면에서 2048개 포인트만 샘플링합니다. 이러한 희소 포인트 분포는 입력 장면 명확성의 의미를 심각하게 제한합니다. 그림 1에서 볼 수 있듯이 첫 번째 행과 다섯 번째 열에서는 해당 영역에 있는 의미 카테고리 문과 주변 카테고리 벽을 인간의 눈으로 구별하기가 어렵습니다. 두 번째 라인의 경우에도 대상 영역이 보드 클래스인지 창과 같은 다른 클래스인지 구별하기 어렵습니다. 이러한 희박한 입력 포인트 클라우드는 매우 제한된 의미 정보
를 갖고 있으며
장면에서 의미를 효과적으로 마이닝하는 모델의 능력을 제한합니다.
따라서 저자는 이러한 문제를 해결하기 위해 균일한 샘플링을 사용하고 샘플링 포인트 수를 10배 증가하여 20480 포인트로 늘리는 FS-PCS 작업을 표준화하는 새로운 설정을 제안했습니다. 그림 1의 세 번째 열에 표시된 것처럼 새로운 설정의 입력은 일관된 포인트 분포와 보다 명확한 의미 정보를 가지므로 작업이 실제 응용 프로그램 시나리오에 더 가까워집니다.

새 모델 COSeg

새로 수정된 설정에서 저자는 COSeg(Correlation Optimization Segmentation)라는 새 모델을 도입했습니다. 이전 방법들은

특성 최적화 패러다임

을 기반으로 지원 또는 쿼리의 특성 최적화에 중점을 두고 개선된 특성을 매개변수 없는 예측 모듈에 입력하여 예측 결과를 얻는 것으로 볼 수 있는데, 이는 지원과 쿼리 간의 암시적 모델링으로 간주할 수 있습니다. 상관 관계 쿼리 . 오히려 기능 최적화에 초점을 두지 않고 지원과 쿼리 간의 상관관계를 매개변수를 사용하여 모듈에 직접 입력하고

상관관계를 명시적으로 최적화

하여 모델이 직접 형상화할 수 있는
상관 최적화 패러다임

을 제안합니다. 쿼리와 지원 관계 간의 상관관계를 분석하여 모델의 일반화 능력을 향상시킵니다.

ㅋㅋ 그림 2. COSeg 아키텍처

COSeg에서는 먼저 각 쿼리 포인트와 지원 프로토타입 간의 클래스별 다중 프로토타입 상관 관계(CMC라고 함)를 계산합니다. 이는 모든 포인트와 모든 관계를 의미합니다. 카테고리 프로토타입 사이

. 그런 다음 CMC는 후속 HCA(Hyper Correlation Augmentation) 모듈에 입력됩니다.

HCA 모듈은 두 가지 잠재적 관계를 활용하여 상관 관계를 최적화합니다. 첫째, 쿼리 포인트는 모두 서로 연관되어 있으므로 카테고리 프로토타입 간의 상관 관계에도 연관되어 있습니다. 이를 통해

포인트와 포인트

간의 관계를 얻을 수 있습니다. 이는 HCA에서 상관 관계를 수행하는 전반부에 해당합니다. 포인트 차원. 둘째, 쿼리 포인트를 전경 클래스와 배경 클래스로 분류하는 것은 해당 포인트의 전경 프로토타입과 배경 프로토타입 간의 상대적인 상관 관계에 따라 달라집니다. 이를 통해 HCA의 후반부에 해당하는 전경과 배경 간의 관계를 얻을 수 있습니다. . 상관관계는 카테고리 차원에서 주목을 받습니다.

또한 퓨샷 모델은 기본 카테고리에서 학습을 하고 소설 카테고리에서 테스트를 하였기 때문입니다. 이러한 모델은 테스트 장면에 존재하는 친숙한 기본 범주에 의해 쉽게 간섭되어 새로운 범주의 분할에 영향을 미칩니다. 이 문제를 해결하기 위해 기사에서는 기본 카테고리(기본 프로토타입이라고 함)에 대한 매개변수 없는 프로토타입을 학습할 것을 제안합니다. 새 클래스를 분할할 때

기본 클래스에 속하는 쿼리 포인트는 배경

으로 예측되어야 합니다. 따라서 저자는 기본 프로토타입을 사용하여 HCA 계층 내부에 BPC(Base Prototypes Calibration) 모듈을 도입하여 포인트와 배경 범주 간의 상관 관계를 조정함으로써 기본 클래스로 인한 간섭을 완화합니다.

실험 결과

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！ ㅋㅋ ~ 벤치마크를 통해 입증되었습니다. COSeg 방법의 우수한 성능은 다양한 소수 작업에서 최상의 결과를 달성합니다. 시각화는 또한 COSeg가 더 나은 분할 결과를 달성한다는 것을 명확하게 보여줍니다. 또한 저자는 설계의 효율성과 상관 최적화 패러다임의 우수성을 입증하기 위해 광범위한 절제 실험도 제공합니다.

요약

FS-PCS 분야에 대한 본 논문의 연구 기여는 다음과 같다.

먼저 저자는 현재 FS-PCS 설정에서 과거 방법에 비해 평가 벤치마크의 정확성을 감소시키는 두 가지 주요 문제(전경 누출 및 희소 포인트 분포)를 식별합니다. 이전 설정의 문제를 해결하기 위해 기사에서는 새로운 표준화된 설정 및 평가 벤치마크

를 소개합니다.

또한 표준화된 FS-PCS 설정에서 저자는 소수 샷 작업에서 모델의 일반화 성능을 크게 향상시키는

새로운 상관 최적화 패러다임
을 제안합니다. 이 기사의 모델

COSeg는 HCA를 결합하여 효과적인 포인트 클라우드 상관 정보를 마이닝하고 BPC를 결합하여 배경 예측을 조정

하여 모든 소수 샷 작업에서 최고의 성능을 달성합니다.

기사에서 수정된

표준화된 설정은 퓨샷 3D 분할 작업을 개선할 수 있는 더 많은 가능성을 열어줍니다
동시에 제안된

새로운 상관 최적화 패러다임은 미래 모델 설계 및

. FS-PCS 분야의 새로운 벤치마크로서 이 연구는 더 많은 연구자들이 소표본 3D 장면 이해의 경계를 탐색하고 확장하도록 영감을 줄 것으로 기대됩니다.

참고로 다음 사항은 이 분야의 발전을 더욱 촉진하기 위한 잠재적인 연구 방향으로 사용될 수 있습니다.

기사의 새로운 설정에서 COSeg가 최고의 성능을 달성하지만, 여전히 개선의 여지가 많습니다. 더 나은 소수 샷 일반화를 달성하기 위해 모델을 개선할 수 있습니다. 예를 들어 프로토타입 추출 방법 개선[1, 2], 상관관계 최적화 모듈 개선[3], 각 소수 목표 지정 등이 있습니다. -성적 훈련[4].

Base 카테고리 간섭 문제를 해결하는 것도 Few-shot 성능에 영향을 미치는 핵심 요소입니다. 이는 Base 카테고리의 간섭을 더 잘 줄이기 위해 훈련 또는 모델 설계 관점에서 최적화될 수 있습니다.

모델의 훈련 및 추론 효율성을 향상합니다[7]. 특히 실제 애플리케이션에 배포할 때 모델의 효율성도 중요한 고려 사항입니다.

참조 링크:

[1] Lang, Chunbo, et al. "몇 번의 원격 감지 분할을 위한 점진적 구문 분석 및 공통성 증류." 지구과학 및 원격 감지에 대한 IEEE 거래(2023) ).

[2] Liu, Yuanwei, et al. "퓨샷 의미론적 분할을 위한 중간 프로토타입 마이닝 변환기." 신경 정보 처리 시스템의 발전 35(2022): 38020-38031.

^{[3] Zhang, Canyu, et al. "계층화된 클래스별 주의 기반 변압기 네트워크를 통한 퓨샷 3D 포인트 클라우드 의미론적 분할." AAAI Conference on Artificial Intelligence Vol. .}

^{[4] Bodiaf, Malik, et al. "메타 학습이 필요 없는 몇 번의 분할: 컴퓨터 비전 및 패턴에 관한 IEEE/CVF 회의록만 있으면 됩니다." 2021.}

^{[5] Wang, Jiahui, et al. "대조적 자기 감독 및 다중 해상도 주의를 통한 퓨샷 포인트 클라우드 의미론적 분할." 2023 IEEE International Conference on Robotics and Automation(ICRA) ). IEEE, 2023.}

^{[6] Lang, Chunbo, et al. "분할하지 말아야 할 사항 학습: 컴퓨터 비전 및 CVF 회의에 대한 새로운 관점" 2022.}

^{[7] Sun, Yanpeng, 외 "단일 값 미세 조정: 소수의 매개변수 미세 조정이 필요합니다."(2022) ): 37484-37496.}

위 내용은 CVPR 24│ETH Zurich 및 기타 팀: 소규모 샘플 3D 분할 작업을 재정의하는 새로운 벤치마크는 개선을 위한 광범위한 잠재력을 열어줍니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 for class 对象 prototype github transformer https

성명：

이전 기사：ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다.다음 기사：ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다.