집 >기술 주변기기 >일체 포함 >파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-10-07 09:37:01991검색

1. 연구 배경

이 방법은 주로 실내 프레임 추정(실내 추정 레이아웃 추정) 작업에 중점을 두고 있으며, 작업은 2차원 이미지를 입력하고 이미지가 설명하는 장면의 3차원 모델을 출력합니다. . 3D 모델을 직접 출력하는 작업의 복잡성을 고려하면, 이 작업은 일반적으로 2D 이미지에서 벽선, 천장선, 접지선의 세 가지 선 정보를 출력한 후 사후 처리를 통해 방의 3D 모델을 재구성하는 것으로 나누어집니다. 라인 정보를 기반으로 작업을 처리합니다. 3차원 모델은 이후 단계의 실내 장면 재현 및 VR 주택 보기와 같은 특정 응용 시나리오에서 추가로 사용될 수 있습니다. 이 방법은 깊이 추정 방법과 달리 실내 벽선 추정을 기반으로 공간적 기하학적 구조를 복원한다. 장점은 벽의 기하학적 구조를 보다 평면적으로 만들 수 있다는 점이다. 실내 장면의 소파, 의자 등의 아이템.

입력 영상에 따라 원근법과 파노라마법으로 나눌 수 있습니다. 투시도에 비해 파노라마는 시야각이 더 크고 이미지 정보가 더 풍부합니다. 파노라마 영상 획득 장비의 대중화로 인해 파노라마 데이터는 점점 더 풍부해지고 있으며, 이에 따라 현재 널리 연구되고 있는 파노라마 영상 기반의 실내 프레임 추정 알고리즘은 LayoutNet, HorizonNet, HohoNet, Led2 등이 있다. -Net 등 이러한 방법은 대부분 컨볼루션 신경망을 기반으로 하며, 복잡한 구조가 있는 위치에서는 벽선 예측 효과가 좋지 않습니다. 예를 들어 잡음 간섭, 자기 폐색 등이 있는 경우 다음과 같은 예측 결과가 나타납니다. 벽선 불연속성 및 벽선 위치 오류가 발생합니다. 벽선 위치 추정 작업에서는 국소적인 특징 정보에만 집중하면 이러한 오류가 발생할 수 있습니다. 추정을 위해 전체 벽선의 위치 분포를 고려하려면 파노라마의 전역 정보를 사용해야 합니다. CNN 방법은 로컬 특징을 추출하는 작업에서 더 나은 성능을 발휘하고 Transformer 방법은 전역 정보를 캡처하는 데 더 좋습니다. 따라서 Transformer 방법을 실내 프레임 추정 작업에 적용하여 작업 성능을 향상시킬 수 있습니다.

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

훈련 데이터의 의존성으로 인해 원근 사전 훈련만으로는 Transformer를 적용하여 파노라마 실내 프레임을 추정하는 효과가 이상적이지 않습니다. PanoViT 모델은 파노라마를 특징 공간에 미리 매핑하고 Transformer를 사용하여 특징 공간에서 파노라마의 전역 정보를 학습한 후 파노라마의 겉보기 구조 정보를 고려하여 실내 프레임 추정 작업을 완료합니다.

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

2. 방법 소개 및 결과 표시

1. PanoViT 파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

네트워크 구조 프레임워크에는 Backbone, Vision Transformer 디코더, 프레임 예측 모듈, 경계 강화 모듈이라는 4개의 모듈이 포함되어 있습니다. 백본 모듈은 파노라마를 특징 공간에 매핑합니다. vison 변환기 인코더는 특징 공간의 전역 상관 관계를 학습합니다. 프레임 예측 모듈은 특징을 벽선, 천장선 및 접지선 정보로 변환하여 세 가지를 추가로 얻을 수 있습니다. - 실내 프레임 추정을 위한 파노라마 이미지에서 경계 정보의 역할을 강조하는 실내 공간 및 경계의 차원 모델.

① 백본 모듈

트랜스포머를 직접 사용하여 파노라마 특징을 추출하는 방식은 잘 작동하지 않기 때문에 CNN 기반 방법의 유효성이 입증되었습니다. 즉, CNN 특징을 사용하여 주택 프레임을 예측할 수 있습니다. . 따라서 우리는 CNN의 백본을 사용하여 파노라마의 다양한 스케일의 특징 맵을 추출하고 특징 맵에서 파노라마 이미지의 전역 정보를 학습합니다. 실험 결과에 따르면 기능 공간에서 변환기를 사용하는 것이 파노라마에 직접 적용하는 것보다 훨씬 더 나은 것으로 나타났습니다

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

② 비전 트랜스포머 인코더 모듈

Transformer의 주요 아키텍처는 패치 샘플링, 패치 임베딩 및 트랜스포머의 멀티 헤드 어텐션을 포함하여 주로 세 가지 모듈로 나눌 수 있습니다. 입력은 파노라마 이미지 특징 맵과 원본 이미지를 모두 고려하고 입력마다 서로 다른 패치 샘플링 방법을 사용합니다. 원본 이미지는 균일 샘플링 방식을 사용하고, 특징 맵은 수평 샘플링 방식을 사용합니다. HorizonNet의 결론은 벽선 추정 작업에서 수평 특징이 더 중요하다고 믿습니다. 이 결론을 참조하면 임베딩 프로세스 동안 특징 맵 특징이 수직 방향으로 압축됩니다. Recurrent PE 방법은 서로 다른 스케일의 특징을 결합하고 Multi-head attention의 변환기 모델에서 학습하여 원본 이미지의 가로 방향과 동일한 길이의 특징 벡터를 얻는 데 사용됩니다. 이를 통해 해당 벽선 분포를 얻을 수 있습니다. 다른 디코더 헤드.

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

Random 순환 위치 인코딩(Recurrent Position Embedding)은 파노라마의 수평 변위가 이미지의 시각적 정보 특성을 변경하지 않는다는 점을 고려하므로 초기 위치가 수평 축을 따라 무작위로 선택됩니다. 각 훈련 중에 훈련 과정을 만들 때 절대 위치보다는 서로 다른 패치 간의 상대적 위치에 더 주의를 기울이십시오.

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

3 파노라마의 기하학적 정보

파노라마의 기하학적 정보를 최대한 활용하면 실내 프레임 추정 작업의 성능을 향상시키는 데 도움이 될 수 있습니다. PanoViT 모델의 경계 강화 모듈은 파노라마에서 경계 정보를 사용하는 방법을 강조하고, 3D 손실은 파노라마 왜곡의 영향을 줄이는 데 도움이 됩니다.

경계 강화 모듈은 벽선 감지 작업에서 벽선의 선형 특성을 고려합니다. 이미지의 선 정보는 매우 중요하므로 네트워크가 이를 수행할 수 있도록 경계 정보를 강조하는 것이 필요합니다. 이미지의 선 분포를 이해합니다. 주파수 영역에서 경계 향상 방법을 사용하여 파노라마 경계 정보를 강조하고 고속 푸리에 변환을 기반으로 이미지의 주파수 영역 표현을 얻은 다음 마스크를 사용하여 주파수 영역 공간에서 샘플링하고 경계가 강조된 이미지로 다시 변환합니다. 역푸리에 변환을 기반으로 한 정보입니다. 모듈의 핵심은 경계가 고주파 정보에 해당한다는 점을 고려하여 마스크는 먼저 고역 통과 필터를 선택하고 서로 다른 라인의 서로 다른 방향에 따라 서로 다른 주파수 영역 방향을 샘플링합니다. 이 방법은 기존 LSD 방법보다 구현이 더 간단하고 효율적입니다. 파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

이전 작업에서는 파노라마의 픽셀 거리를 추정 오류로 계산했습니다. 파노라마의 왜곡으로 인해 사진의 픽셀 거리는 3D 세계의 실제 거리에 비례하지 않습니다. PanoViT는 3D 손실 함수를 사용하여 3D 공간에서 직접 추정 오류를 계산합니다.

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

2. 모델 결과

Martroport3D 및 PanoContext 공개 데이터 세트를 사용하여 실험을 수행하고 2DIoU 및 3DIoU를 평가 지표로 사용하여 SOTA 방법과 비교합니다. 결과에 따르면 두 데이터 세트에 대한 PanoViT의 모델 평가 지표는 기본적으로 최적 수준에 도달했으며 특정 지표에서는 LED2보다 약간 열등한 수준인 것으로 나타났습니다. 모델 시각화 결과를 Hohonet과 비교함으로써 PanoViT는 복잡한 장면에서 벽선의 방향을 정확하게 식별할 수 있음을 알 수 있습니다. 절제 실험에서 Recurrent PE, 경계 향상 및 3D 손실 모듈을 비교하여 이러한 모듈의 효율성을 확인할 수 있습니다

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

더 나은 모델 데이터 세트를 달성하기 위해 100,000개 이상의 실내 자체 구축된 파노라마 이미지 데이터 세트에는 다양한 복잡한 실내 장면이 포함되어 있으며 사용자 정의 규칙에 따라 주석이 추가되어 5053개의 이미지가 테스트 데이터 세트로 선택되었습니다. 자체 구축한 데이터 세트를 대상으로 PanoViT 모델과 SOTA 모델 방식의 성능을 테스트한 결과, 데이터 양이 증가할수록 PanoViT 모델의 성능이 크게 향상되는 것으로 나타났다.

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

3. ModelScope에서

사용 방법 Modelscope 공식 웹사이트(https://modelscope.cn/home)를 엽니다.
"파노라마 실내 프레임 추정"을 검색하세요.
빠른 사용 - 온라인 환경 사용 - 빠른 체험을 클릭하여 노트북을 엽니다.
홈페이지 샘플 코드를 입력하고 1024*512 파노라마 이미지를 업로드한 후 이미지 로딩 경로를 수정하고 실행하면 벽선 예측 결과가 출력됩니다.

파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법

위 내용은 파노라마 시각적 Self-Attention 모델을 이용한 실내 프레임 추정 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构循环 position 算法 cnn transformer https vr embedding

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：최고의 음악 청취 경험을 위해 QQ Music은 AI와 가상 커뮤니티를 모두 사용합니다.다음 기사：최고의 음악 청취 경험을 위해 QQ Music은 AI와 가상 커뮤니티를 모두 사용합니다.