>  기사  >  기술 주변기기  >  인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

WBOY
WBOY앞으로
2024-02-07 22:12:02648검색

현재 딥 에지 감지 네트워크는 일반적으로 다중 레벨 기능을 더 잘 추출하기 위해 업 및 다운 샘플링 모듈을 포함하는 인코더-디코더 아키텍처를 채택합니다. 그러나 이 구조는 정확하고 상세한 에지 감지 결과를 출력하기 위해 네트워크를 제한합니다.

이 문제에 대한 대응으로 AAAI 2024의 논문은 새로운 솔루션을 제공합니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.


  • 논문 제목: DiffusionEdge: Crisp Edge 탐지를 위한 확산 확률 모델
  • 저자: Ye Yunfan(국립국방기술대학교), Xu Kai(국립방위기술대학교), Huang Yuxing(국립국방기술대학교) , Yi Renjiao(국립국방기술대학교), Cai Zhiping(국립국방기술대학교)
  • 논문 링크: https://arxiv.org/abs/2401.02032
  • 오픈 소스 코드: https://github.com/ GuHuangAI/DiffusionEdge

국방기술대학교 iGRAPE 연구소는 2D 에지 검출 작업을 위한 새로운 방법을 제안했습니다. 이 방법은 학습 반복 노이즈 제거 프로세스 동안 에지 결과 맵을 생성하기 위해 확산 확률 모델을 활용합니다. 컴퓨팅 리소스의 소비를 줄이기 위해 이 방법은 잠재 공간을 사용하여 네트워크를 훈련하고 불확실성 증류 모듈을 도입하여 성능을 최적화합니다. 동시에 이 방법은 잡음 제거 프로세스를 가속화하기 위해 분리된 아키텍처를 채택하고 기능을 조정하기 위해 적응형 푸리에 필터를 도입합니다. 이러한 설계를 통해 이 방법은 제한된 리소스로 안정적으로 훈련할 수 있으며 더 적은 수의 증강 전략으로 명확하고 정확한 에지 맵을 예측할 수 있습니다. 실험 결과에 따르면 이 방법은 4개의 공개 벤치마크 데이터세트에 대한 정확도와 정밀도 측면에서 다른 방법보다 훨씬 뛰어난 것으로 나타났습니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

그림 1 확산 확률 모델을 기반으로 한 가장자리 탐지 프로세스 및 이점의 예

이 문서의 혁신 포인트는 다음과 같습니다.

가장자리 탐지 작업을 위한 확산 모델 DiffusionEdge를 제안했습니다. 후처리가 필요합니다. 이를 통해 더 얇고 정확한 에지 맵을 예측할 수 있습니다.

확산 모델을 적용할 때 발생하는 어려움을 해결하기 위해 잠재 공간에서 메서드가 안정적으로 학습할 수 있도록 다양한 기술을 설계했습니다. 동시에 우리는 픽셀 수준의 불확실성 사전 지식을 유지하고 푸리에 공간에서 잠재 기능을 적응적으로 필터링합니다.

3. 4개의 에지 감지 공개 벤치마크 데이터 세트에 대해 수행된 광범위한 비교 실험은 DiffusionEdge가 정확성과 정밀도 측면에서 탁월한 성능 이점을 가지고 있음을 보여줍니다.

관련 연구

딥 러닝 기반 방법은 일반적으로 업/다운 샘플링을 포함한 인코딩 및 디코딩 구조를 사용하여 다층 기능을 통합하거나[1-2] 여러 주석의 불확실성 정보를 통합하여 가장자리 감지를 향상시킵니다. .정확성[3]. 그러나 이러한 구조로 인해 자연스럽게 제한되는 결과 생성된 에지 결과 맵은 다운스트림 작업에 비해 너무 두껍고 사후 처리에 크게 의존합니다. 문제는 여전히 해결되어야 합니다. 네트워크가 더 미세한 Edge를 출력할 수 있도록 하기 위해 손실 함수[4-5] 및 레이블 수정 전략[6]에 대한 많은 작업이 탐색되었지만 이 논문에서는 이 분야에 여전히 추가 Edge 모듈 없이 사용할 수 있는 방법이 필요하다고 믿습니다. 별도의 후처리 단계 없이 정확도와 정밀도를 직접적으로 충족하는 검출기입니다.

확산 모델은 Markov 체인을 기반으로 한 생성 모델의 일종으로, 학습 잡음 제거 과정을 통해 목표 데이터 샘플을 점진적으로 복원합니다. 확산 모델은 컴퓨터 비전, 자연어 처리, 오디오 생성 등의 분야에서 탁월한 성능을 보여왔습니다. 뿐만 아니라 이미지나 기타 모달 입력을 추가 조건으로 사용함으로써 이미지 분할[7], 대상 탐지[8] 및 자세 추정[9] 등과 같은 인식 작업에서도 큰 잠재력을 보여줍니다.

방법 설명

본 글에서 제안하는 DiffusionEdge 방법의 전체적인 프레임워크는 그림 2와 같습니다. 이전 연구에서 영감을 받은 이 방법은 잠재 공간에서 분리된 구조를 사용하여 확산 모델을 훈련하고 이미지를 추가 조건부 단서로 입력합니다. 이 방법은 주파수 분석을 위한 적응형 푸리에 필터를 도입하고, 여러 주석자의 픽셀 수준 불확실성 정보를 유지하고 컴퓨팅 리소스에 대한 요구 사항을 줄이기 위해 숨겨진 공간에서 교차 엔트로피 손실 최적화도 직접 사용합니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

그림 2 DiffusionEdge의 전체 구조에 대한 개략도

현재의 확산 모델은 너무 많은 샘플링 단계와 너무 긴 추론 시간 등의 문제로 인해 어려움을 겪고 있으므로 이 방법은 DDM[10]에서 영감을 얻었으며 또한 분리된 방식을 사용합니다. 확산 샘플링 추론 프로세스를 가속화하는 모델 아키텍처. 그중 분리된 순방향 확산 프로세스는 명시적 전이 확률과 표준 Wiener 프로세스의 조합에 의해 제어됩니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

여기서 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.는 각각 초기 에지와 노이즈 에지를 나타내고, 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.는 역방향 에지를 나타냅니다. 그라디언트 전달 함수. DDM과 마찬가지로 이 방법은 기본적으로 상수 함수 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.를 사용하며 해당 역과정은

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

where 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.로 표현할 수 있습니다. 분리된 확산 모델을 훈련하려면 이 방법에 데이터와 잡음 구성 요소를 동시에 감독해야 하므로 훈련 목표를 다음과 같이 매개 변수화할 수 있습니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

여기서 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.는 잡음 제거 네트워크의 매개 변수입니다. 확산 모델은 원본 이미지 공간에서 학습하면 너무 많은 계산 비용을 차지하므로 [11]의 아이디어를 참고하여 본 논문에서 제안하는 방법은 학습 과정을 4배의 잠재 공간으로 이전한다. 다운샘플링 공간의 크기.

그림 2에 표시된 것처럼 이 방법은 먼저 자동 인코더와 디코더 네트워크 쌍을 훈련하고 인코더는 에지 주석을 잠재 변수로 압축하고 디코더는 이 잠재 변수에서 복구하는 데 사용됩니다. . 이와 같이 U-Net 구조를 기반으로 한 잡음 제거 네트워크의 학습 단계에서 이 방법은 오토인코더 및 디코더 네트워크 쌍의 가중치를 고정하고 잠재 공간에서 잡음 제거 프로세스를 학습하므로 계산량을 크게 줄일 수 있습니다. 좋은 성능을 유지하면서 네트워크 비용을 소비합니다.

네트워크의 최종 성능을 향상시키기 위해 이 기사에서 제안한 방법은 디커플링 작업에서 다양한 주파수 특징을 적응적으로 필터링할 수 있는 모듈을 도입합니다. 그림 2의 왼쪽 하단에 표시된 것처럼 이 방법은 디커플링 작업 전에 적응형 고속 푸리에 변환 필터(Adaptive FFT-filter)를 잡음 제거 Unet 네트워크에 통합하여 주파수 영역에서 적응적으로 필터링하고 분리합니다. 구성 요소. 구체적으로, 인코더 특징 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.이 주어지면 이 방법은 먼저 공간 차원을 따라 2차원 푸리에 변환(FFT)을 수행하고 변환된 특징을 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.로 나타냅니다. 다음으로, 이 적응형 스펙트럼 필터링 모듈을 훈련시키기 위해 학습 가능한 가중치 맵인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.이 구성되고 W에 Fc를 곱합니다. 스펙트럼 필터는 특정 주파수를 전역적으로 조정할 수 있으며 학습된 가중치는 다양한 데이터 세트의 대상 분포의 다양한 주파수 상황에 맞게 조정될 수 있습니다. 쓸모 없는 구성요소를 적응적으로 필터링함으로써 이 방법은 IFFT(역고속 푸리에 변환) 작업을 통해 주파수 영역의 특징을 공간 영역으로 다시 매핑합니다. 마지막으로, 의 잔여 연결을 추가로 도입함으로써 모든 유용한 정보가 완전히 필터링되는 것을 방지합니다. 위 프로세스는 다음 공식으로 설명할 수 있습니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

여기서 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.는 출력 기능이고 o는 Hadamard 제품을 나타냅니다.

가장자리와 비가장자리 픽셀 수의 높은 불균형으로 인해(대부분의 픽셀은 가장자리가 아닌 배경임) 이전 작업을 참조하여 훈련을 위한 불확실성 인식 손실 함수도 도입합니다. 구체적으로, j번째 에지 맵의 i번째 픽셀에 대한 i번째 픽셀의 실제 값 에지 확률로서 그 값은 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.이면 불확실성 인식 WCE 손실은 다음과 같이 계산됩니다.


인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.


여기서 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다., 여기서 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.는 실제 값 주석에서 불확실한 가장자리 픽셀을 결정하는 임계값입니다. 픽셀 값이 0보다 크고 이 임계값보다 작은 경우 신뢰도가 부족한 흐릿한 픽셀 샘플이 후속 최적화에 사용됩니다. 프로세스는 무시됩니다(손실 함수는 0입니다). 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.는 각각 Ground Truth 주석이 달린 에지 맵의 에지 및 비에지 픽셀 수를 나타냅니다. 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.의 균형을 맞추는 데 사용되는 무게입니다(1.1로 설정). 따라서 각 에지 맵의 최종 손실 함수는 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.로 계산됩니다.

최적화 프로세스 중에 흐릿하고 신뢰도가 낮은 픽셀을 무시하면 네트워크 혼란을 방지하고 훈련 프로세스를 보다 안정적으로 수렴하며 모델 성능을 향상시킬 수 있습니다. 그러나 수치적으로나 공간적으로 잘못 정렬된 잠재 공간에 이진 교차 엔트로피 손실을 직접 적용하는 것은 거의 불가능합니다. 특히 불확실성 인식 교차 엔트로피 손실은 임계값 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.(일반적으로 0에서 1까지)을 사용하여 픽셀이 이미지 공간에서 정의된 가장자리인지 여부를 결정하는 반면 잠재 변수는 정규 분포를 따르며 완전히 범위와 실제적 의미가 다릅니다. 더욱이, 픽셀 수준의 불확실성은 인코딩 및 다운샘플링된 잠재 특성의 다양한 크기와 조화되기 어렵고 두 가지가 직접적으로 호환되지 않습니다. 따라서 잠재 변수를 최적화하기 위해 교차 엔트로피 손실을 직접 적용하면 필연적으로 잘못된 불확실성 인식이 발생합니다.

반면에 잠재 변수를 이미지 수준으로 다시 디코딩하여 불확실성 인식 교차 엔트로피 손실을 사용하여 예측된 에지 결과 맵을 직접 감독하도록 선택할 수 있습니다. 불행하게도 이 구현에서는 역전파된 매개변수 기울기가 중복 오토인코더 네트워크를 통과할 수 있으므로 기울기를 효과적으로 전송하기가 어렵습니다. 또한, 오토인코더 네트워크의 추가 경사 계산은 엄청난 GPU 메모리 소비 비용을 가져오며, 이는 실용적인 에지 검출기를 설계하려는 이 방법의 원래 의도에 어긋나고 실제 응용으로 일반화하기 어렵습니다. 따라서 이 방법은 잠재 공간의 기울기를 직접적으로 최적화할 수 있는 불확실성 증류 손실을 제안합니다. 구체적으로 재구성된 잠재 변수를 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다., 오토인코더 네트워크의 디코더를 D, 디코딩된 에지 결과를 eD라고 합니다. 체인 규칙을 기반으로 불확실성 인식 이진 교차 엔트로피 손실 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.의 기울기를 직접 계산하는 것을 고려합니다. 구체적인 계산 방법은 다음과 같습니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

오토인코더 네트워크의 부정적인 영향을 제거하기 위해 이 방법은 자동 인코더 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.는 그라디언트를 전달하기 위해 직접 건너뛰고 그라디언트 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.의 계산 방법은 다음과 같이 수정 및 조정됩니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

이러한 구현은 계산 비용을 크게 줄이고 불확실성 인식 손실 함수를 사용하여 잠재 변수에 대한 직접 최적화를 허용합니다. 이러한 방식으로 단계 수 t에 따라 적응적으로 변경되는 시간에 따라 변하는 손실 가중치 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.와 결합하여 이 방법의 최종 훈련 최적화 목표는 다음과 같이 표현될 수 있습니다. 현장에서 널리 사용되는 에지 검출을 위한 공개 표준 데이터 세트인 BSDS, NYUDv2, Multicue 및 BIPED에 대해 네 가지 실험을 수행했습니다. 엣지 검출 데이터에 라벨링이 어렵고 라벨링된 데이터의 양이 상대적으로 적기 때문에 이전 방법은 일반적으로 데이터 세트를 향상시키기 위해 다양한 전략을 사용했습니다. 예를 들어, BSDS의 이미지는 수평 뒤집기(2×), 크기 조정(3×) 및 회전(16×)을 통해 향상되어 원래 버전보다 96배 더 큰 훈련 세트가 생성됩니다. 다른 데이터세트에서 이전 방법으로 사용된 일반적인 향상 전략은 표 1에 요약되어 있습니다. 여기서 F는 수평 뒤집기, S는 스케일링, R은 회전, C는 자르기, G는 감마 보정을 나타냅니다. 차이점은 이 방법은 모든 데이터를 훈련하기 위해 320320의 무작위로 자른 이미지 패치만 사용해야 한다는 것입니다. BSDS 데이터 세트에서 이 방법은 Random Flipping과 Scaling만을 사용하며 정량적 비교 결과는 표 2에 나와 있습니다. NYUDv2, Multicue 및 BIPED 데이터세트에서 이 방법은 무작위 뒤집기로만 학습하면 됩니다. 더 적은 수의 향상 전략을 사용하지만 이 방법은 다양한 데이터 세트 및 다양한 지표에 대해 이전 방법보다 더 나은 성능을 발휘합니다. 그림 3-5의 예측 결과를 관찰하면 DiffusionEdge가 gt 분포와 거의 동일한 에지 검출 결과를 학습하고 예측할 수 있음을 알 수 있습니다. 정확하고 명확한 예측 결과의 이점은 개선이 필요한 다운스트림 작업에 매우 중요합니다. , 또한 후속 작업에 직접 적용할 수 있는 큰 잠재력을 보여주었습니다.

인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

표 1 4개의 가장자리 감지 데이터 세트에 대한 이전 방법에 사용된 개선 전략

표 2 BSDS 데이터 세트에 대한 다양한 방법의 정량적 비교 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

그림 3 BSDS 데이터 세트의 다양한 방법의 정성적 비교인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

그림 4 NYUDv2 데이터 세트의 다양한 방법의 정성 비교인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

그림 5 BIPED 데이터 세트의 다양한 방법의 정성 비교인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.

위 내용은 인코더-디코더 아키텍처를 버리고 더 나은 결과를 얻기 위해 확산 모델을 사용하여 더 나은 결과를 얻었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제