현재 주류 의미론적 분할 알고리즘은 본질적으로 p(클래스|픽셀 특징)를 직접 모델링하고 기본 픽셀 데이터 분포, 즉 p(클래스|픽셀 특징)를 완전히 무시하는 소프트맥스 분류기를 기반으로 하는 차별적 분류 모델입니다. 이는 OOD(분포 외) 데이터에 대한 모델의 표현력과 일반화를 제한합니다.
최근 연구에서 Zhejiang University, University of Technology Sydney 및 Baidu 연구소의 연구원들은 GMM(Gaussian Mixture Model) ModelGMMSeg를 기반으로 하는 생성적 의미 분할 패러다임인 새로운 의미 분할 패러다임을 제안했습니다.
GMM세그 픽셀과 카테고리의 결합 분포를 모델링하고, EM 알고리즘을 통해 픽셀 특징 공간에서 가우스 혼합 분류기(GMM Classifier)를 학습하고 생성 패러다임을 사용하여 각 카테고리의 픽셀 특징 분포를 세밀하게 캡처합니다. 한편 GMMSeg는 차별적 손실을 채택하여 심층 특징 추출기를 엔드 투 엔드로 최적화합니다. 이는 GMMSeg에 차별적 모델과 생성적 모델 모두의 장점을 제공합니다.
실험 결과에 따르면 GMMSeg는 다양한 분할 아키텍처와 백본 네트워크에서 성능 향상을 달성하는 동시에 후처리나 미세 조정(이상 분할) 없이 이상 분할에 직접 적용할 수 있습니다. 작업.
지금까지 의미론적 분할 방법이 단일 모델 인스턴스를 사용할 수 있는 것은 이번이 처음이며, closed-set 및 open-world 조건에서 동시 발전을 달성 성능을 달성했습니다. 또한 생성 분류기가 대규모 비전 작업에서 장점을 보여준 것은 이번이 처음입니다.
기존 분할 패러다임과 제안된 방법을 살펴보기 전에 판별 및 생성 분류기의 개념을 간략하게 소개합니다.
샘플-레이블 쌍(x, y)을 포함하는 데이터 세트 D가 있다고 가정합니다. 분류기의 궁극적인 목표는 샘플 분류 확률 p(y|x)를 예측하는 것입니다. 분류 방법은 판별 분류기와 생성 분류기의 두 가지 범주로 나눌 수 있습니다.
현재 주류인 픽셀별 분할 모델은 주로 딥 네트워크를 사용하여 픽셀 특징을 추출한 다음 소프트맥스 분류기를 사용하여 픽셀 특징을 분류합니다. 네트워크 아키텍처는
두 부분으로 구성됩니다. 첫 번째 부분은 픽셀 특징 추출기입니다. 일반적인 아키텍처는 RGB 공간의 픽셀 입력을 D차원 고차원으로 매핑하는 인코더-디코더 쌍입니다. 차원 공간적으로 픽셀 특징을 얻습니다.
두 번째 부분은 주류 소프트맥스 분류자인 픽셀 분류기입니다. 이는 입력 픽셀 특징을 C 클래스 실제 출력(로지트)으로 인코딩한 다음 소프트맥스 기능을 사용하여 출력을 정규화합니다( 로짓) 통일하고 확률적 의미를 부여합니다. 즉, 로짓을 사용하여 픽셀 분류의 사후 확률을 계산합니다.
마지막으로 두 부분으로 구성된 완전한 모델은 교차 엔트로피를 통해 처음부터 끝까지 최적화됩니다. loss:
이 과정에서 모델은 픽셀 자체의 분포를 무시하고 픽셀 분류 예측의 조건부 확률 p(c|x)를 직접 추정합니다. 주류 소프트맥스 분류기는 본질적으로 차별적 분류기임을 알 수 있습니다.
판별 분류기는 구조가 간단하고, 최적화 목표가 바로 판별 오류를 줄이는 것을 목표로 하기 때문에 우수한 판별 성능을 얻을 수 있는 경우가 많습니다. 그러나 동시에 기존 작업의 관심을 끌지 못한 몇 가지 치명적인 단점이 있으며 이는 소프트맥스 분류기의 분류 성능 및 일반화에 큰 영향을 미칩니다.
이러한 문제에 대응하여 저자는 현재의 주류 차별적 패러다임을 재고해야 한다고 믿으며 이에 대한 해결책은 Generative Semantic Segmentation Model - GMMSeg 문서에 제시되어 있습니다.
저자는 생성 모델의 관점에서 의미 분할 과정을 재구성했습니다. 분류 확률 p(c|x)를 직접 모델링하는 것과 비교하여 생성 분류기는 결합 분포 p(x, c)를 모델링한 다음 베이즈 정리를 사용하여 분류 확률을 도출합니다.
그 중 일반화를 위해 카테고리 사전 p(c)는 균등 분포로 설정되는 경우가 많으며, 픽셀 특성의 카테고리 조건부 분포 p(x|c)를 어떻게 모델링할지가 현재 주요 이슈가 됩니다.
이 기사에서는 GMMSeg에서 가우스 혼합 모델을 사용하여 p(x|c)를 모델링합니다. 그 형식은 다음과 같습니다. 제한적 의 경우. 이를 바탕으로 이 기사에서는 최대 우도 추정을 사용하여 모델 매개변수를 최적화합니다.
고전적인 솔루션은 EM 알고리즘, 즉 F 함수의 2단계 단계적 최적화인 E-M을 교대로 실행하는 것입니다. :
가우스 혼합 모델의 최적화에 특정합니다. EM 알고리즘은 실제로 데이터 포인트가 E-단계의 각 하위 모델에 속할 확률을 재추정합니다. 즉, E-단계에서 픽셀에 대해 소프트 클러스터링을 수행한 다음 M-단계에서 클러스터링 결과를 사용하여 모델 매개변수를 다시 업데이트할 수 있습니다.
그러나 실제 응용에서 저자는 표준 EM 알고리즘이 느리게 수렴되고 최종 결과가 좋지 않다는 것을 발견했습니다. 저자는 EM 알고리즘이 매개변수 최적화의 초기값에 너무 민감하여 더 나은 국지적 극단점으로 수렴하기 어렵다고 의심합니다. 최적 전송 이론을 기반으로 한 일련의 최신 클러스터링 알고리즘에서 영감을 받아 저자는 혼합 모델 분포에 앞서 추가 균일성을 도입합니다.
이에 따라 매개변수 최적화 프로세스의 E - 단계는 제약된 모델로 변환됩니다.
이 프로세스는 클러스터링 프로세스에 등분할 제약 조건을 도입하는 것으로 직관적으로 이해할 수 있습니다. 클러스터링 프로세스 중에 데이터 포인트를 결정할 수 있습니다. 정도는 각 하위 모델에 균등하게 분배됩니다. . 이 제약 조건을 도입한 후 이 최적화 프로세스는 다음 공식에 나열된 최적 전송 문제와 동일합니다.
이 공식은 Sinkhorn-Knopp 알고리즘을 사용하여 빠르게 풀 수 있습니다. 전체 개선된 최적화 프로세스는 Sinkhorn EM으로 명명되었으며, 이는 일부 이론적 작업을 통해 표준 EM 알고리즘과 동일한 전역 최적 솔루션을 가지며 로컬 최적 솔루션에 빠질 가능성이 적다는 것이 입증되었습니다.
이후 전체 최적화 프로세스에서 기사는 온라인 하이브리드 최적화 모드를 사용합니다. 생성적 Sinkhorn EM을 통해 점진적으로 업데이트되는 기능 공간에서 가우스 혼합 분류기가 지속적으로 최적화됩니다. 전체 프레임워크의 또 다른 부분인 픽셀 특징 추출 부분인 판별적 교차 엔트로피 손실은 생성 분류기의 예측 결과를 기반으로 최적화에 사용됩니다. 두 부분은 교대로 최적화되고 서로 정렬되어 전체 모델이 긴밀하게 결합되고 엔드 투 엔드 교육이 가능해집니다.
이 프로세스에서 특징 추출 부분은 그라데이션 역전파를 통해서만 최적화됩니다. 생성 분류 프로세서 부분은 SinkhornEM을 통해서만 최적화됩니다. 전체 모델을 콤팩트하게 통합하고 판별 모델과 생성 모델의 장점을 상속할 수 있는 것이 바로 이러한 교대 최적화 설계입니다.
결국 GMMSeg는 생성적 분류 아키텍처와 온라인 하이브리드 훈련 전략의 이점을 활용하여 차별적 소프트맥스 분류기가 갖지 못한 장점을 보여줍니다.
실험 결과는 CNN 아키텍처 기반이든 Transformer 아키텍처 기반이든 GMMSeg가 널리 사용되는 의미론적 분할 데이터 세트(ADE20K, Cityscapes, COCO-Stuff) 성능 향상에 대해 안정적이고 명확한 결과를 얻을 수 있음을 보여줍니다. .
또한 이상치 분할 작업에서는 닫힌 집합 작업에서 훈련된 모델을 수정할 필요가 없습니다. 즉, 일반 의미론적 분할 작업을 사용할 수 있습니다. 모든 일반적인 평가에서 지표 측면에서는 특별한 후처리가 필요한 다른 방법을 능가합니다.
위 내용은 생성적 의미 분할의 새로운 패러다임인 GMMSeg는 닫힌 집합 인식과 열린 집합 인식을 모두 처리할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!