한 번도 본 적이 없는 새로운 물체를 분할할 수도 있습니다.
DeepMind에서 개발한 새로운 학습 프레임워크입니다. 객체 검색 및 표현 네트워크(줄여서 Odin)
이전의 SSL(자기 지도 학습) 방법은 전체 장면을 잘 설명할 수 있지만 개별 개체를 구별합니다.
이제는 오딘 방식으로, 감독 없이도 해냅니다.
이미지에서 단일 개체를 구별하는 것은 쉽지 않습니다.
오딘 학습 프레임워크의 "자기 순환" 덕분에 이미지 속 다양한 개체를 잘 구분할 수 있습니다.
Odin은 함께 작동하는 두 가지 네트워크 세트, 즉 대상 검색 네트워크와 대상 표현 네트워크를 배웠습니다.
Object Discovery Network는 이미지의 잘린 부분을 입력으로 사용합니다. 잘린 부분은 이미지 영역의 대부분을 포함해야 하며, 이미지의 이 부분은 다른 측면에서 향상되지 않았습니다.
그런 다음 입력 이미지에서 생성된 특징 맵에 대해 클러스터 분석을 수행하고 다양한 특징에 따라 이미지의 각 개체를 분할합니다.
객체 표현 네트워크에 대한 입력 뷰는 객체 검색 네트워크에서 생성된 분할 이미지입니다.
뷰가 입력된 후 뒤집기, 흐리게 처리, 포인트 수준 색상 변환 등을 포함하여 별도로 무작위로 전처리됩니다.
이런 방법으로 두 세트의 마스크를 얻을 수 있습니다. 자르기의 차이점을 제외하고 다른 정보는 기본 이미지 내용과 동일합니다.
그런 다음 두 마스크는 대비 손실을 통해 이미지 속 물체를 더 잘 표현할 수 있는 기능을 학습합니다.
구체적으로, 대비 감지를 통해 네트워크는 다양한 대상 개체의 특성을 식별하도록 훈련되며, 관련 없는 다른 개체의 "부정적인" 특성도 많이 있습니다.
그런 다음 서로 다른 마스크에서 동일한 대상 개체의 유사성을 최대화하고 서로 다른 대상 개체 간의 유사성을 최소화한 다음 더 나은 분할을 수행하여 서로 다른 대상 개체를 구별합니다.
동시에 타겟 표현 네트워크의 매개변수를 기반으로 타겟 발견 네트워크가 정기적으로 업데이트됩니다.
궁극적인 목표는 이러한 객체 수준 속성이 다양한 뷰에서 대략 일정하게 유지되도록 하는 것입니다. 즉, 이미지에서 객체를 분리하는 것입니다.
그렇다면 Odin 학습 프레임워크는 얼마나 효과적인가요?
Odin 방법은 장면 분할 시 사전 지식 없이도 전이 학습 성능이 매우 강력합니다.
먼저 Odin 방법을 사용하여 ImageNet 데이터세트를 사전 훈련한 다음 COCO 데이터세트와 PASCAL 및 Cityscapes 의미론적 분할에 미치는 영향을 평가합니다.
대상 객체는 이미 알려져 있습니다. 즉, 장면 분할을 수행할 때 사전 지식을 획득하는 방법이 사전 지식을 획득하지 않는 다른 방법보다 훨씬 좋습니다.
오딘 방식은 사전 지식을 얻지 못하더라도 사전 지식을 얻는 DetCon이나 ReLICv2보다 효과가 좋습니다.
또한 Odin 방법은 ResNet 모델뿐만 아니라 Swim Transformer와 같은 보다 복잡한 모델에도 적용할 수 있습니다.
데이터 측면에서 Odin 프레임워크 학습의 장점은 명백합니다. 그렇다면 시각적 이미지에서 Odin의 장점은 어디에 반영됩니까?
Odin을 사용하여 생성된 분할 이미지를 ImageNet 감독 네트워크(4번째 열)인 무작위로 초기화된 네트워크(3번째 열)에서 얻은 이미지와 비교합니다.
3열과 4열 모두 물체의 경계를 명확하게 묘사하지 못하거나 실제 물체의 일관성과 지역성이 부족한 반면 Odin에서 생성된 이미지 효과는 확실히 더 좋습니다.
참조 링크:
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
위 내용은 알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!