이달 초 메타가 출시한 '모든 것을 분할' 모델이 CV계 전체에 충격을 안겼다.
지난 며칠간 "Relate-Anything-Model(RAM)"이라는 머신러닝 모델이 등장했습니다. 이는 SAM(Segment Anything Model)에 다양한 시각적 개념 간의 다양한 시각적 관계를 식별하는 기능을 제공합니다.
이 모델은 난양 공과 대학의 MMLab 팀과 King's College London 및 Tongji University의 VisCom Laboratory 학생들이 여가 시간에 개발한 것으로 이해됩니다.
데모 주소: https://huggingface.co/spaces/mmlab-ntu/relate-anything-model
코드 주소: https://github.com/ Luodian/RelateAnything
데이터 세트 주소: https://github.com/Jingkang50/OpenPSG
먼저 "Relate-Anything-Model(RAM)을 살펴보겠습니다. " 응용 사례!
예를 들어 축구, 춤, 친구 사귀기 등 RAM 모델 구현에 대한 다음 이미지 분석 결과는 매우 인상적이며 모델의 뛰어난 성능과 다양한 응용 분야에 대한 잠재력을 잘 보여줍니다.
RAM 모델 기반 ECCV'22 SenseHuman Workshop & 국제 알고리즘 예시 공모전 '팬옵틱 장면 그래프(Panoptic Scene Graph)' Generation' 트랙 챔피언십 프로그램.
문서 주소: https://arxiv.org/abs/2302.02651
PSG 챌린지는 상금 100만 달러를 기록했으며, 전 세계 100개 팀에서 다양한 솔루션을 제출했습니다. 솔루션에는 고급 이미지 분할 방법 사용과 롱테일 문제 해결이 포함됩니다. 또한 대회에서는 장면 그래프별 데이터 증대 기술과 같은 몇 가지 혁신적인 방법도 받았습니다.
평가 결과, 성능 지표, 솔루션의 참신함, 중요성 등을 고려하여 Xiaohongshu 팀의 GRNet이 승리 방법으로 두각을 나타냈습니다.
대회 세부 정보: https://github.com/Jingkang50/OpenPSG
솔루션을 소개하기 전에 먼저 두 가지 고전적인 PSG 기준 방법을 소개합니다. 그 중 하나는 2단계 방법과 다른 하나는 단일 단계 방법이다.
2단계 기준 방법의 경우 그림 a에 표시된 대로 첫 번째 단계에서는 사전 훈련된 파노라마 분할 모델 Panoptic FPN을 사용하여 이미지에서 특징, 분할 및 분류 예측을 추출합니다. 그런 다음 각 개별 객체의 특징은 두 번째 단계에서 PSG 작업에 적합한 장면 그래프 생성을 위해 IMP와 같은 고전적인 장면 그래프 생성기에 공급됩니다. 이 2단계 접근 방식을 사용하면 최소한의 수정만으로 기존 SGG 방법을 PSG 작업에 적용할 수 있습니다.
그림 b에 표시된 것처럼 단일 단계 기준 방법 PSGTR은 먼저 CNN을 사용하여 이미지 특징을 추출한 다음 DETR과 유사한 변환기 인코더-디코더를 사용하여 삼중 표현을 직접 학습합니다. 헝가리어 매처는 예측된 트리플과 실제 트리플을 비교하는 데 사용됩니다. 그런 다음 최적화 목표는 매처 계산 비용을 최대화하는 것이며 레이블링 및 분할을 위해 교차 엔트로피 DICE/F-1 손실을 사용하여 총 손실을 계산합니다.
RAM 모델의 설계 과정에서 저자는 PSG 챔피언 솔루션 GRNet의 2단계 구조 패러다임을 참조했습니다. 원래 PSG 기사의 연구에서는 단일 단계 모델이 현재 2단계 모델보다 더 나은 성능을 발휘하는 것으로 나타났지만 단일 단계 모델은 2단계 모델만큼 우수한 분할 성능을 달성할 수 없는 경우가 많습니다.
다양한 모델 구조를 관찰한 후 관계 삼중 예측에서 단일 단계 모델의 뛰어난 성능은 관계 캡처에 유익한 이미지 특징 맵의 직접적인 감독 신호 때문일 수 있다고 추측됩니다.
이러한 관찰을 바탕으로 GRNet과 같은 RAM의 설계는 두 가지 모드 사이의 절충점을 찾는 것을 목표로 하며, 이는 2단계 패러다임에 초점을 맞추고 글로벌 획득 기능을 제공함으로써 달성됩니다. 단일 단계 패러다임과 유사한 맥락입니다.
구체적으로, SAM(Segment Anything Model)은 먼저 이미지의 객체를 식별하고 분할하기 위한 특징 추출기로 사용되며, SAM 분할기의 특정 객체에 대한 중간 특징 맵은 해당 분할과 융합되어 객체 수준 특성을 얻습니다.
이후 Transformer를 전역 컨텍스트 모듈로 사용하고, 획득된 객체 수준 특징을 선형 매핑 후 입력합니다. Transformer 인코더의 교차 주의 메커니즘을 통해 출력 객체 기능은 다른 객체로부터 더 많은 전역 정보를 수집합니다.
마지막으로 Transformer가 출력하는 각 개체 수준 기능에 대해 self-attention 메커니즘을 사용하여 상황별 정보를 더욱 풍부하게 하고 각 개체 간의 상호 작용을 완성합니다.
객체의 카테고리를 나타내기 위해 여기에 카테고리 임베딩도 추가되어 객체 쌍과 그 관계에 대한 예측이 얻어집니다.
학습 과정에서 각 관계 범주에 대해 관계 이진 분류 작업을 수행하여 개체 쌍 사이에 관계가 존재하는지 확인해야 합니다.
GRNet과 유사하게 관계형 이진 분류 작업에 대해 몇 가지 특별한 고려 사항이 있습니다. 예를 들어, PSG 데이터 세트에는 일반적으로 "사람들이 코끼리를 본다"와 "코끼리에게 먹이를 주는 사람들"과 같은 다중 관계가 동시에 존재하는 두 개의 개체가 포함됩니다. 다중 레이블 문제를 해결하기 위해 저자는 관계 예측을 단일 레이블 분류 문제에서 다중 레이블 분류 문제로 변환합니다.
게다가 PSG 데이터 세트는 주석자가 구체적이고 정확한 술어(예: 보다 일반적인 "at" 대신 "stop at")를 선택하도록 요구하여 정확성과 관련성을 추구하므로 학습 경계에 적합하지 않을 수 있습니다. 관계(예를 들어 "in"은 실제로 "stop at"과 동시에 존재합니다). 이 문제를 해결하기 위해 RAM은 관계 분류를 위해 자체 증류 레이블을 사용하고 지수 이동 평균을 사용하여 레이블을 동적으로 업데이트하는 자체 학습 전략을 채택합니다.
관계형 이진 분류 손실을 계산할 때 각 예측 객체는 해당하는 Ground Truth 객체와 쌍을 이루어야 합니다. 이를 위해 헝가리어 매칭 알고리즘이 사용됩니다.
그러나 이 알고리즘은 특히 네트워크 정확도가 낮은 초기 훈련 단계에서 불안정하기 쉽습니다. 이로 인해 동일한 입력에 대해 서로 다른 일치 결과가 발생하여 네트워크 최적화 방향이 일관되지 않고 훈련이 더 어려워질 수 있습니다.
RAM에서는 이전 솔루션과 달리 작성자가 강력한 SAM 모델의 도움으로 거의 모든 그림을 완전하고 세부적으로 분할할 수 있습니다. 따라서 예측과 GT를 일치시키는 과정에서 RAM이 자연스럽게 설계됩니다. 새로운 GT 매칭 방법: PSG 데이터세트를 사용하여 모델을 학습합니다.
각 훈련 이미지에 대해 SAM은 여러 객체를 분할하지만 PSG의 GT(Ground Truth) 마스크와 일치하는 객체는 소수에 불과합니다. 저자는 거의 모든 GT 마스크가 SAM 마스크에 할당되도록 IOU(교차 결합) 점수를 기반으로 단순 매칭을 수행합니다. 이후 저자는 모델의 예측과 자연스럽게 일치하는 SAM 마스크를 기반으로 관계 다이어그램을 다시 생성했습니다.
RAM 모델에서 저자는 SAM(Segment Anything Model)을 사용하여 이미지 속 개체를 식별 및 분할하고, 분할된 각 개체의 특징을 추출합니다. 그런 다음 Transformer 모듈은 분할된 개체 간에 상호 작용하여 새로운 기능을 얻는 데 사용됩니다. 마지막으로 이러한 특징을 카테고리에 포함시킨 후 예측 결과는 self-attention 메커니즘을 통해 출력됩니다.
특히, 저자는 학습 과정에서 새로운 GT 매칭 방법을 제안하고, 이 방법을 기반으로 예측과 GT 간의 페어링 관계를 계산하고 상호 관계를 분류합니다. 관계 분류의 지도 학습 과정에서 저자는 이를 다중 레이블 분류 문제로 간주하고 레이블의 경계 관계를 학습하기 위한 자체 학습 전략을 채택합니다.
마지막으로 RAM 모델이 여러분에게 더 많은 영감과 혁신을 가져다 줄 수 있기를 바랍니다. 관계를 찾을 수 있는 기계 학습 모델을 훈련하고 싶다면 이 팀의 작업을 따르고 언제든지 피드백과 제안을 제공할 수 있습니다.
프로젝트 주소: https://github.com/Jingkang50/OpenPSG
위 내용은 NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!