NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!-일체 포함-php.cn

집

기술 주변기기

일체 포함

NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!

王林

May 10, 2023 am 10:22 AM

ai모델

이달 초 메타가 출시한 '모든 것을 분할' 모델이 CV계 전체에 충격을 안겼다.

지난 며칠간 "Relate-Anything-Model(RAM)"이라는 머신러닝 모델이 등장했습니다. 이는 SAM(Segment Anything Model)에 다양한 시각적 개념 간의 다양한 시각적 관계를 식별하는 기능을 제공합니다.

이 모델은 난양 공과 대학의 MMLab 팀과 King's College London 및 Tongji University의 VisCom Laboratory 학생들이 여가 시간에 개발한 것으로 이해됩니다.

NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!

데모 주소: https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

코드 주소: https://github.com/ Luodian/RelateAnything

데이터 세트 주소: https://github.com/Jingkang50/OpenPSG

Effect Demonstration

먼저 "Relate-Anything-Model(RAM)을 살펴보겠습니다. " 응용 사례!

예를 들어 축구, 춤, 친구 사귀기 등 RAM 모델 구현에 대한 다음 이미지 분석 결과는 매우 인상적이며 모델의 뛰어난 성능과 다양한 응용 분야에 대한 잠재력을 잘 보여줍니다.

NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!

기본 지식: 전체 장면 그래프 생성 PSG 작업

RAM 모델 기반 ECCV'22 SenseHuman Workshop & 국제 알고리즘 예시 공모전 '팬옵틱 장면 그래프(Panoptic Scene Graph)' Generation' 트랙 챔피언십 프로그램.

NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!

문서 주소: https://arxiv.org/abs/2302.02651

PSG 챌린지는 상금 100만 달러를 기록했으며, 전 세계 100개 팀에서 다양한 솔루션을 제출했습니다. 솔루션에는 고급 이미지 분할 방법 사용과 롱테일 문제 해결이 포함됩니다. 또한 대회에서는 장면 그래프별 데이터 증대 기술과 같은 몇 가지 혁신적인 방법도 받았습니다.

평가 결과, 성능 지표, 솔루션의 참신함, 중요성 등을 고려하여 Xiaohongshu 팀의 GRNet이 승리 방법으로 두각을 나타냈습니다.

NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!

대회 세부 정보: https://github.com/Jingkang50/OpenPSG

솔루션을 소개하기 전에 먼저 두 가지 고전적인 PSG 기준 방법을 소개합니다. 그 중 하나는 2단계 방법과 다른 하나는 단일 단계 방법이다.

2단계 기준 방법의 경우 그림 a에 표시된 대로 첫 번째 단계에서는 사전 훈련된 파노라마 분할 모델 Panoptic FPN을 사용하여 이미지에서 특징, 분할 및 분류 예측을 추출합니다. 그런 다음 각 개별 객체의 특징은 두 번째 단계에서 PSG 작업에 적합한 장면 그래프 생성을 위해 IMP와 같은 고전적인 장면 그래프 생성기에 공급됩니다. 이 2단계 접근 방식을 사용하면 최소한의 수정만으로 기존 SGG 방법을 PSG 작업에 적용할 수 있습니다.

그림 b에 표시된 것처럼 단일 단계 기준 방법 PSGTR은 먼저 CNN을 사용하여 이미지 특징을 추출한 다음 DETR과 유사한 변환기 인코더-디코더를 사용하여 삼중 표현을 직접 학습합니다. 헝가리어 매처는 예측된 트리플과 실제 트리플을 비교하는 데 사용됩니다. 그런 다음 최적화 목표는 매처 계산 비용을 최대화하는 것이며 레이블링 및 분할을 위해 교차 엔트로피 DICE/F-1 손실을 사용하여 총 손실을 계산합니다.

NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!

RAM 모델 아키텍처

RAM 모델의 설계 과정에서 저자는 PSG 챔피언 솔루션 GRNet의 2단계 구조 패러다임을 참조했습니다. 원래 PSG 기사의 연구에서는 단일 단계 모델이 현재 2단계 모델보다 더 나은 성능을 발휘하는 것으로 나타났지만 단일 단계 모델은 2단계 모델만큼 우수한 분할 성능을 달성할 수 없는 경우가 많습니다.

다양한 모델 구조를 관찰한 후 관계 삼중 예측에서 단일 단계 모델의 뛰어난 성능은 관계 캡처에 유익한 이미지 특징 맵의 직접적인 감독 신호 때문일 수 있다고 추측됩니다.

이러한 관찰을 바탕으로 GRNet과 같은 RAM의 설계는 두 가지 모드 사이의 절충점을 찾는 것을 목표로 하며, 이는 2단계 패러다임에 초점을 맞추고 글로벌 획득 기능을 제공함으로써 달성됩니다. 단일 단계 패러다임과 유사한 맥락입니다.

구체적으로, SAM(Segment Anything Model)은 먼저 이미지의 객체를 식별하고 분할하기 위한 특징 추출기로 사용되며, SAM 분할기의 특정 객체에 대한 중간 특징 맵은 해당 분할과 융합되어 객체 수준 특성을 얻습니다.

이후 Transformer를 전역 컨텍스트 모듈로 사용하고, 획득된 객체 수준 특징을 선형 매핑 후 입력합니다. Transformer 인코더의 교차 주의 메커니즘을 통해 출력 객체 기능은 다른 객체로부터 더 많은 전역 정보를 수집합니다.

마지막으로 Transformer가 출력하는 각 개체 수준 기능에 대해 self-attention 메커니즘을 사용하여 상황별 정보를 더욱 풍부하게 하고 각 개체 간의 상호 작용을 완성합니다.

객체의 카테고리를 나타내기 위해 여기에 카테고리 임베딩도 추가되어 객체 쌍과 그 관계에 대한 예측이 얻어집니다.

RAM 관계 분류

학습 과정에서 각 관계 범주에 대해 관계 이진 분류 작업을 수행하여 개체 쌍 사이에 관계가 존재하는지 확인해야 합니다.

GRNet과 유사하게 관계형 이진 분류 작업에 대해 몇 가지 특별한 고려 사항이 있습니다. 예를 들어, PSG 데이터 세트에는 일반적으로 "사람들이 코끼리를 본다"와 "코끼리에게 먹이를 주는 사람들"과 같은 다중 관계가 동시에 존재하는 두 개의 개체가 포함됩니다. 다중 레이블 문제를 해결하기 위해 저자는 관계 예측을 단일 레이블 분류 문제에서 다중 레이블 분류 문제로 변환합니다.

게다가 PSG 데이터 세트는 주석자가 구체적이고 정확한 술어(예: 보다 일반적인 "at" 대신 "stop at")를 선택하도록 요구하여 정확성과 관련성을 추구하므로 학습 경계에 적합하지 않을 수 있습니다. 관계(예를 들어 "in"은 실제로 "stop at"과 동시에 존재합니다). 이 문제를 해결하기 위해 RAM은 관계 분류를 위해 자체 증류 레이블을 사용하고 지수 이동 평균을 사용하여 레이블을 동적으로 업데이트하는 자체 학습 전략을 채택합니다.

RAM의 다른 설계

관계형 이진 분류 손실을 계산할 때 각 예측 객체는 해당하는 Ground Truth 객체와 쌍을 이루어야 합니다. 이를 위해 헝가리어 매칭 알고리즘이 사용됩니다.

그러나 이 알고리즘은 특히 네트워크 정확도가 낮은 초기 훈련 단계에서 불안정하기 쉽습니다. 이로 인해 동일한 입력에 대해 서로 다른 일치 결과가 발생하여 네트워크 최적화 방향이 일관되지 않고 훈련이 더 어려워질 수 있습니다.

RAM에서는 이전 솔루션과 달리 작성자가 강력한 SAM 모델의 도움으로 거의 모든 그림을 완전하고 세부적으로 분할할 수 있습니다. 따라서 예측과 GT를 일치시키는 과정에서 RAM이 자연스럽게 설계됩니다. 새로운 GT 매칭 방법: PSG 데이터세트를 사용하여 모델을 학습합니다.

각 훈련 이미지에 대해 SAM은 여러 객체를 분할하지만 PSG의 GT(Ground Truth) 마스크와 일치하는 객체는 소수에 불과합니다. 저자는 거의 모든 GT 마스크가 SAM 마스크에 할당되도록 IOU(교차 결합) 점수를 기반으로 단순 매칭을 수행합니다. 이후 저자는 모델의 예측과 자연스럽게 일치하는 SAM 마스크를 기반으로 관계 다이어그램을 다시 생성했습니다.

RAM 모델 요약

RAM 모델에서 저자는 SAM(Segment Anything Model)을 사용하여 이미지 속 개체를 식별 및 분할하고, 분할된 각 개체의 특징을 추출합니다. 그런 다음 Transformer 모듈은 분할된 개체 간에 상호 작용하여 새로운 기능을 얻는 데 사용됩니다. 마지막으로 이러한 특징을 카테고리에 포함시킨 후 예측 결과는 self-attention 메커니즘을 통해 출력됩니다.

특히, 저자는 학습 과정에서 새로운 GT 매칭 방법을 제안하고, 이 방법을 기반으로 예측과 GT 간의 페어링 관계를 계산하고 상호 관계를 분류합니다. 관계 분류의 지도 학습 과정에서 저자는 이를 다중 레이블 분류 문제로 간주하고 레이블의 경계 관계를 학습하기 위한 자체 학습 전략을 채택합니다.

마지막으로 RAM 모델이 여러분에게 더 많은 영감과 혁신을 가져다 줄 수 있기를 바랍니다. 관계를 찾을 수 있는 기계 학습 모델을 훈련하고 싶다면 이 팀의 작업을 따르고 언제든지 피드백과 제안을 제공할 수 있습니다.

NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!

프로젝트 주소: https://github.com/Jingkang50/OpenPSG

위 내용은 NTU는 Meta를 사용하여 모든 것을 분할하여 관계를 얻는 새로운 RAM 모델을 제안했으며 노래하고 춤추는 몰래 공격 효과가 뛰어납니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Apr 27, 2025 am 09:20 AM

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.