Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

PHPz

Apr 08, 2023 pm 01:41 PM

Google모델

최근 Google AI 팀은 Transformer 및 DETR에서 영감을 받아 Mask Transformer를 사용하여 파노라마 분할을 위한 엔드 투 엔드 솔루션을 제안했습니다.

전체 이름은 주로 분할 MaskTransformer 아키텍처의 확장을 생성하는 데 사용되는 마스크 변환기를 사용한 팬옵틱 분할을 위한 엔드 투 엔드 솔루션입니다.

이 솔루션은 픽셀 특징을 추출하기 위한 픽셀 경로(컨벌루션 신경망 또는 시각적 Transformer로 구성), 메모리 특징을 추출하기 위한 메모리 경로(Transformer 디코더 모듈로 구성), 연결을 위한 이중 경로 Transformer를 사용합니다. 픽셀 기능과 메모리 대화형 기능 사이.

그러나 교차 어텐션을 활용하는 이중 경로 변환기는 원래 입력 순서가 수백 단어로 구성된 언어 작업을 위해 설계되었습니다.

비전 작업, 특히 분할 문제의 경우 입력 시퀀스는 수만 개의 픽셀로 구성됩니다. 이는 입력 규모의 크기가 훨씬 더 클 뿐만 아니라 언어 단어에 비해 낮은 수준의 임베딩을 나타냅니다.

파노라마 분할은 이제 많은 응용 프로그램에서 핵심 작업이 된 컴퓨터 비전 문제입니다.

의미론적 분할과 인스턴스 분할의 두 부분으로 나뉩니다.

의미론적 분할은 "사람", "하늘"과 같은 이미지의 각 픽셀에 의미론적 라벨을 할당하는 것과 같습니다.

인스턴스 분할은 "보행자", "자동차" 등 그래프에서 셀 수 있는 개체만 식별하고 분할한 다음 이를 여러 하위 작업으로 나눕니다.

각 하위 작업은 개별적으로 처리되며, 각 하위 작업 단계의 결과를 병합하기 위해 추가 모듈이 적용됩니다.

이 프로세스는 복잡할 뿐만 아니라 하위 작업을 처리하고 다양한 하위 작업의 결과를 통합할 때 인위적으로 설계된 사전 설정을 많이 도입합니다.

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

CVPR 2022에서 발표된 "CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation"에서 기사는 교차 주목을 클러스터링의 관점에서 재해석하고 재설계할 것을 제안합니다(즉, 동일한 의미 레이블을 픽셀로 그룹화하는 것). 함께) 비전 작업에 더 적합합니다.

CMT-DeepLab은 기존의 최첨단 방식인 MaX-DeepLab을 기반으로 픽셀 클러스터링 방식을 채택하여 교차 어텐션을 수행함으로써 더 조밀하고 합리적인 어텐션 맵을 생성합니다.

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

kMaX-DeepLab은 활성화 함수를 간단히 변경하여 k-평균 클러스터링 알고리즘과 유사하도록 교차 관심을 더욱 재설계합니다.

구조적 개요

연구원들은 수정 없이 시각적 작업에 교차 주의를 직접 적용하는 대신 클러스터링의 관점에서 재해석하게 됩니다.

구체적으로 그들은 Mask Transformer 객체 쿼리가 클러스터 중심(동일한 의미 라벨을 사용하여 픽셀을 그룹화하는 것을 목표로 함)으로 생각할 수 있다는 점에 주목합니다.

교차 주의 프로세스는 k-평균 클러스터링 알고리즘과 유사합니다. (1) 픽셀을 클러스터 중심에 할당하는 반복 프로세스로, 여러 픽셀이 단일 클러스터 중심에 할당될 수 있으며 일부 클러스터 중심은 없을 수 있습니다. (2) 동일한 클러스터 중심에 할당된 픽셀을 평균하여 클러스터 중심을 업데이트합니다. 할당된 픽셀이 없으면 클러스터 중심은 업데이트되지 않습니다.

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

CMT-DeepLab 및 kMaX-DeepLab에서는 반복적인 클러스터 할당 및 클러스터 업데이트 단계를 포함하는 클러스터링 관점에서 교차 관심을 재구성합니다.

k-평균 클러스터링 알고리즘을 고려하여 CMT-DeepLab의 인기도 , 그들은 공간 측면 소프트맥스 연산(즉, 이미지의 공간 해상도를 따라 적용되는 소프트맥스 연산)이 실제로 클러스터 중심 애플리케이션을 따라 반대쪽 픽셀에 클러스터 중심을 할당하도록 교차 주의를 재설계했습니다.

kMaX-DeepLab에서는 공간적 소프트맥스를 클러스터별 argmax로 더욱 단순화합니다(즉, 클러스터 중심을 따라 argmax 작업을 적용합니다).

그들은 argmax 연산이 k-평균 클러스터링 알고리즘에 사용되는 하드 할당(즉, 하나의 픽셀이 하나의 클러스터에만 할당됨)과 동일하다는 점에 주목합니다.

클러스터링 관점에서 MaskTransformer의 교차 관심을 재구성하면 분할 성능이 크게 향상되고 복잡한 MaskTransformer 파이프라인이 단순화되어 해석이 쉬워집니다.

먼저, 인코더-디코더 구조는 입력 이미지에서 픽셀 특징을 추출하는 데 사용됩니다. 그런 다음 픽셀은 클러스터 중심 세트를 사용하여 그룹화되며 클러스터 할당에 따라 추가로 업데이트됩니다. 마지막으로 클러스터 할당 및 업데이트 단계가 반복적으로 수행되며 마지막 할당은 분할 예측으로 직접 사용될 수 있습니다.

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

일반적인 MaskTransformer 디코더(Cross-Attention, Multi-Head Self-Attention 및 Feed-Forward 네트워크로 구성)를 위에서 제안한 k-평균 Cross-Attention으로 변환하려면 공간적으로 현명한 소프트맥스만 사용하면 됩니다. 클러스터 모드 최대 매개변수로 대체되었습니다.

이번에 제안한 kMaX-DeepLab의 메타 아키텍처는 픽셀 인코더, 향상된 픽셀 디코더, kMaX 디코더의 세 가지 구성 요소로 구성됩니다.

픽셀 인코더는 모든 네트워크의 백본이며 이미지 특징을 추출하는 데 사용됩니다.

향상된 픽셀 디코더에는 픽셀 기능을 향상시키는 변환기 인코더와 더 높은 해상도 기능을 생성하는 업샘플링 레이어가 포함되어 있습니다.

kMaX 디코더 시리즈는 클러스터 중심을 (1) 예측 마스크를 생성하기 위해 픽셀 특징과 곱해지는 마스크 임베딩 벡터와 (2) 각 마스크에 대한 클래스 예측으로 변환합니다.

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

kMaX-DeepLab의 메타 아키텍처

연구 결과

마지막으로 연구팀은 파노라마 품질(PQ) 지표를 사용하여 CMT-DeepLab과 kMaX-DeepLab을 평가하고 MaX-DeepLab을 다른 상태와 비교했습니다. - 최첨단 방법.

그 중 CMT-DeepLab은 상당한 성능 향상을 달성했으며, kMaX-DeepLab은 수정을 단순화했을 뿐만 아니라 더욱 개선했습니다. COCO Val 세트의 PQ는 58.0%, PQ는 68.4%, 마스크 평균입니다. 정확도는 테스트 시간 확대나 외부 데이터 세트 사용 없이 Cityscapes 검증 세트에서 AP ) 44.0%, 평균 교차점(mIoU) 83.5%였습니다.

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

클러스터링 관점에서 설계된 kMaX-DeepLab은 더 높은 성능을 제공할 뿐만 아니라 Attention Map을 보다 합리적으로 시각화하여 작동 메커니즘을 이해할 수 있습니다.

아래 예에서 kMaX-DeepLab은 클러스터 할당 및 업데이트를 반복적으로 수행하여 점차적으로 마스크 품질을 향상시킵니다.

Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.

kMaX-DeepLab의 어텐션 맵은 파노라마 분할로 직접 시각화될 수 있어 모델 작동 메커니즘을 더욱 합리적으로 만듭니다.

결론

이 연구는 비전 작업에서 MaskTransformer를 더 잘 설계하는 방법을 보여줍니다.

간단한 수정으로 CMT-DeepLab과 kMaX-DeepLab은 교차 관심을 재구성하여 클러스터링 알고리즘에 더 가깝게 만듭니다.

따라서 제안된 모델은 COCO 및 Cityscapes 데이터 세트에서 최첨단 성능을 달성합니다.

연구팀은 DeepLab2 라이브러리에 있는 kMaX-DeepLab의 오픈 소스 버전이 시각적 Transformer 아키텍처 설계에 대한 향후 연구에 기여할 수 있기를 희망한다고 밝혔습니다.

위 내용은 Google 팀은 파노라마 분할 솔루션을 최적화하기 위해 새로운 Transformer를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

무지의 베일 뒤에 직장 AI를 만들어야합니다.Apr 29, 2025 am 11:15 AM

존 롤스 (John Rawls)의 1971 년 책 The Justice의 이론에서 그는 오늘날의 AI 디자인의 핵심으로 취해야 할 사고 실험을 제안하고 의사 결정 : 무지의 베일을 제안했다. 이 철학은 형평성을 이해하기위한 간단한 도구를 제공하며 리더 가이 이해를 사용하여 AI를 공평한 방식으로 설계하고 구현할 수있는 청사진을 제공합니다. 새로운 사회에 대한 규칙을 만들고 있다고 상상해보십시오. 그러나 전제가 있습니다.이 사회에서 어떤 역할을할지 미리 알 수 없습니다. 당신은 부자 또는 가난하거나 건강하거나 장애가있을 수 있으며 다수 또는 소수의 소수에 속할 수 있습니다. 이 "무지의 베일"하에 운영되면 규칙 제조업체가 스스로 이익을 얻는 결정을 내리지 못하게합니다. 반대로, 사람들은 대중을 공식화하도록 더 동기를 부여받을 것입니다

결정, 결정… 실용적인 적용 AI를위한 다음 단계Apr 29, 2025 am 11:14 AM

수많은 회사들이 로봇 프로세스 자동화 (RPA)를 전문으로하며, 반복적 인 작업과 같은 반복적 인 작업 (어디서나 자동화, 파란색 프리즘 등)를 제공하는 봇을 제공합니다. 한편, 프로세스 마이닝, 오케스트레이션 및 지능형 문서 처리 Speciali

에이전트가오고 있습니다 - AI 파트너 옆에서 우리가 할 일에 대해 더 많이Apr 29, 2025 am 11:13 AM

AI의 미래는 간단한 단어 예측과 대화 시뮬레이션을 넘어서고 있습니다. AI 에이전트는 새로운 행동 및 작업 완료가 가능합니다. 이러한 변화는 이미 Anthropic의 Claude와 같은 도구에서 분명합니다. AI 요원 : 연구 a

AI 중심의 미래에 리더를위한 통제보다 공감이 더 중요한 이유Apr 29, 2025 am 11:12 AM

빠른 기술 발전은 미래의 업무에 대한 미래 지향적 인 관점을 필요로합니다. AI가 단순한 생산성 향상을 초월하고 사회적 구조를 형성하기 시작하면 어떻게됩니까? Topher McDougal의 다가오는 책인 Gaia Wakes :

제품 분류를위한 AI : 기계가 세법을 마스터 할 수 있습니까?Apr 29, 2025 am 11:11 AM

조화 시스템 (HS)과 같은 시스템의 "HS 8471.30"과 같은 복잡한 코드를 포함하는 제품 분류는 국제 무역 및 국내 판매에 중요합니다. 이 코드는 올바른 세금 신청을 보장하여 모든 inv에 영향을 미칩니다

데이터 센터 요구가 기후 기술 반등을 일으킬 수 있습니까?Apr 29, 2025 am 11:10 AM

데이터 센터 및 기후 기술 투자의 에너지 소비의 미래 이 기사는 AI가 주도하는 데이터 센터의 에너지 소비 급증과 기후 변화에 미치는 영향을 탐구 하고이 과제를 해결하기 위해 혁신적인 솔루션 및 정책 권장 사항을 분석합니다. 에너지 수요의 과제 : 대규모 및 초대형 스케일 데이터 센터는 수십만 명의 일반 북미 가족의 합과 비슷한 대규모 전력을 소비하며, AI 초반 규모 센터는 이보다 수십 배 더 많은 힘을 소비합니다. 2024 년 첫 8 개월 동안 Microsoft, Meta, Google 및 Amazon은 AI 데이터 센터의 건설 및 운영에 약 1,250 억 달러를 투자했습니다 (JP Morgan, 2024) (표 1). 에너지 수요 증가는 도전이자 기회입니다. 카나리아 미디어에 따르면 다가오는 전기

AI와 할리우드의 다음 황금 시대Apr 29, 2025 am 11:09 AM

생성 AI는 영화 및 텔레비전 제작을 혁신하고 있습니다. Luma의 Ray 2 모델과 활주로의 Gen-4, Openai의 Sora, Google의 VEO 및 기타 새로운 모델은 전례없는 속도로 생성 된 비디오의 품질을 향상시키고 있습니다. 이 모델은 복잡한 특수 효과와 현실적인 장면을 쉽게 만들 수 있으며 짧은 비디오 클립과 카메라로 인식 된 모션 효과조차도 달성되었습니다. 이러한 도구의 조작과 일관성은 여전히 개선되어야하지만 진행 속도는 놀랍습니다. 생성 비디오는 독립적 인 매체가되고 있습니다. 일부 모델은 애니메이션 제작에 능숙하고 다른 모델은 라이브 액션 이미지에 능숙합니다. Adobe 's Firefly와 Moonvalley's MA가

chatgpt가 천천히 AI의 가장 큰 예-맨이되고 있습니까?Apr 29, 2025 am 11:08 AM

ChatGpt 사용자 경험 감소 : 모델 저하 또는 사용자 기대치입니까? 최근에, 많은 ChatGpt 유료 사용자가 성능 저하에 대해 불평하여 광범위한 관심을 끌었습니다. 사용자는 모델에 대한 느린 반응, 짧은 답변, 도움 부족 및 더 많은 환각을보고했습니다. 일부 사용자는 소셜 미디어에 대한 불만을 표명했으며 Chatgpt가“너무 아첨”이되었으며 중요한 피드백을 제공하기보다는 사용자보기를 확인하는 경향이 있습니다. 이는 사용자 경험에 영향을 줄뿐만 아니라 생산성 감소 및 컴퓨팅 리소스 낭비와 같은 회사 고객에게 실제 손실을 가져옵니다. 성능 저하의 증거 많은 사용자들이 ChatGpt 성능, 특히 GPT-4와 같은 이전 모델 (이번 달 말에 서비스에서 곧 중단 될 예정)에서 상당한 악화를보고했습니다. 이것

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.