지금 Meta AI는 이미지 분할을 위한 최초의 기본 모델인 SAM(Segment Anything Model)을 출시했습니다.
SAM은 사진이나 비디오의 모든 개체를 한 번의 클릭으로 분할할 수 있으며 샘플이 없는 다른 작업으로 마이그레이션할 수 있습니다.
전반적으로 SAM은 기본 모델의 아이디어를 따릅니다:
1 텍스트, 키포인트, 경계 상자 등 다중 모드 프롬프트를 처리할 수 있는 매우 간단하지만 확장 가능한 아키텍처입니다.
2. 모델 디자인과 밀접하게 연결된 직관적인 주석 프로세스.
3. 모델이 레이블이 지정되지 않은 다수의 이미지에 부트스트랩될 수 있도록 하는 데이터 플라이휠입니다.
그리고 SAM은 알 수 없는 물체, 낯선 장면(수중, 현미경 등), 모호한 경우에도 "물체"에 대한 일반적인 개념을 배웠다고 해도 과언이 아닙니다.
또한 SAM은 새로운 작업, 새로운 분야로 일반화될 수도 있으며, 실무자는 더 이상 모델을 직접 미세 조정할 필요가 없습니다.
논문 주소: https://ai.facebook.com/research/publications/segment-anything/
가장 강력한 점은 Meta가 완전히 다른 CV 패러다임을 구현한다는 것입니다. 프레임워크 프롬프트 인코더에서 점, 경계 상자 및 문장을 지정하여 한 번의 클릭으로 개체를 직접 분할할 수 있습니다.
이와 관련하여 Tencent AI 알고리즘 전문가 Jin Tian은 "NLP 분야의 신속한 패러다임이 CV 분야로 확장되기 시작했습니다. 그리고 이번에는 CV의 전통적인 예측 사고를 완전히 바꿀 수 있습니다. 이번에는 모델을 사용하면 모든 개체를 동적으로 분할할 수 있습니다!"
NVIDIA AI 과학자 Jim Fan은 다음과 같이 칭찬하기도 했습니다. 우리는 컴퓨터 비전 분야에서 "GPT-3 순간"에 도달했습니다!
그럼 이력서는 이제 정말 존재하지 않는다는 건가요?
SAM: 한 번의 클릭으로 모든 이미지의 모든 객체를 "잘라내기"
Segment Anything은 이미지 분할 전용 최초의 기본 모델입니다.
분할은 어떤 이미지 픽셀이 객체에 속하는지 식별하는 것을 의미하며 항상 컴퓨터 비전의 핵심 작업이었습니다.
그러나 특정 작업에 대한 정확한 분할 모델을 생성하려면 일반적으로 전문가의 고도로 전문화된 작업이 필요합니다. 이 프로세스에는 AI 훈련 인프라와 신중하게 분류된 대량의 도메인 내 데이터가 필요하므로 임계값은 다음과 같습니다. 매우 높습니다.
이 문제를 해결하기 위해 Meta는 Image Segmentation의 기본 모델인 SAM을 제안했습니다. 다양한 데이터에 대해 훈련된 이 힌트 가능 모델은 다양한 작업에 적응할 수 있을 뿐만 아니라 NLP 모델에서 힌트가 사용되는 방식과 유사하게 작동합니다.
SAM 모델은 "객체란 무엇인가"라는 개념을 파악하고 이미지나 비디오의 모든 객체에 대한 마스크를 생성할 수 있습니다. 훈련 중에 보지 못한 객체도 마찬가지입니다.
SAM은 매우 다재다능하여 다양한 사용 사례를 포괄하며 수중 사진이든 세포 현미경이든 추가 교육 없이 즉시 새로운 이미징 영역에 사용할 수 있습니다. 즉, SAM에는 이미 제로 샘플 마이그레이션 기능이 있습니다.
Meta는 블로그에서 다음과 같이 신나게 말했습니다. 미래에는 이미지에서 객체를 찾고 분할해야 하는 모든 애플리케이션에 SAM이 사용될 것으로 예상할 수 있습니다.
SAM은 웹 페이지의 시각적 및 텍스트 콘텐츠 이해와 같이 세상에 대한 보다 일반적인 다중 모드 이해를 개발하기 위해 더 큰 AI 시스템의 일부가 될 수 있습니다.
AR/VR 분야에서 SAM은 사용자의 시선을 기반으로 개체를 선택한 다음 개체를 3D로 "업그레이드"할 수 있습니다.
콘텐츠 제작자를 위해 SAM은 콜라주 또는 비디오 편집을 위해 이미지 영역을 추출할 수 있습니다.
SAM은 또한 동영상에서 동물이나 물체를 찾고 추적하여 자연 과학 및 천문학 연구에 도움을 줄 수 있습니다.
과거에는 분할 문제를 해결하는 방법이 두 가지였습니다.
One은 모든 카테고리의 개체를 분할할 수 있지만 반복을 통해 마스크를 미세 조정해야 하는 대화형 분할입니다.
두 번째는 자동 분할로, 미리 정의된 특정 객체를 분할할 수 있지만 훈련 과정에는 객체에 대한 수동 주석이 많이 필요합니다(예: 고양이를 분할하려면 수천 개의 예가 필요함).
요컨대, 이 두 가지 방법 중 어느 것도 보편적인 완전 자동 분할 방법을 제공할 수 없습니다.
그리고 SAM은 이 두 가지 방법을 일반화한 것으로 볼 수 있으며, 대화형 분할과 자동 분할을 쉽게 수행할 수 있습니다.
모델의 프롬프트 가능한 인터페이스에서는 모델에 대한 올바른 프롬프트(클릭, 상자, 텍스트 등)를 간단히 디자인하여 광범위한 세분화 작업을 완료할 수 있습니다.
또한 SAM은 10억 개가 넘는 마스크가 포함된 다양한 고품질 데이터 세트에 대해 교육을 받았기 때문에 모델이 교육 중에 관찰한 것 이상으로 새로운 객체와 이미지를 일반화할 수 있습니다. 결과적으로 실무자는 더 이상 사용 사례에 맞게 모델을 미세 조정하기 위해 자체 분할 데이터를 수집할 필요가 없습니다.
새로운 작업, 새로운 분야에 일반화할 수 있는 이러한 유연성은 이미지 분할 분야에서는 처음입니다.
(1) SAM을 사용하면 사용자는 한 번의 클릭으로 개체를 분할하거나 여러 지점을 대화형으로 클릭할 수 있으며 모델에 대한 경계 상자 힌트를 사용할 수도 있습니다.
(2) 분할된 객체의 모호함에 직면했을 때 SAM은 여러 개의 유효한 마스크를 출력할 수 있는데, 이는 현실 세계에서 분할 문제를 해결하는 데 필수적인 기능입니다.
(3) SAM은 이미지의 모든 개체를 자동으로 검색하고 차단할 수 있습니다. (4) 이미지 임베딩을 미리 계산한 후 SAM은 모든 프롬프트에 대해 실시간으로 분할 마스크를 생성할 수 있으므로 사용자는 실시간으로 모델과 상호 작용할 수 있습니다.
연구원이 훈련한 SAM은 모든 프롬프트에 대해 유효한 분할 마스크를 반환할 수 있습니다. 단서는 전경/배경 지점, 대략적인 상자 또는 마스크, 자유 형식 텍스트 또는 일반적으로 분할이 필요함을 나타내는 이미지의 모든 정보일 수 있습니다.
유효한 마스크에 대한 요구 사항은 단순히 힌트가 모호하고 여러 개체를 참조할 수 있는 경우에도(예: 셔츠의 점이 셔츠나 셔츠를 입은 사람을 나타낼 수 있음) 출력이 다음과 같아야 함을 의미합니다. 그 개체 중 하나는 합리적인 마스크입니다.
연구원들은 사전 훈련 작업과 대화형 데이터 수집이 모델 설계에 특정한 제약을 가한다는 것을 관찰했습니다.
특히 표준 직원이 주석을 위해 실시간으로 SAM과 효율적으로 상호 작용할 수 있도록 모델은 웹 브라우저의 CPU에서 실시간으로 실행되어야 합니다.
런타임 제약으로 인해 품질과 런타임 사이에 상충 관계가 있음을 의미하지만 연구원들은 실제로 단순한 디자인이 좋은 결과를 얻을 수 있다는 것을 발견했습니다.
SAM의 이미지 인코더는 이미지에 대한 일회성 임베딩을 생성하는 반면, 경량 디코더는 모든 힌트를 즉시 벡터 임베딩으로 변환합니다. 이 두 가지 정보 소스는 분할 마스크를 예측하는 경량 디코더에 결합됩니다.
이미지 삽입을 계산한 후 SAM은 단 50밀리초 만에 이미지 조각을 생성하고 웹 브라우저에 메시지를 표시할 수 있습니다.
최신 SAM 모델은 68시간(거의 5일) 동안 256개의 A100 이미지에 대해 학습되었습니다.
프로젝트 데모
이미지에서 분할할 콘텐츠를 지정하라는 프롬프트를 사용하면 추가 교육 없이도 다양한 분할 작업을 수행할 수 있습니다.
대화형 점과 상자를 프롬프트로 사용
자동으로 이미지의 모든 요소 분할
은 모호합니다. 프롬프트 생성 여러 개의 유효한 마스크
SAM은 다른 시스템의 입력 프롬프트를 받아들일 수 있습니다.
예를 들어 AR/VR 헤드셋에서 사용자의 시각적 초점 정보를 기반으로 해당 개체를 선택합니다. 현실 세계를 이해할 수 있는 메타의 AI 개발은 메타버스로의 미래 여정의 기반을 마련할 것입니다.
또는 객체 감지기의 경계 상자 힌트를 사용하여 텍스트-객체 분할을 구현합니다.
출력 마스크는 다른 AI 시스템에 대한 입력으로 사용될 수 있습니다.
예를 들어, 영상에서 물체의 마스크를 추적하거나, 이미지 편집 애플리케이션을 통해 3D로 변환하거나, 콜라주와 같은 창의적인 작업에 사용할 수 있습니다.
SAM은 객체가 무엇인지에 대한 일반적인 아이디어를 학습합니다. 이러한 이해를 통해 익숙하지 않은 객체와 이미지에 대해 제로샷 일반화를 할 수 있습니다. 훈련이 필요합니다.
마스크 추가를 클릭하면 녹색 화면이 나타납니다. 클릭하면 제거를 클릭하면 빨간색 점이 나타납니다. 지역, 사과의 Huahua를 먹으면 즉시 동그라미가 쳐졌습니다.
박스 기능에서 박스를 선택하기만 하면 바로 인식이 완료됩니다.
모두를 클릭하면 시스템에서 인식한 모든 개체가 즉시 추출됩니다.
컷아웃을 선택하면 몇 초 안에 삼각형 만두가 나옵니다.
Meta는 새로운 모델 출시 외에도 현재까지 가장 큰 분할 데이터 세트인 SA-1B도 출시했습니다.
이 데이터 세트는 1,100만 개의 다양한 고해상도 개인 정보 보호 이미지와 11억 개의 고품질 분할 마스크로 구성됩니다.
데이터세트의 전체적인 특징은 다음과 같습니다.
· 총 이미지 수: 1100만
· 총 마스크 수: 11억
· 이미지당 평균 마스크 수: 100
· 평균 이미지 해상도: 1500 × 2250 픽셀
참고: 이미지 또는 마스크 주석에는 클래스 레이블이 없습니다.
Meta는 이러한 데이터가 데이터 엔진을 통해 수집되며 모든 마스크는 SAM에 의해 완전히 생성된다는 점을 강조합니다. 자동으로 생성되었습니다.
SAM 모델을 사용하면 새로운 분할 마스크를 수집하는 속도가 그 어느 때보다 빨라지고 대화형으로 마스크에 주석을 추가하는 데 약 14초밖에 걸리지 않습니다.
마스크별 주석 프로세스는 경계 상자에 주석을 추가하는 것보다 2배만 느립니다. 가장 빠른 주석 인터페이스를 사용하면 경계 상자에 주석을 다는 데 약 7초가 걸립니다.
SAM 모델 COCO의 완전 수동 다각형 기반 마스크 주석은 이전의 대규모 분할 데이터 수집 노력보다 6.5배 빠르며 이전 최대 데이터 주석 노력(모델 지원)보다 2배 빠릅니다.
그러나 대화형 주석 마스크에 의존하는 것만으로는 10억 개 이상의 마스크된 데이터세트를 생성하는 데 충분하지 않습니다. 따라서 Meta는 SA-1B 데이터 세트를 생성하기 위한 데이터 엔진을 구축했습니다.
이 데이터 엔진에는 세 가지 "기어"가 있습니다.
1. 모델 보조 주석
2 완전 자동 주석과 보조 주석의 혼합은 수집된 마스크의 다양성을 높이는 데 도움이 됩니다.
3 . 완전 자동화된 마스크 생성으로 데이터 세트 확장 가능
최종 데이터 세트에는 약 1,100만 개의 승인된 개인 정보 보호 이미지에서 수집된 11억 개 이상의 분할 마스크가 포함되어 있습니다.
SA-1B에는 기존 분할 데이터 세트보다 400배 더 많은 마스크가 있습니다. 그리고 인간 평가 연구에 따르면 마스크의 품질과 다양성이 높으며 경우에 따라 완전히 수동으로 주석이 달린 더 작은 데이터 세트의 이전 마스크와 질적으로 비교할 수도 있습니다.
SA-1B의 이미지는 다양한 지역과 소득 수준에 걸쳐 여러 국가의 사진 제공업체를 통해 얻은 것입니다.
일부 지역은 여전히 과소 대표되지만 SA-1B는 이전 분할 데이터 세트보다 모든 지역에서 더 많은 이미지와 더 나은 전체 표현을 제공합니다.
마지막으로 Meta는 이 데이터가 각 마스크와 관련된 텍스트 설명과 같은 추가 주석을 포함하는 새로운 데이터 세트의 기초를 형성할 수 있기를 희망한다고 말합니다.
Ross Girshick
Ross Girshick(종종 RBG 마스터라고도 함)은 FAIR(Facebook Artificial Intelligence Research)의 연구 과학자입니다. 컴퓨터 비전과 머신러닝.
2012년 Ross Girshick은 Pedro Felzenszwalb의 지도 하에 시카고 대학에서 컴퓨터 공학 박사 학위를 받았습니다.
FAIR에 합류하기 전 Ross는 Microsoft Research의 연구원이자 University of California, Berkeley의 박사후 연구원으로 근무했으며 그의 멘토는 Jitendra Malik과 Trevor Darrell이었습니다.
그는 오픈 소스 소프트웨어에 대한 공헌을 인정받아 2017년에 PAMI Young Researcher Award를, 2017년과 2021년에 PAMI Mark Everingham Award를 수상했습니다.
우리 모두 알고 있듯이 Ross와 He Kaiming은 R-CNN 방식의 표적 탐지 알고리즘을 공동으로 개발했습니다. 2017년 Ross와 He Kaiming의 Mask R-CNN 논문은 ICCV 2017에서 최우수 논문을 수상했습니다.
메타가 이력서 분야에서 이러한 세분화 기본 모델을 만들었고, 이로 인해 많은 네티즌들이 "이제 이력서는 정말 더 이상 존재하지 않는다"라고 외치게 되었습니다.
메타 과학자 Justin Johnson은 다음과 같이 말했습니다. “나에게 Segment Anything의 데이터 엔진과 ChatGPT의 RLHF는 대규모 인공 지능의 새로운 시대를 의미합니다. 시끄러운 네트워크 데이터에서 모든 것을 학습하는 대신 빅 데이터와 결합된 인간 주석의 스마트한 응용 프로그램을 결합하여 새로운 제품을 출시합니다. 지도 학습이 돌아왔습니다! "
유일한 아쉬운 점은 SAM 모델 출시가 주로 Ross Girshick이 주도했지만 He Yaming이 참여하지 않았다는 것입니다.
친구 "matrix Mingzi"는 이 기사가 다중 양식이 CV의 미래이며 순수 CV에는 내일이 없다는 것을 더욱 증명한다고 말했습니다.
위 내용은 한 번의 클릭으로 사진을 자르라는 메시지가 표시됩니다! Meta는 역사상 최초의 기본 이미지 분할 모델을 출시하여 CV의 새로운 패러다임을 창조합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!