>기술 주변기기 >일체 포함 >CVPR 2024 | Byte는 COCO 세분화된 분할보다 밀도가 높은 차세대 데이터 세트 COCONut을 제안합니다.

CVPR 2024 | Byte는 COCO 세분화된 분할보다 밀도가 높은 차세대 데이터 세트 COCONut을 제안합니다.

王林
王林앞으로
2024-04-22 16:20:121241검색
AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

인공지능의 발달로 언어 모델과 생성 모델이 많은 성공을 거두었고, 모델을 설계하는 과정에서 모델의 매개변수 수도 늘어나고 있습니다. 세분화된 이해 작업을 위해 모델 매개변수의 수도 증가하고 있습니다. 그러나 기존 데이터 세트에는 규모와 정확성 사이에 모순이 있습니다. 예를 들어 SA-1B 데이터 세트의 마스크 중 99.1%는 기계로 생성되었지만 일부 다른 공개 데이터 세트에도 정확도가 없습니다. 문제가 있으며 이러한 데이터 세트의 크기는 일반적으로 상대적으로 작습니다.

최근 ByteDance는 최신 딥 러닝 모델의 설계 요구에 부응하여 새로운 세대의 세분화된 이해 데이터 세트를 제안했으며, 파노라마 분할을 위해 총 383K 이미지에 수동으로 주석을 달았고 마침내 5.18M에 도달했습니다. Zhang 마스크는 지금까지 COCONut이라는 인공 라벨을 사용한 최대 규모의 파노라마 분할 이해 데이터 세트입니다. 이 결과는 CVPR2024에 선정되었습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

  • 논문 링크: https://arxiv.org/abs/2404.08639
  • 코드 및 데이터 세트 링크: https://xdeng7.github.io/coconut.github.io/

영상은 COCONut의 단일 이미지에 대한 마스크 밀도와 의미 카테고리 통계를 보여줍니다. 데이터 세트의 의미가 풍부하고 마스크 분할 세분성이 좋은 것을 볼 수 있습니다. 또한 이 데이터세트는 파노라마 분할, 인스턴스 분할, 의미론적 분할, 객체 감지, 의미 제어 생성, 개방형 어휘 분할과 같은 다양한 이해 작업을 지원합니다. 여러 작업에서 데이터세트를 교체하는 것만으로도 상당한 성능 향상이 달성됩니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

주석 방법

보통 수동 주석만 사용하는 것은 비용이 많이 들고, 이는 대부분의 기존 공개 데이터 세트의 규모를 늘릴 수 없는 중요한 이유이기도 합니다. 모델에서 생성된 레이블을 직접 사용하는 일부 데이터 세트도 있지만 이러한 생성된 레이블은 모델 학습을 크게 향상시키지 못하는 경우가 많습니다. 이 기사에서도 이를 확인합니다. 따라서 본 논문에서는 수동 반자동 라벨 생성과 결합된 새로운 주석 방법을 제안합니다. 데이터 주석의 정확성을 보장할 뿐만 아니라 수작업 비용을 절감하는 동시에 주석 프로세스를 가속화할 수 있습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

주석 정확도 비교

연구원들은 같은 사진에서 COCONut과 COCO의 주석을 비교했습니다. 아래 그림의 비교에서 본 글에서 제안하는 주석 방법은 포토샵을 이용한 순수 수동 주석과 거의 동일한 정확도를 달성하면서도 주석 속도가 10배 이상 향상되었음을 알 수 있다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

COCONut 데이터세트 상세정보

기존 COCO 데이터세트와 비교하면 데이터세트의 각 카테고리별 분포는 비교적 유사하지만 각 사진에 포함된 마스크의 총량이 COCO보다 많습니다. 특히 100개가 넘는 마스크가 포함된 단일 이미지가 많은 경우 COCONut의 주석이 더 정교해지고 세부적인 분할이 더 조밀해졌음을 알 수 있습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

실험적 검증

연구원들은 더 나은 훈련 세트를 제안하는 것 외에도 기존 검증 세트가 모델 성능 개선을 잘 반영할 수 없다는 사실을 발견했습니다. 모델의 개선을 반영할 수 있는 것은 COCONut-val이라고 합니다. 아래 표에서 볼 수 있듯이, 데이터 세트와 정확도가 높은 트레이닝 세트만 교체하면 4인치 이상에 도달하는 등 모델이 크게 향상될 수 있습니다. 파노라마 분할. 그러나 훈련 세트의 크기가 증가할 경우 기존 테스트 세트로 테스트한 결과 모델의 개선이 반영되지 않은 반면, COCONut-val은 훈련량을 늘려도 모델이 여전히 뚜렷한 개선을 보이고 있음을 반영할 수 있습니다. 데이터를 설정합니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

다음 그림은 검증 세트의 의미 카테고리와 마스크 밀도를 비교한 것입니다. 새로 제안된 검증 세트가 더 까다롭고 모델의 개선 사항을 더 잘 반영할 수 있음을 알 수 있습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

더 많은 실험 결과를 보려면 원본 논문을 참조하세요. 팀은 GitHub 홈페이지에서 공개 다운로드할 수 있는 데이터 세트와 해당 모델을 제공할 것입니다.

ByteDance 지능형 생성 팀

지능형 생성 팀은 ByteDance AI 및 멀티미디어 기술 팀으로, 컴퓨터 비전, 오디오 및 비디오 편집, 특수 효과 처리 및 기타 기술 분야를 담당합니다. 풍부한 비즈니스 시나리오, 인프라 자원 및 기술 협업 분위기는 최첨단 알고리즘-엔지니어링 시스템-제품의 폐쇄 루프를 실현하여 다양한 분야에서 회사의 다양한 내부 비즈니스에 업계 최고의 콘텐츠 이해, 콘텐츠 생성 및 상호 작용을 제공하는 것을 목표로 합니다. 경험과 소비 능력, 산업 솔루션을 제공합니다.

현재 지능형 창작팀은 ByteDance가 소유한 클라우드 서비스 플랫폼인 Volcano Engine을 통해 기술 역량과 서비스를 기업에 공개했습니다. 대형 모델 알고리즘과 관련된 더 많은 직위가 열려 있습니다.

위 내용은 CVPR 2024 | Byte는 COCO 세분화된 분할보다 밀도가 높은 차세대 데이터 세트 COCONut을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제