메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개-일체 포함-php.cn

집

기술 주변기기

일체 포함

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 07, 2023 pm 03:49 PM

비전일

“모든 것을 나누는” SAM 모델을 오픈소스화한 이후, 메타는 점점 더 “비주얼 베이직 모델”을 향한 길을 걷고 있습니다.

이번에는 DINOv2라는 모델 세트를 오픈소스로 공개했습니다. 이러한 모델은 미세 조정 없이 분류, 분할, 이미지 검색 및 깊이 추정과 같은 다운스트림 작업에 사용할 수 있는 고성능 시각적 표현을 생성할 수 있습니다.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

이 모델 세트는 다음과 같은 특징을 가지고 있습니다:

은 많은 양의 레이블이 지정된 데이터가 필요하지 않은 방식으로 학습됩니다.
사용할 수 있습니다. 거의 모든 CV 이미지 분류, 분할, 이미지 검색 및 깊이 추정과 같은 미세 조정이 필요하지 않은 작업의 중추입니다.
텍스트 설명에 의존하지 않고 이미지에서 직접 기능을 학습하여 모델의 성능을 향상시킵니다.
모든 이미지 컬렉션에서 학습 가능
사전 훈련된 DINOv2 버전이 이미 사용 가능하며 다양한 작업에서 CLIP 및 OpenCLIP과 유사합니다.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

논문 링크: https://arxiv.org/pdf/2304.07193.pdf
프로젝트 링크: https://dinov2.metademolab.com/

논문 개요

작업별이 아닌 사전 훈련된 표현을 학습하는 것이 자연어 처리의 표준이 되었습니다. 이러한 기능은 "있는 그대로"(미세 조정이 필요하지 않음) 사용할 수 있으며 작업별 모델보다 다운스트림 작업에서 훨씬 더 나은 성능을 발휘합니다. 이러한 성공은 감독이 필요하지 않은 언어 모델링 또는 단어 벡터와 같은 보조 목표를 사용하여 대량의 원시 텍스트에 대한 사전 훈련 덕분입니다.

NLP 분야에서 이러한 패러다임 전환이 일어나면서 유사한 "기본" 모델이 컴퓨터 비전에도 나타날 것으로 예상됩니다. 이러한 모델은 이미지 수준(예: 이미지 분류)이든 픽셀 수준(예: 분할)이든 모든 작업에서 "즉시" 작동하는 시각적 기능을 생성해야 합니다.

이러한 기본 모델은 텍스트 기반 사전 훈련, 즉 텍스트 감독 형식을 사용하여 기능 훈련을 안내하는 데 중점을 두는 큰 희망을 가지고 있습니다. 이러한 형태의 텍스트 기반 사전 학습은 캡션이 이미지의 풍부한 정보에 근접할 뿐이고 이 감독을 통해 더 세밀하고 복잡한 픽셀 수준 정보를 발견하지 못할 수 있으므로 보유할 수 있는 이미지에 대한 정보를 제한합니다. 또한 이러한 이미지 인코더에는 이미 정렬된 텍스트-이미지 말뭉치가 필요하며 텍스트 대응의 유연성을 제공하지 않습니다. 즉, 원시 데이터만으로는 학습할 수 없습니다.

텍스트 기반 사전 학습의 대안은 이미지에서만 기능을 학습하는 자가 지도 학습입니다. 이러한 방법은 개념적으로 언어 모델링과 같은 프런트 엔드 작업에 더 가깝고 이미지 및 픽셀 수준에서 정보를 캡처할 수 있습니다. 그러나 일반적인 기능을 학습할 수 있는 잠재력에도 불구하고 자기 지도 학습의 대부분의 개선 사항은 작고 정제된 데이터 세트 ImageNet1k에 대한 사전 학습의 맥락에서 달성되었습니다. 일부 연구자들은 이러한 방법을 ImageNet-1k 이상으로 확장하려는 노력을 해왔지만 필터링되지 않은 데이터세트에 초점을 맞춰 성능 품질이 크게 저하되는 경우가 많았습니다. 이는 좋은 결과를 생성하는 데 중요한 데이터 품질과 다양성에 대한 통제력이 부족하기 때문입니다.

이 연구에서 연구자들은 대량의 정제된 데이터에 대해 사전 학습된 경우 일반적인 시각적 특징을 학습하는 자기 지도 학습이 가능한지 여부를 탐구합니다. 그들은 iBOT과 같은 이미지 및 패치 수준에서 기능을 학습하는 기존의 차별적인 자기 감독 방법을 재검토하고 더 큰 데이터 세트에서 일부 설계 선택을 재고합니다. 우리의 기술적 기여의 대부분은 모델과 데이터 크기를 확장할 때 차별적인 자기 지도 학습을 안정화하고 가속화하도록 맞춤화되었습니다. 이러한 개선으로 인해 유사한 차별적 자기 지도 방법보다 방법이 약 2배 더 빨라지고 메모리가 1/3 더 적게 필요해 더 긴 훈련과 더 큰 배치 크기를 활용할 수 있게 되었습니다.

사전 학습 데이터와 관련하여 필터링되지 않은 대규모 이미지 컬렉션에서 데이터 세트를 필터링하고 재조정하기 위한 자동화된 파이프라인을 구축했습니다. 이는 외부 메타데이터 대신 데이터 유사성이 사용되며 수동 주석이 필요하지 않은 NLP에서 사용되는 파이프라인에서 영감을 받았습니다. 이미지를 처리할 때 가장 어려운 점은 개념의 균형을 재조정하고 일부 주요 모드에서 과적합을 방지하는 것입니다. 본 연구에서는 순진한 클러스터링 방법이 이 문제를 잘 해결할 수 있으며, 연구진은 방법을 검증하기 위해 142M 이미지로 구성된 작지만 다양한 코퍼스를 수집했습니다.

마지막으로 연구원들은 다양한 ViT(Visual Transformer) 아키텍처를 사용하여 데이터에 대해 훈련된 DINOv2라는 다양한 사전 훈련된 비전 모델을 제공합니다. 그들은 모든 데이터에 대해 DINOv2를 재교육하기 위한 모든 모델과 코드를 공개했습니다. 확장되면 그림 2와 같이 이미지 및 픽셀 수준에서 다양한 컴퓨터 비전 벤치마크에서 DINOv2의 품질을 검증했습니다. 우리는 자기 감독 사전 훈련만으로도 공개적으로 이용 가능한 최고의 약한 감독 모델과 비교할 수 있는 전송 가능한 고정 기능을 학습하기 위한 좋은 후보라고 결론지었습니다.

데이터 처리

연구원들은 여러 정제된 데이터세트의 이미지에 가까운 필터링되지 않은 대량의 데이터에서 이미지를 검색하여 정제된 LVD-142M 데이터세트를 구성했습니다. 논문에서는 선별된/필터링되지 않은 데이터 소스, 이미지 중복 제거 단계 및 검색 시스템을 포함하여 데이터 파이프라인의 주요 구성 요소를 설명합니다. 그림 3과 같이 전체 파이프라인에는 메타데이터나 텍스트가 필요하지 않으며 이미지를 직접 처리합니다. 모델 방법론에 대한 자세한 내용은 부록 A를 참조하세요.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

그림 3: 데이터 처리 파이프라인 개요. 정제된 데이터 소스와 정제되지 않은 데이터 소스의 이미지는 먼저 임베딩에 매핑됩니다. 정제되지 않은 이미지는 표준 이미지와 일치되기 전에 중복 제거됩니다. 결과 조합은 자체 감독 검색 시스템을 통해 초기 데이터 세트를 더욱 풍부하게 합니다.

차별적 자기주도 사전 훈련

연구원들은 SwAV를 중심으로 DINO와 iBOT 손실의 조합으로 볼 수 있는 차별적 자기주도 접근법을 통해 자신의 특징을 학습했습니다. 또한 기능을 전파하기 위한 정규화 도구와 간단한 고해상도 훈련 단계를 추가했습니다.

효율적인 구현

그들은 모델을 더 큰 규모로 훈련하기 위해 몇 가지 개선 사항을 고려했습니다. 모델은 PyTorch 2.0을 사용하여 A100 GPU에서 훈련되었으며, 코드는 특징 추출을 위해 사전 훈련된 모델과 함께 사용할 수도 있습니다. 모델의 세부사항은 부록 표 17에 나와 있습니다. 동일한 하드웨어에서 DINOv2 코드는 메모리의 1/3만 사용하고 iBOT 구현보다 2배 빠르게 실행됩니다.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

실험 결과

이 섹션에서 연구자들은 다양한 이미지 이해 작업에 대한 새로운 모델의 실증적 평가를 소개합니다. 그들은 카테고리 및 인스턴스 수준 인식, 의미론적 분할, 단안 깊이 예측 및 동작 인식을 포함한 전역 및 로컬 이미지 표현을 평가했습니다.

ImageNet 분류

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

기타 이미지 및 비디오 분류 벤치마크

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

인스턴스 인식

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

밀도 인식 Task

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

정성적 결과

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

위 내용은 메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

외삽에 대한 포괄적 인 가이드Apr 15, 2025 am 11:38 AM

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

소프트 AI의 부상과 오늘날 비즈니스의 의미Apr 15, 2025 am 11:36 AM

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

AI 국경을위한 진화 보안 프레임 워크Apr 15, 2025 am 11:34 AM

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!Apr 15, 2025 am 11:33 AM

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Apr 15, 2025 am 11:32 AM

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLMS)에서 환각이 불가피합니까?Apr 15, 2025 am 11:31 AM

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

60% 문제 - AI 검색이 트래픽을 배출하는 방법Apr 15, 2025 am 11:28 AM

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

AI R & D의 중심에 인간 번성을하는 MIT Media LabApr 15, 2025 am 11:26 AM

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.