찾다
기술 주변기기일체 포함범용 퓨샷 학습자: 광범위한 집중 예측 작업을 위한 솔루션

ICLR(International Conference on Learning Representation)은 머신러닝 분야에서 가장 영향력 있는 국제 학술 컨퍼런스 중 하나로 인정받고 있습니다.

올해 ICLR 2023 컨퍼런스에서 Microsoft Research Asia는 기계 학습 견고성, 책임 있는 인공 지능 및 기타 분야의 최신 연구 결과를 발표했습니다.

그 중 마이크로소프트 리서치 아시아(Microsoft Research Asia)와 한국과학기술원(KAIST)이 양 기관의 학술 협력 프레임워크 하에 진행한 과학 연구 협력 성과는 탁월한 명확성, 통찰력, 창의성 및 잠재적으로 지속적인 영향을 미치는 에세이 상.

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

논문 주소: https://arxiv.org/abs/2303.14969

VTM: 모든 밀집 예측 작업에 적합한 최초의 소수 샘플 학습자

밀집 예측 작업은 컴퓨터 비전입니다. 의미론적 분할, 깊이 추정, 가장자리 탐지, 핵심 지점 탐지 등과 같은 현장의 중요한 작업 클래스입니다. 이러한 작업의 경우 픽셀 수준 라벨을 수동으로 주석 처리하는 데는 엄청난 비용이 듭니다. 따라서 적은 양의 라벨링된 데이터를 어떻게 학습하여 정확한 예측을 할 수 있는지, 즉 작은 표본 학습(Small Sample Learning)이 이 분야에서는 큰 관심사입니다. 최근 몇 년 동안 소규모 표본 학습에 대한 연구는 계속해서 획기적인 발전을 이루었으며, 특히 메타 학습 및 적대적 학습을 기반으로 한 일부 방법은 학계에서 많은 관심과 환영을 받았습니다.

그러나 기존 컴퓨터 비전 소표본 학습 방법은 일반적으로 분류 작업이나 의미론적 분할 작업과 같은 특정 유형의 작업을 목표로 합니다. 모델 아키텍처 및 교육 프로세스를 설계할 때 이러한 작업과 관련된 사전 지식과 가정을 활용하는 경우가 많으므로 임의의 조밀한 예측 작업에 대한 일반화에는 적합하지 않습니다. Microsoft Research Asia의 연구원들은 소수의 레이블이 지정된 이미지에서 보이지 않는 이미지의 임의 세그먼트에 대한 밀집된 예측 작업을 학습할 수 있는 일반적인 소수의 학습자가 있는지 여부라는 핵심 질문을 탐구하고 싶었습니다.

밀도 예측 작업의 목표는 입력 이미지에서 픽셀 단위로 주석이 달린 레이블로의 매핑을 학습하는 것입니다. 이는 다음과 같이 정의할 수 있습니다.

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

여기서 H와 W는 이미지의 높이와 너비입니다. 각각, 입력 이미지에는 일반적으로 3개의 RGB 채널이 포함되며, C_Τ는 출력 채널의 수를 나타냅니다. 서로 다른 밀집 예측 작업에는 서로 다른 출력 채널 번호 및 채널 속성이 포함될 수 있습니다. 예를 들어 의미론적 분할 작업의 출력은 다중 채널 이진인 반면 깊이 추정 작업의 출력은 단일 채널 연속 값입니다. 그러한 작업 Τ에 대해 일반적인 소수 샘플 학습기 F는 소수의 레이블이 지정된 샘플 지원 세트 S_Τ(샘플 X^i 및 레이블 Y^i의 N 그룹 포함)가 주어지면 보이지 않는 이미지 아키텍처 쿼리에 대해 학습할 수 있습니다. 이 구조는 임의로 조밀한 예측 작업을 처리할 수 있으며 일반화 가능한 지식을 얻기 위해 대부분의 작업에 필요한 매개변수를 공유하므로 적은 수의 샘플로 보이지 않는 작업을 학습할 수 있습니다.

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器둘째, 학습자는 과적합을 방지할 수 있을 만큼 효율적이면서 다양한 의미론으로 보이지 않는 작업을 해결하기 위해 예측 메커니즘을 유연하게 조정해야 합니다.

따라서 Microsoft Research Asia의 연구원들은 모든 조밀한 예측 작업에 사용할 수 있는 소표본 학습자 시각적 토큰 매칭 VTM(Visual Token Matching)을 설계하고 구현했습니다. 이것은 모든 집중 예측 작업에 적용되는
    최초의 소표본 학습자
  • 입니다. VTM은 컴퓨터 비전의 집중 예측 작업 및 소표본 학습 방법을 처리하는 데 새로운 사고 방식을 열어줍니다. 이 작품은 ICLR 2023 우수 논문상
  • 을 수상했습니다.
  • VTM의 디자인은 인간의 사고 과정과의 유추에서 영감을 얻었습니다. 새로운 작업에 대한 소수의 예가 주어지면 인간은 예 간의 유사성을 기반으로 유사한 입력에 유사한 출력을 빠르게 할당할 수 있으며 유사한 출력을 할당할 수도 있습니다. 예제 간의 유사성을 기반으로 유사한 입력에 대한 컨텍스트는 입력과 출력이 유사한 수준에서 조정됩니다. 연구원들은 패치 수준을 기반으로 한 비모수적 매칭을 사용하여 조밀한 예측을 위한 유추 프로세스를 구현했습니다. 훈련을 통해 모델은 이미지 패치의 유사성을 포착하도록 영감을 받습니다.

    새로운 작업에 대한 소수의 레이블이 지정된 예제가 주어지면 VTM은 먼저 주어진 예제와 예제의 레이블을 기반으로 유사성에 대한 이해를 조정하고 이미지와 유사한 예제 이미지 패치에서 이미지 패치를 잠급니다. 예측할 패치, 레이블을 결합하여 보이지 않는 이미지 패치의 레이블을 예측합니다.

    ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

    그림 1: VTM의 전체 아키텍처

    VTM은 계층화된 인코더-디코더 아키텍처를 채택하여 여러 레벨의 이미지 블록을 기반으로 하는 비모수적 일치를 달성합니다. 이는 주로 이미지 인코더 f_Τ, 라벨 인코더 g, 매칭 모듈 및 라벨 디코더 h의 네 가지 모듈로 구성됩니다. 쿼리 이미지와 지원 세트가 주어지면 이미지 인코더는 먼저 각 쿼리에 대한 이미지 패치 수준 표현을 추출하고 이미지를 독립적으로 지원합니다. 태그 인코더는 태그를 지원하는 각 태그를 유사하게 추출합니다. 각 레벨의 레이블이 주어지면 일치 모듈은 비모수적 일치를 수행하고 레이블 디코더는 최종적으로 쿼리 이미지의 레이블을 추론합니다.

    VTM의 핵심은 메타러닝 방식입니다. 훈련은 여러 에피소드로 구성되며, 각 에피소드는 작은 샘플 학습 문제를 시뮬레이션합니다. VTM 교육은 밀집된 예측 작업의 다양한 레이블이 지정된 예가 포함된 메타 교육 데이터 세트 D_train을 사용합니다. 각 훈련 에피소드는 지원 세트가 제공된 쿼리 이미지에 대한 올바른 레이블을 생성하는 것을 목표로 데이터 세트의 특정 작업 T_train에 대한 몇 번의 학습 시나리오를 시뮬레이션합니다. 여러 개의 작은 샘플을 통해 학습한 경험을 통해 모델은 새로운 작업에 빠르고 유연하게 적응할 수 있는 일반 지식을 학습할 수 있습니다. 테스트 시 모델은 훈련 데이터 세트 D_train에 포함되지 않은 모든 작업 T_test에 대해 소수 학습을 수행해야 합니다.

    임의의 작업을 처리할 때 메타 훈련과 테스트에서 각 작업의 출력 차원 C_Τ가 다르기 때문에 모든 작업에 대해 통일된 일반 모델 매개 변수를 설계하는 것이 큰 과제가 됩니다. 간단하고 일반적인 솔루션을 제공하기 위해 연구자들은 작업을 C_Τ 단일 채널 하위 작업으로 변환하고 각 채널을 별도로 학습한 다음 공유 모델 F를 사용하여 각 하위 작업을 독립적으로 모델링했습니다.

    VTM을 테스트하기 위해 연구원들은 또한 보이지 않는 조밀한 예측 작업에 대한 소규모 샘플 학습을 시뮬레이션하기 위해 Taskonomy 데이터 세트의 변형을 특별히 구성했습니다. Taskonomy에는 주석이 달린 다양한 실내 이미지가 포함되어 있으며, 이 중에서 연구원은 의미론과 출력 차원이 서로 다른 10개의 밀집된 예측 작업을 선택하고 교차 검증을 위해 이를 5개 부분으로 나눴습니다. 각 분할에서 2개의 작업은 소규모 평가(T_test)에 사용되고 나머지 8개의 작업은 훈련(T_train)에 사용됩니다. 연구원들은 새로운 의미론을 사용하여 작업을 평가할 수 있도록 에지 작업(TE, OE)을 테스트 작업으로 그룹화하는 등 교육 작업과 테스트 작업이 서로 충분히 다르도록 파티션을 신중하게 구성했습니다.

    ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

    표 1: Taskonomy 데이터 세트(Few-shot 기준선)에 대한 정량적 비교 후 테스트할 파티션 작업에 대해 10샷 학습이 수행되었으며, 여기서 완전 감독 기준선이 훈련되었습니다. 각 접기(DPT) 또는 모든 접기(InvPT)에 대해 평가됩니다.

    표 1과 그림 2는 각각 10개의 밀집된 예측 작업에 대한 VTM의 소표본 학습 성능과 두 가지 유형의 기준 모델을 정량적 및 정성적으로 보여줍니다. 그 중 DPT와 InvPT는 가장 발전된 두 가지 지도 학습 방법으로, DPT는 각 단일 작업에 대해 독립적으로 훈련할 수 있는 반면, InvPT는 모든 작업을 공동으로 훈련할 수 있습니다. VTM 이전에는 일반적인 조밀한 예측 작업을 위해 개발된 전용 소표본 방법이 없었기 때문에 연구원들은 VTM을 세 가지 최첨단 소표본 분할 방법, 즉 DGPNet, HSNet 및 VAT와 비교하고 일반 예측 작업을 처리하도록 확장했습니다. 밀집된 예측 작업을 위한 레이블 공간. VTM은 훈련 중에 테스트 작업 T_test에 액세스할 수 없었고 테스트 시 적은 수(10)의 레이블이 지정된 이미지만 사용했지만 모든 소규모 기준 모델 중에서 가장 잘 수행되었으며 전체 작업에 비해 많은 경쟁에서 좋은 성능을 보였습니다. 감독 기준 모델.

    ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

    그림 2: Taskonomy의 10가지 조밀한 예측 작업에 대해 단 10개의 레이블이 지정된 이미지를 사용하여 새로운 작업에 대한 소수 학습 방법의 질적 비교. 다른 방법이 실패한 경우 VTM은 다양한 의미와 라벨 표현을 사용하여 모든 새로운 작업을 성공적으로 학습했습니다.

    그림 2에서 점선 위에는 실제 레이블과 두 가지 지도 학습 방법 DPT 및 InvPT가 각각 있습니다. 점선 아래에는 작은 샘플 학습 방법이 있습니다. 특히, 다른 소규모 표본 기준선은 새로운 작업에 대해 심각한 과소적합을 겪었지만 VTM은 모든 작업을 성공적으로 학습했습니다. 실험에 따르면 이제 VTM은 매우 적은 수의 라벨이 지정된 예(

    요약하자면, VTM의 기본 아이디어는 매우 간단하지만 VTM은 임의의 조밀한 예측 작업에 사용할 수 있는 통합 아키텍처를 가지고 있습니다. 왜냐하면 일치 알고리즘은 본질적으로 모든 작업과 레이블 구조를 포함하기 때문입니다(예: 연속 또는 이산). 또한 VTM은 소수의 작업별 매개변수만 도입하여 과적합에 대한 저항성과 유연성을 제공합니다. 앞으로 연구자들은 사전 훈련 과정에서 작업 유형, 데이터 양, 데이터 분포가 모델 일반화 성능에 미치는 영향을 더 자세히 조사하여 진정한 보편적인 소표본 학습자를 구축하는 데 도움이 되기를 희망합니다.

위 내용은 범용 퓨샷 학습자: 광범위한 집중 예측 작업을 위한 솔루션의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Excel에서 복제를 제거하는 방법? - 분석 VidhyaExcel에서 복제를 제거하는 방법? - 분석 VidhyaApr 15, 2025 am 09:20 AM

데이터 무결성 : 정확한 분석을 위해 Excel에서 복제를 제거합니다 깨끗한 데이터는 효과적인 의사 결정에 중요합니다. Excel 스프레드 시트의 중복 항목은 오류 및 신뢰할 수없는 분석으로 이어질 수 있습니다. 이 안내서는 DUP를 쉽게 제거하는 방법을 보여줍니다

상위 10 개 전화 인터뷰 팁 - 분석 Vidhya상위 10 개 전화 인터뷰 팁 - 분석 VidhyaApr 15, 2025 am 09:19 AM

전화 인터뷰의 기술 마스터 : 성공 가이드 성공적인 전화 인터뷰는 구직 응용 프로그램 프로세스의 다음 단계로 발전 할 가능성을 크게 향상시킬 수 있습니다. 이 중요한 첫 인상, 종종 유일한 프리 팩

통계학자가되는 방법?통계학자가되는 방법?Apr 15, 2025 am 09:15 AM

소개 의료, 금융 또는 스포츠와 같은 분야에서 자신과 회사를 위해 정보에 입각 한 결정을 내릴 수있는 권한이 있다고 상상해보십시오. 그것이 통계 학자의 역할입니다. 조직에서 데이터 사용이 증가함에 따라 통계에 대한 수요

AI는 어떻게 작동합니까? - 분석 VidhyaAI는 어떻게 작동합니까? - 분석 VidhyaApr 15, 2025 am 09:14 AM

인공 지능 : 포괄적 인 가이드 기술을 통해 기계가 우리의 선호도를 이해하고, 우리의 요구를 예상하며, 과거의 상호 작용을 통해 더 나은 결과를 제공하는 세상을 구상 할 수있었습니다. 이것은 공상 과학이 아닙니다. 그것은

Pictogram 그래프는 무엇입니까? - 분석 VidhyaPictogram 그래프는 무엇입니까? - 분석 VidhyaApr 15, 2025 am 09:09 AM

소개 데이터 분석의 세계에서는 효과적인 커뮤니케이션이 핵심입니다. Pictogram 그래프는 강력한 솔루션을 제공하여 시각적으로 매력적이고 쉽게 소화 가능한 형식으로 정보를 제공합니다. 복잡한 차트 및 수치와 달리, 그림도

LLAMA-3.1-Storm-8B : 8B LLM은 메타와 헤르메스를 능가합니다LLAMA-3.1-Storm-8B : 8B LLM은 메타와 헤르메스를 능가합니다Apr 15, 2025 am 09:08 AM

LLAMA 3.1 Storm 8B : 효율적인 언어 모델의 획기적인 효율적이고 정확한 언어 모델을 추구함으로써 LLAMA 3.1 Storm 8B의 개발로 이어졌다. 이것은 세련되었습니다

git을 설치하는 방법? - 분석 Vidhyagit을 설치하는 방법? - 분석 VidhyaApr 15, 2025 am 09:07 AM

GIT : 버전 제어 및 협업에 대한 필수 안내서 GIT는 개발자에게 중요한 도구이며 프로젝트 협업 및 버전 제어를 단순화합니다. 이 안내서는 Linux, MacOS 및 Wind에 Git을 설치하기위한 간단한 지침을 제공합니다.

LLM에서 도구 호출LLM에서 도구 호출Apr 14, 2025 am 11:28 AM

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 ​​있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구