집 >기술 주변기기 >일체 포함 >대형 모델은 얼마나 신뢰할 수 있나요? '기본 모델의 기본 견고성'에 대한 IBM 및 기타 학자들의 최신 튜토리얼

대형 모델은 얼마나 신뢰할 수 있나요? '기본 모델의 기본 견고성'에 대한 IBM 및 기타 학자들의 최신 튜토리얼

王林앞으로: 2023-04-11 22:43:061279검색

NeurIPS는 세계에서 가장 권위 있는 AI 학술회의 중 하나로 매년 학계에서 중요한 행사로, 정식 명칭은 Neural Information Process Systems이며, 보통 매년 12월 NeurIPS Foundation에서 주최합니다.

컨퍼런스에서 논의된 내용에는 딥 러닝, 컴퓨터 비전, 대규모 기계 학습, 학습 이론, 최적화, 희소 이론 및 기타 여러 하위 분야가 포함됩니다.

올해 NeurIPS는 36회째를 맞이하며 11월 28일부터 12월 9일까지 2주간 진행됩니다.

첫 번째 주는 미국 뉴올리언스 어니스트 N. 모리얼 컨벤션 센터에서 직접 모임을 갖고, 두 번째 주는 온라인 모임으로 진행합니다.

IBM 연구소 학자들을 비롯한 여러 학자들이 이야기하는 대형 모델의 견고함은 매우 주목할 만합니다!

대형 모델은 얼마나 신뢰할 수 있나요? 기본 모델의 기본 견고성에 대한 IBM 및 기타 학자들의 최신 튜토리얼

기본 모델은 딥러닝 방식을 채택하고, 레이블이 지정되지 않은 대규모 데이터에 대한 사전 학습과 특정 작업 감독을 통한 미세 조정을 통해 머신러닝의 주류 기술로 자리잡고 있습니다.

기본 모델은 도메인과 데이터 패턴 전반에 걸쳐 일반 표현과 퓨샷/제로샷 일반화를 학습하는 데 많은 가능성을 갖고 있지만 동시에 과도한 데이터 볼륨과 복잡한 신경 사용으로 인해 한계가 있습니다. 네트워크 아키텍처는 보안 및 개인 정보 보호 측면에서 전례 없는 문제와 상당한 위험을 초래합니다.

이 튜토리얼의 목적은 포괄적인 강의, 실습 및 대화형 Jupyter/Colab 라이브 코딩 데모, 기본 모델의 신뢰성에 대한 다양한 측면에 대한 그룹 토론이 포함된 코스라와 같은 온라인 튜토리얼을 제공하는 것입니다.

https://sites.google.com/view/neurips2022-frfm-turotial

디렉토리 내용:

기본 모델 및 견고성의 기본
컴퓨터용 기본 모델에 대한 심층 분석 Vision
코드의 기초 모델에 대한 심층 분석
실습 코드 연습
결론
Q&A
패널 토론

연사:

대형 모델은 얼마나 신뢰할 수 있나요? 기본 모델의 기본 견고성에 대한 IBM 및 기타 학자들의 최신 튜토리얼

실제 기계 학습 시스템은 분포 변경에 강력해야 합니다. 훈련 분포와 다른 테스트 분포에서 잘 작동해야 합니다.

자원이 부족한 국가의 빈곤 지도 [Xie et al. 2016; Jean et al. 2016], 의료 진단 [Yu et al. 2020a; al. 2018 ; Dai and Gool 2018] 이러한 고위험 애플리케이션에서는 모델이 훈련 데이터에서 볼 수 없는 환경에 잘 일반화되어야 합니다. 예를 들어, 테스트 샘플은 다른 국가에서 나오거나 다른 운전 조건에 있습니다. 병원.

이전 연구에서는 이러한 분포 변경으로 인해 현재의 최첨단 모델에서도 큰 성능 저하가 발생할 수 있음이 나타났습니다. [Blitzer et al. 2006; Ganin and Lempitsky 2007; Peng 등 2020a, Szegedy 등 2019, Recht 등 2018; Yu 등 2020b; Xie 등 2021a;

기본 모델은 분포 대형 모델은 얼마나 신뢰할 수 있나요? 기본 모델의 기본 견고성에 대한 IBM 및 기타 학자들의 최신 튜토리얼 에서 샘플링된 크고 다양한 레이블이 없는 데이터 세트에 대해 훈련된 후 많은 다운스트림 작업에 적용할 수 있습니다.

각 다운스트림 작업 대형 모델은 얼마나 신뢰할 수 있나요? 기본 모델의 기본 견고성에 대한 IBM 및 기타 학자들의 최신 튜토리얼 에 대해 기본 모델은 훈련 분포에서 샘플링된 레이블이 지정된 내부 분포(ID) 훈련 데이터에 대해 훈련된 다음 배포 외부(ID)에 대해 훈련됩니다. OOD)는 테스트 배포 대형 모델은 얼마나 신뢰할 수 있나요? 기본 모델의 기본 견고성에 대한 IBM 및 기타 학자들의 최신 튜토리얼 에서 평가됩니다.

예를 들어, 빈곤 지도 예측 모델[Xie et al. 2016; Jean et al. 2016]은 전 세계의 레이블이 지정되지 않은 위성 데이터에서 모든 국가에 대한 유용한 기능을 학습한 다음 나이지리아 Fine- 튜닝은 예제에 대해 수행되며 레이블이 지정된 예제가 부족한 말라위에서 최종 평가됩니다.

우리는 다음을 믿습니다. 1) 기본 모델은 견고성 측면에서 특히 유망한 접근 방식입니다. 기존 작업은 제한된 분포 변경으로 제한되는 많은 견고성 개입과 달리 레이블이 없는 데이터에 대한 사전 훈련이 OOD 테스트 분포의 정확성을 향상시키는 효과적이고 일반적인 방법임을 보여줍니다.

그러나 우리는 2) 허위 상관 관계 또는 시간에 따른 분포 변화로 인해 기본 모델이 분포 변화에 항상 대처할 수 없는 이유에 대해서도 논의했습니다.

마지막으로 3) 기본 모델의 견고성을 활용하고 개선하기 위한 몇 가지 연구 방향을 간략하게 설명합니다.

기본 모델이 다운스트림 작업의 성능을 향상시키는 한 가지 방법은 적응된 모델에 대한 귀납적 편향(모델 초기화를 통해)을 제공하는 것입니다. 이러한 편향은 다운스트림 외에도 다양한 데이터 세트에서 학습됩니다. 훈련 데이터.

그러나 동일한 귀납적 편향은 사전 훈련 데이터의 유해한 연관성을 인코딩하고 분포 변경 시 표현 및 할당 손상으로 이어질 수도 있습니다.

대형 모델은 얼마나 신뢰할 수 있나요? 기본 모델의 기본 견고성에 대한 IBM 및 기타 학자들의 최신 튜토리얼