>기술 주변기기 >일체 포함 >Yann LeCun 팀의 새로운 연구 결과: 자기 지도 학습의 역공학, 클러스터링이 다음과 같이 구현되는 것으로 나타났습니다.

Yann LeCun 팀의 새로운 연구 결과: 자기 지도 학습의 역공학, 클러스터링이 다음과 같이 구현되는 것으로 나타났습니다.

王林
王林앞으로
2023-06-15 11:27:54972검색

자기 지도 학습(SSL)은 최근 몇 년 동안 큰 발전을 이루었으며 많은 다운스트림 작업에서 지도 학습 방법 수준에 거의 도달했습니다. 그러나 모델의 복잡성과 주석이 달린 훈련 데이터 세트의 부족으로 인해 학습된 표현과 기본 작동 메커니즘을 이해하기가 어려웠습니다. 또한 자기 지도 학습에 사용되는 프리텍스트 작업은 특정 다운스트림 작업과 직접적으로 관련되지 않는 경우가 많으므로 학습된 표현을 해석하는 복잡성이 더욱 증가합니다. 지도 분류에서 학습된 표현의 구조는 종종 매우 간단합니다.

기존 분류 작업(샘플을 특정 범주로 정확하게 분류하는 것이 목표)과 비교하여 최신 SSL 알고리즘의 목표는 일반적으로 두 가지 주요 구성 요소가 포함된 손실 함수를 최소화하는 것입니다. 하나는 향상된 샘플을 클러스터링하는 것입니다(불변성 제약 조건). 두 번째는 표현 붕괴(정규화 제약)를 방지하는 것입니다. 예를 들어, 서로 다른 향상을 거친 동일한 샘플에 대해 대조 학습 방법의 목표는 이러한 샘플의 분류 결과를 동일하게 만드는 동시에 서로 다른 향상된 샘플을 구별할 수 있도록 하는 것입니다. 반면, 비대비 방법은 표현 붕괴를 피하기 위해 정규화 도구를 사용합니다.

자기 지도 학습은 보조 작업(구실)의 비지도 데이터를 사용하여 자체 감독 정보를 마이닝하고, 이렇게 구성된 감독 정보를 통해 네트워크를 훈련하여 다운스트림 작업에 대한 귀중한 표현을 학습할 수 있습니다. 최근 Turing Award 수상자 Yann LeCun을 포함한 몇몇 연구자들은 자기 지도 학습을 역설계하여 훈련 과정의 내부 동작을 이해할 수 있게 해준다고 주장하는 연구를 발표했습니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

논문 주소: https://arxiv.org/abs/2305.15614v2

본 논문은 세심하게 설계된 일련의 실험을 통해 SLL을 사용한 표현 학습에 대한 심층 분석을 수행합니다. 사람들은 훈련 중에 클러스터링 프로세스를 이해합니다. 특히, 우리는 증강 샘플이 동일한 이미지를 공유하는 증강 샘플의 의미 임베딩 주위에 중심을 형성하는 고도로 클러스터된 동작을 나타냄을 밝힙니다. 더욱 예상치 못하게, 연구자들은 대상 작업에 대한 명시적인 정보가 없더라도 의미론적 레이블을 기반으로 샘플이 클러스터링된 것을 관찰했습니다. 이는 의미론적 유사성을 기반으로 샘플을 그룹화하는 SSL의 기능을 보여줍니다.

문제 설정

자체 지도 학습(SSL)은 다운스트림 작업을 위한 모델을 준비하기 위한 사전 훈련에 자주 사용되므로 SSL 훈련이 학습된 표현에 어떤 영향을 미칩니까? 구체적으로 SSL은 교육 중에 내부적으로 어떻게 작동하며 이러한 표현 기능은 어떤 범주를 학습할 수 있습니까?

이러한 문제를 조사하기 위해 연구원들은 SSL 네트워크를 여러 설정으로 교육하고 다양한 기술을 사용하여 동작을 분석했습니다.

데이터 및 증강: 이 기사에 언급된 모든 실험은 CIFAR100 이미지 분류 데이터 세트를 사용했습니다. 모델을 훈련하기 위해 연구원들은 SimCLR에서 제안된 이미지 향상 프로토콜을 사용했습니다. 각 SSL 교육 세션은 모멘텀이 있는 SGD 최적화 프로그램을 사용하여 1000세대 동안 실행됩니다.

백본 아키텍처: 모든 실험에서는 RES-L-H 아키텍처를 백본으로 사용하고 두 레이어의 MLP(다층 퍼셉트론) 프로젝션 헤드를 결합했습니다.

선형 프로빙: 표현 함수에서 주어진 이산 함수(예: 카테고리)를 추출하는 효과를 평가하기 위해 여기서 사용되는 방법은 선형 프로빙입니다. 이를 위해서는 이 표현을 기반으로 하는 선형 분류기(선형 프로브라고도 함)를 훈련해야 하며, 여기에는 일부 훈련 샘플이 필요합니다.

샘플 수준 분류: 샘플 수준 분리성을 평가하기 위해 연구원들은 전용 새 데이터 세트를 만들었습니다.

훈련 데이터 세트에는 CIFAR-100 훈련 세트의 무작위 이미지 500개가 포함되어 있습니다. 각 이미지는 특정 카테고리를 나타내며 100가지 다른 방식으로 향상됩니다. 따라서 훈련 데이터세트에는 500개 카테고리의 총 50,000개 샘플이 포함되어 있습니다. 테스트 세트는 여전히 이러한 500개의 이미지를 사용하지만 모두 동일한 배포판의 20가지 향상된 기능을 사용합니다. 따라서 테스트 세트의 결과는 10,000개의 샘플로 구성됩니다. 주어진 표현함수의 선형 또는 NCC(Nearest class-center/Nearest Class Center) 정확도를 샘플 수준에서 측정하기 위해 여기서 채택한 방법은 먼저 훈련 데이터를 사용하여 해당 분류기를 계산한 후 이를 계산하는 것입니다. 해당 테스트 세트에 대한 정확성을 평가합니다.

자기 지도 학습의 클러스터링 프로세스 공개

클러스터링 프로세스는 딥 러닝 모델 분석에 항상 중요한 역할을 해왔습니다. SSL 훈련을 직관적으로 이해하기 위해 그림 1은 훈련 전후의 상황을 포함하고 여러 수준으로 구분된 UMAP을 통해 네트워크의 훈련 샘플의 임베딩 공간을 시각화합니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 1: SSL 교육으로 유도된 의미 클러스터링

예상대로 교육 프로세스는 샘플 수준에서 샘플을 성공적으로 클러스터링하여 동일한 이미지의 다양한 향상을 매핑했습니다. (첫 번째 행에 표시된 대로) 목적 함수 자체가 (불변 손실 항을 통해) 이 동작을 장려한다는 점을 고려하면 이 결과는 예상치 못한 것이 아닙니다. 그러나 더 주목할만한 점은 훈련 과정에서 레이블이 부족함에도 불구하고 이 훈련 프로세스가 표준 CIFAR-100 데이터 세트의 원래 "의미 범주"를 기반으로 클러스터링된다는 것입니다. 흥미롭게도 더 높은 수준(상위 범주)도 효율적으로 클러스터링될 수 있습니다. 이 예에서는 훈련 프로세스가 샘플 수준에서 클러스터링을 직접적으로 장려하지만 SSL 훈련의 데이터 표현도 의미론적 범주에 따라 다양한 수준에서 클러스터링된다는 것을 보여줍니다.

이 클러스터링 프로세스를 더욱 정량화하기 위해 연구원들은 VICReg를 사용하여 RES-10-250을 교육했습니다. 연구원들은 샘플 수준과 원래 범주를 기반으로 NCC 훈련 정확도를 측정했습니다. SSL로 훈련된 표현이 샘플 수준에서 신경 붕괴를 나타내지만(NCC 훈련 정확도는 1.0에 가까움) 의미론적 범주 측면에서 클러스터링도 중요합니다(원래 목표에서 약 1.0) 0.41).

그림 2의 왼쪽 그림에서 볼 수 있듯이 강화와 관련된 대부분의 클러스터링 프로세스(네트워크가 직접 교육됨)는 교육 프로세스의 초기 단계에서 발생하고 의미 범주 측면에서 클러스터링되는 동안 정체됩니다. (훈련 목표( 에 지정되지 않음)는 훈련 중에 계속해서 개선됩니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 2: SSL 알고리즘은 의미론적 대상 쌍에 따라 데이터를 클러스터링합니다.

이전 연구자들은 감독 훈련 샘플의 최상위 수준 임베딩이 점차 클래스 중심으로 이동할 것임을 관찰했습니다. 구조적 수렴 . SSL 훈련 표현 함수의 클러스터링 특성을 더 잘 이해하기 위해 SSL 중에 유사한 상황을 조사했습니다. NCC 분류기는 선형 분류기이며 최고의 선형 분류기보다 더 나은 성능을 발휘하지 않습니다. 동일한 데이터에 대해 훈련된 선형 분류기와 비교하여 NCC 분류기의 정확도를 평가하여 다양한 세분성 수준에서 데이터 클러스터링을 연구할 수 있습니다. 그림 2의 중간 패널은 초기화된 값으로 정규화된 값을 사용하여 샘플 수준 범주와 원래 대상 범주에 걸쳐 이 비율의 진화를 보여줍니다. SSL 훈련이 진행됨에 따라 NCC 정확도와 선형 정확도 사이의 격차가 작아지며, 이는 증강된 샘플이 샘플 ID 및 의미론적 속성을 기반으로 클러스터링 수준을 점진적으로 향상한다는 것을 나타냅니다.

또한 그림은 샘플 수준의 비율이 초기에 더 높을 것임을 보여주며, 이는 증가된 샘플이 중심에 수렴할 때까지 ID에 따라 클러스터링됨을 나타냅니다(NCC 정확도와 선형 정확도 간의 비율은 다음과 같습니다). 100세대에서 ≥ 0.9). 그러나 훈련이 계속됨에 따라 샘플 수준 비율은 포화되는 반면 클래스 수준 비율은 계속 증가하여 약 0.75로 수렴됩니다. 이는 향상된 샘플이 먼저 샘플 ID에 따라 클러스터링되고 구현 후에 상위 수준 의미 카테고리에 따라 클러스터링됨을 보여줍니다.

SSL 훈련의 암시적 정보 압축

압축을 효과적으로 수행할 수 있다면 유익하고 유용한 표현을 얻을 수 있습니다. 그러나 SSL 교육 중에 이러한 압축이 발생하는지 여부는 여전히 연구한 사람이 거의 없는 주제입니다.

이를 이해하기 위해 연구원들은 훈련 중에 입력과 해당 내장 표현 간의 상호 정보를 추정하는 방법인 상호 정보 신경 추정(MINE)을 사용했습니다. 이 메트릭은 인코딩된 정보(비트 수)의 양을 표시하여 표현의 복잡성 수준을 효과적으로 측정하는 데 사용할 수 있습니다.

그림 3의 중간 패널은 5개의 서로 다른 MINE 초기화 시드에 대해 계산된 평균 상호 정보를 보고합니다. 그림에서 볼 수 있듯이 훈련 프로세스 중에 상당한 압축이 발생하여 매우 컴팩트한 훈련 표현이 생성됩니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

왼쪽 차트는 SSL 교육 모델 교육 중 정규화 및 불변성 손실의 변화와 원래 목표 선형 테스트 정확도를 보여줍니다. (가운데) 훈련 중 입력과 표현 간의 상호 정보 압축. (오른쪽) SSL 교육은 클러스터 표현을 학습합니다.

정규화 손실의 역할

목적 함수에는 불변성과 정규화라는 두 가지 항목이 포함됩니다. 불변성 항의 주요 기능은 동일한 샘플의 다르게 강화된 표현 간의 유사성을 강화하는 것입니다. 정규화 용어의 목표는 표현 붕괴를 방지하는 것입니다.

클러스터링 프로세스에서 이러한 구성 요소의 역할을 탐색하기 위해 연구원들은 목적 함수를 불변성 항과 정규화 항으로 분해하고 훈련 과정에서 이들의 동작을 관찰했습니다. 비교 결과는 그림 3의 왼쪽 패널에 표시되어 있으며, 원래 의미 목표에 대한 손실 항의 진화와 선형 테스트 정확도가 제공됩니다. 대중적인 믿음과는 달리, 불변성 손실 항은 훈련 중에 크게 개선되지 않습니다. 대신 정규화 손실을 줄임으로써 손실(및 다운스트림 의미 정확도)이 향상됩니다.

SSL의 훈련 프로세스의 대부분은 샘플 수준 분류 정확도 및 클러스터링보다는 의미론적 정확도 및 학습된 표현의 클러스터링을 향상시키는 것이라고 결론 내릴 수 있습니다.

본질적으로, 여기에서 발견한 결과에 따르면 자기 지도 학습의 직접적인 목표는 샘플 수준 분류이지만 실제로 대부분의 훈련 시간은 다양한 수준의 의미 범주를 기반으로 데이터를 클러스터링하는 데 소비됩니다. 이러한 관찰은 클러스터링을 통해 의미상 의미 있는 표현을 생성하는 SSL 방법의 능력을 보여 주며, 이를 통해 기본 메커니즘을 이해할 수도 있습니다.

지도 학습과 SSL 클러스터링의 비교

심층 네트워크 분류기는 훈련 샘플을 카테고리에 따라 다양한 중심으로 클러스터링하는 경향이 있습니다. 그러나 학습된 기능이 실제로 클러스터링되려면 이 속성이 테스트 샘플에 대해 여전히 유효해야 합니다. 이는 우리가 기대하는 효과이지만 효과는 약간 더 나빠질 것입니다.

여기서 흥미로운 질문: SSL은 지도 학습에 의한 클러스터링과 비교하여 샘플의 의미론적 범주를 기반으로 클러스터링을 어느 정도 수행할 수 있습니까? 그림 3의 오른쪽 패널은 다양한 시나리오(향상된 지도 학습 및 SSL 포함 여부)에 대한 교육 종료 시 NCC 교육 및 테스트 정확도 비율을 보고합니다.

지도 분류기의 NCC 훈련 정확도는 1.0으로 SSL 훈련 모델의 NCC 훈련 정확도보다 상당히 높지만, SSL 모델의 NCC 테스트 정확도는 NCC 테스트 정확도보다 약간 높습니다. 감독 모델 지출. 이는 의미 범주에 따른 두 모델의 클러스터링 행위가 어느 정도 유사함을 보여준다. 흥미롭게도, 지도 모델을 훈련하기 위해 증강된 샘플을 사용하면 NCC 훈련 정확도가 약간 감소하지만 NCC 테스트 정확도는 크게 향상됩니다.

의미 범주 학습 및 무작위성의 영향 탐색

의미 범주는 입력의 고유 패턴을 기반으로 입력과 대상 간의 관계를 정의합니다. 반면, 입력을 임의의 대상에 매핑하면 식별 가능한 패턴이 부족하여 입력과 대상 간의 연결이 임의적으로 보입니다.

연구원들은 또한 모델 학습에 필요한 목표의 숙련도에 대한 무작위성이 미치는 영향을 조사했습니다. 이를 위해 그들은 무작위성의 정도가 다양한 일련의 목표 시스템을 구축한 다음, 무작위성이 학습된 표현에 미치는 영향을 조사했습니다. 그들은 분류에 사용된 동일한 데이터세트에서 신경망 분류기를 훈련한 다음, 다양한 시대의 대상 예측을 다양한 무작위도를 가진 대상으로 사용했습니다. 에포크 0에서는 네트워크가 완전히 무작위이며 결정적이지만 겉으로는 임의적인 라벨을 얻습니다. 학습이 진행됨에 따라 해당 기능의 무작위성은 감소하고 결국에는 Ground Truth 타겟(완전히 무작위가 아닌 것으로 간주될 수 있음)과 일치하는 타겟을 얻습니다. 여기서 무작위성의 정도는 0(훈련 종료 시 전혀 무작위가 아님)에서 1(초기화 시 완전히 무작위) 범위로 정규화됩니다.

그림 4 왼쪽 그림은 다양한 무작위 목표에 대한 선형 테스트 정확도를 보여줍니다. 각 라인은 무작위성의 정도가 다른 SSL의 다양한 훈련 단계의 정확도에 해당합니다. 훈련 중에 모델은 "의미론적" 목표(낮은 무작위성)에 더 가까운 범주를 보다 효율적으로 캡처하는 반면, 높은 무작위성 목표에서는 상당한 성능 향상을 나타내지 않음을 알 수 있습니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 4: SSL은 무작위 대상이 아닌 의미 체계 대상을 지속적으로 학습합니다.

딥 러닝의 핵심 문제는 다양한 유형의 범주를 분류하는 중간 계층의 역할을 이해하는 것입니다. 그리고 영향력. 예를 들어, 서로 다른 레이어가 서로 다른 유형의 범주를 학습하게 됩니까? 연구원들은 또한 다양한 목표 무작위성 수준에서 훈련이 끝날 때 다양한 표현 계층의 선형 테스트 정확도를 평가하여 이 문제를 조사했습니다. 그림 4의 중간 패널에 표시된 것처럼 선형 테스트 정확도는 무작위성이 감소함에 따라 계속해서 향상되고 더 깊은 계층은 모든 범주 유형에서 더 나은 성능을 발휘하며 의미 범주에 가까운 분류에서는 성능 격차가 더 커집니다.

연구원들은 클러스터링 품질을 평가하기 위해 NCC 정확도, CDNV, 클래스별 평균 분산, 클래스 평균 간의 평균 제곱 거리 등 몇 가지 다른 측정항목도 사용했습니다. 훈련을 통해 표현이 어떻게 향상되는지 측정하기 위해 의미론적 목표와 무작위 목표에 대한 이러한 측정항목의 비율을 계산했습니다. 그림 4의 오른쪽 패널은 이러한 비율을 보여줍니다. 이는 표현이 무작위 목표보다는 의미론적 목표를 기반으로 데이터 클러스터링을 선호한다는 것을 보여줍니다. 흥미롭게도 CDNV(분산을 거리 제곱으로 나눈 값)는 거리 제곱이 감소함에 따라 감소한다는 것을 알 수 있습니다. 훈련 중에는 분산 비율이 상당히 안정적입니다. 이로 인해 클러스터 사이의 간격이 넓어지고, 이는 성능 향상으로 이어지는 것으로 나타났습니다.

범주 계층 구조 및 중간 계층 이해

이전 연구에서는 지도 학습에서 중간 계층이 점차 다양한 추상화 수준에서 특징을 포착한다는 사실이 입증되었습니다. 초기 레이어는 낮은 수준의 기능을 지향하는 경향이 있는 반면, 더 깊은 레이어는 보다 추상적인 기능을 캡처합니다. 다음으로 연구원들은 SSL 네트워크가 더 높은 수준에서 계층적 속성을 학습할 수 있는지, 그리고 어떤 수준이 이러한 속성과 더 잘 연관되는지 조사했습니다.

실험에서는 샘플 수준, 원래 100개 범주, 20개 상위 범주의 세 가지 수준에서 선형 테스트 정확도를 계산했습니다. 그림 2의 오른쪽 패널은 이러한 세 가지 다른 범주 세트에 대해 계산된 수량을 제공합니다. 훈련 과정에서 원래 카테고리와 상위 카테고리 수준의 성능 향상이 샘플 수준의 성능 향상보다 더 큰 것을 볼 수 있습니다.

다음은 SSL 훈련 모델의 중간 계층의 동작과 다양한 수준에서 목표를 포착하는 능력입니다. 그림 5의 왼쪽 및 중간 패널은 원래 목표와 상위 목표가 측정되는 다양한 훈련 단계의 모든 중간 레이어에 대한 선형 테스트 정확도를 제공합니다. 그림 5의 오른쪽 패널은 상위 카테고리와 원래 카테고리 간의 비율을 제공합니다.

Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的

그림 5: SSL은 전체 중간 계층에서 의미 범주를 효과적으로 학습할 수 있습니다.

연구원들은 이러한 결과를 바탕으로 몇 가지 결론에 도달했습니다. 첫째, 레이어가 깊어질수록 클러스터링 효과가 지속적으로 향상되는 것을 볼 수 있습니다. 또한, 지도 학습의 경우와 유사하게, 연구원들은 SSL 훈련 중에 네트워크의 각 계층의 선형 정확도가 향상되는 것을 발견했습니다. 특히 그들은 최종 레이어가 원래 클래스에 대한 최적의 레이어가 아니라는 사실을 발견했습니다. 최근 일부 SSL 연구에 따르면 다운스트림 작업은 다양한 알고리즘의 성능에 큰 영향을 미칠 수 있습니다. 우리의 연구는 이러한 관찰을 확장하여 네트워크의 다양한 부분이 다양한 다운스트림 작업 및 작업 수준에 적합할 수 있음을 제안합니다. 그림 5의 오른쪽 패널에 따르면 네트워크의 더 깊은 계층에서 슈퍼 카테고리의 정확도가 원래 카테고리의 정확도보다 더 향상되는 것을 볼 수 있습니다.

위 내용은 Yann LeCun 팀의 새로운 연구 결과: 자기 지도 학습의 역공학, 클러스터링이 다음과 같이 구현되는 것으로 나타났습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제