>  기사  >  기술 주변기기  >  Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

WBOY
WBOY앞으로
2023-04-09 17:41:101111검색

저자: Luo Ying, Xu Jun, Xie Rui 등

1 개요

CLUE (중국어 이해 평가)[1]는 텍스트 분류, 인터를 포함한 중국어 이해에 대한 권위 있는 평가 목록입니다. -문장 관계, 읽기 이해 및 기타 많은 의미 분석 및 의미 이해 하위 작업은 학계와 산업 모두에 큰 영향을 미쳤습니다.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

그림 1 FewCLUE 목록(2022-04-18 기준)

FewCLUE[2,3]은 중국 소표본 학습 평가에 특별히 사용되는 CLUE의 하위 목록입니다. 사전 훈련된 언어 모델의 보편적이고 강력한 일반화 기능을 통해 소규모 샘플 학습을 위한 최상의 모델과 중국어 실습을 탐색합니다. FewCLUE의 데이터 세트 중 일부에는 레이블이 지정된 샘플이 100개가 넘는데, 이는 매우 적은 수의 레이블이 지정된 샘플에서 모델의 일반화 성능을 측정할 수 있으며 출시 후 NetEase, WeChat AI, Alibaba, IDEA 연구소 및 기타 기관의 관심을 끌었습니다. 인스퍼 인공지능연구소를 비롯한 많은 기업과 연구기관이 참여했습니다. 얼마 전 메이투안 플랫폼 검색 및 NLP 부서 NLP 센터 의미 이해팀의 소규모 샘플 학습 모델 FSL++가 우수한 성능으로 FewCLUE 목록에서 1위를 차지해 SOTA 수준에 도달했습니다.

2 방법 소개

대규모 사전 학습 모델이 다양한 주요 작업에서 매우 좋은 결과를 얻었음에도 불구하고 특정 작업에는 여전히 많은 레이블이 지정된 데이터가 필요합니다. Meituan의 다양한 비즈니스에는 높은 수동 라벨링 비용이 필요한 풍부한 NLP 시나리오가 있습니다. 비즈니스 개발 초기 단계 또는 새로운 비즈니스를 신속하게 시작해야 하는 경우 레이블이 지정된 샘플이 부족한 경우가 많습니다. 기존 Pretrain(pre-training) + Fine-Tune(fine-tuning)을 사용한 딥 러닝 학습 방법입니다. ) 이상적인 지표 요구 사항을 달성할 수 없는 경우가 많으므로 소규모 샘플 시나리오에서 모델 교육 문제를 연구하는 것이 매우 필요합니다.

이 기사에서는 모델 구조 최적화, 대규모 사전 학습, 샘플 향상, 앙상블 학습 및 자체 학습과 같은 모델 최적화 전략을 결합한 대규모 모델 + 소규모 샘플 공동 학습 방식 FSL++ 세트를 제안합니다. 중국어 이해에서 권위 있는 수준 달성 평가 벤치마크의 FewCLUE 목록은 우수한 결과를 얻었으며 일부 작업에서는 성능이 인간 수준을 초과하는 반면 일부 작업(예: CLUEWSC)에서는 여전히 개선의 여지가 있습니다.

FewCLUE 출시 후 NetEase Fuxi는 자체 개발한 EET 모델[4]을 사용하고 2차 교육을 통해 모델의 의미론적 이해를 높인 후 IDEA 연구소의 다중 작업 학습을 위한 템플릿을 추가했습니다. Erlangshen 모델[ 5]보다 발전된 사전 훈련 기술을 사용하여 BERT 모델을 기반으로 하는 대규모 모델을 훈련하고, 다운스트림 작업을 미세 조정하는 과정에서 동적 마스크 전략이 포함된 MLM(Masked Language Model)을 보조 작업으로 사용합니다. 이러한 방법은 모두 Prompt Learning을 기본 작업 구조로 사용합니다. 자체 개발한 대형 모델에 비해 우리의 방법은 주로 Prompt Learning 프레임워크를 기반으로 샘플 향상, 앙상블 학습, 자체 학습과 같은 모델 최적화 전략을 추가하여 크게 향상됩니다. 모델의 작업 성능과 견고성을 향상시키는 동시에 이 방법을 다양한 사전 훈련 모델에 적용할 수 있어 더욱 유연하고 편리해집니다.

FSL++의 전체 모델 구조는 아래 그림 2에 나와 있습니다. FewCLUE 데이터 세트는 각 작업에 대해 160개의 레이블이 지정된 데이터와 거의 20,000개의 레이블이 지정되지 않은 데이터를 제공합니다. 이번 FewCLUE 실습에서는 먼저 Fine-Tune 단계에서 다중 템플릿 Prompt Learning을 구축하고, 라벨링된 데이터에 대해 적대적 훈련, 대조 학습, 혼합 등의 강화 전략을 사용했습니다. 이러한 데이터 향상 전략은 서로 다른 향상 원리를 사용하므로 이러한 모델 간의 차이가 상대적으로 중요하고 통합 학습 후에 더 나은 결과를 얻을 것이라고 생각할 수 있습니다. 따라서 훈련을 위해 데이터 향상 전략을 사용한 후 여러 개의 약한 지도 모델을 갖게 되며 이러한 약한 지도 모델을 사용하여 레이블이 없는 데이터를 예측하여 레이블이 없는 데이터의 의사 레이블 분포를 얻습니다. 그 후, 다양한 데이터 확대 모델에서 예측한 레이블이 없는 데이터의 여러 의사 레이블 분포를 통합하여 레이블이 없는 데이터의 전체 의사 레이블 분포를 얻은 다음 다중 템플릿 프롬프트 학습을 재구성하고 데이터를 다시 사용합니다. 전략을 강화하고 다음을 선택합니다. 최적의 전략. 현재 우리 실험은 한 번의 반복만 수행하며 여러 번의 반복을 시도할 수도 있습니다. 그러나 반복 횟수가 증가하면 개선 효과가 더 이상 뚜렷하지 않습니다.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

그림 2 FSL++ 모델 프레임워크

2.1 향상된 사전 학습

사전 학습된 언어 모델은 레이블이 지정되지 않은 거대한 코퍼스에서 학습됩니다. 예를 들어 RoBERTa[6]는 백과사전, 뉴스 기사, 문학 작품, 웹 콘텐츠를 포함하여 160GB가 넘는 텍스트에 대해 교육을 받았습니다. 이러한 모델을 통해 학습된 표현은 여러 소스의 다양한 크기의 데이터 세트와 관련된 작업에서 뛰어난 성능을 달성합니다.

FSL++ 모델은 RoBERTa-large 모델을 기본 모델로 사용하고, 도메인 지식을 통합한 Domain-Adaptive Pretraining(DAPT)[7]사전 학습 방법과 Task-Adaptive Pretraining(TAPT)을 채택합니다 )[7]. DAPT는 사전 훈련된 모델을 기반으로 언어 모델을 계속 훈련하기 위해 필드에 레이블이 없는 대량의 텍스트를 추가한 다음 지정된 작업의 데이터 세트에서 이를 미세 조정하는 것을 목표로 합니다.

대상 텍스트 도메인에 대한 사전 학습을 계속하면 특히 대상 텍스트 도메인과 관련된 다운스트림 작업에서 언어 모델의 성능을 향상할 수 있습니다. 또한 사전 훈련 텍스트와 작업 영역 간의 상관 관계가 높을수록 개선 효과가 커집니다. 이번 실습에서는 엔터테인먼트 프로그램, 스포츠, 건강, 국제 문제, 영화, 연예인 및 기타 분야의 100G 코퍼스가 포함된 CLUE Vocab[8]에 대해 사전 훈련된 RoBERTa Large 모델을 최종적으로 사용했습니다. TAPT는 사전 학습을 위해 사전 학습된 모델을 기반으로 작업과 직접적으로 관련된 소량의 레이블이 지정되지 않은 코퍼스를 추가하는 것을 의미합니다. TAPT 작업의 경우 우리가 사용하기로 선택한 사전 훈련 데이터는 각 작업에 대해 FewCLUE 목록에서 제공하는 레이블이 없는 데이터입니다.

이외에도 중국어 자연어 추론 과제 OCNLI, 중국어 대화 단문 일치 과제 BUSTM 등의 문장간 관계 과제 실습에서는 중국어 자연어 추론 데이터셋 등 다른 문장간 관계 과제를 활용합니다. CMNLI 및 중국어 짧은 텍스트 유사성 데이터 세트 LCQMC에 대해 사전 훈련된 모델 매개변수를 초기 매개변수로 사용하여 작업을 완료하기 위해 원본 모델을 직접 사용하는 것과 비교하면 어느 정도 효과를 향상시킬 수 있습니다.

2.2 모델 구조

FewCLUE에는 다양한 작업 형식이 포함되어 있으며 각 작업에 적합한 모델 구조를 선택했습니다. 텍스트 분류 작업 및 기계 독해(MRC) 작업의 범주 단어는 정보를 전달하므로 문장 간 관계 작업이 결정하는 동안 마스크드 언어 모델(MLM) 형식으로 모델링하는 데 더 적합합니다. 두 문장 간의 상관 관계, 다음 문장 예측(NSP)[9]작업 형식과 더 유사합니다. 따라서 분류 작업과 독해 작업에는 PET[10] 모델을 선택하고, 문장 간 관계 작업에는 EFL[11] 모델을 선택합니다. EFL 방법은 전역 샘플링을 통해 음성 샘플을 구성하고 더욱 강력하게 학습할 수 있습니다. 분류 장치.

2.2.1 Prompt Learning

Prompt Learning의 주요 목표는 사전 훈련 목표와 다운스트림 미세 조정 목표 간의 차이를 최소화하는 것입니다. 일반적으로 기존 사전 훈련 작업에는 MLM 손실 함수가 포함되어 있지만 다운스트림 작업에서는 MLM을 사용하지 않고 새로운 분류기를 도입하여 사전 훈련 작업과 다운스트림 작업 간에 불일치가 발생합니다. 프롬프트 학습은 추가 분류기나 기타 매개 변수를 도입하지 않고 템플릿(입력 데이터에 대한 언어 조각을 접합하는 Template)과 각 레이블에 대한 레이블 단어 매핑(Verbalizer)을 접합하여 작업을 MLM 형식으로 변환합니다. MLM 작업의 예측 대상을 설정하기 위해 어휘의 해당 단어)를 사용하여 적은 수의 샘플로 다운스트림 작업에 모델을 사용할 수 있습니다.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련그림 3 감성 분석 작업을 완료하기 위한 프롬프트 학습 방법의 흐름도

그림 3에 표시된 전자상거래 평가 감정 분석 작업 EPRSTMT를 예로 들어 보겠습니다. "이 영화는 정말 좋다. 두 번 볼 가치가 있다!"라는 텍스트가 주어지면 전통적인 텍스트 분류는 분류기를 CLS 부분의 Embedding에 연결하고 이를 0-1 분류에 매핑하는 것입니다(0: negative , 1: 긍정적 ). 이 방법은 작은 샘플 시나리오에서 새로운 분류기를 훈련해야 하며 좋은 결과를 얻기가 어렵습니다. Prompt Learning 기반의 방법은 "This is a [MASK] comment"라는 템플릿을 생성한 후, 학습 중에 언어 모델이 [MASK] 위치의 단어를 예측한 후 매핑하는 것입니다. 해당 카테고리에 올려주세요. (좋음: 긍정적, 나쁨: 부정적)

데이터가 부족하여 가장 성능이 좋은 템플릿과 태그 단어 매핑을 결정하기 어려울 때가 있습니다. 따라서 다중 템플릿 및 다중 레이블 단어 매핑 디자인도 채택할 수 있습니다. 여러 템플릿을 디자인하여 최종 결과는 여러 템플릿의 결과를 통합하거나 하나의 태그가 여러 단어에 대응되도록 일대다 태그 단어 매핑을 설계하는 방식을 채택합니다. 위의 예와 유사하게 다음과 같은 템플릿 조합을 설계할 수 있습니다(왼쪽: 동일한 문장에 대한 여러 템플릿, 오른쪽: 다중 레이블 매핑).

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

그림 4 PET 다중 템플릿 및 다중 라벨 매핑

작업 샘플

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

표 1 FewCLUE 데이터세트의 PET 템플릿 구성

2.2 EFL

EFL 모델은 출력 레이어의 [CLS] 위치에 Embedding을 사용하고 분류기를 사용하여 예측을 완료하여 두 문장을 연결합니다. EFL의 훈련 과정에서는 훈련 세트의 샘플 외에도 음성 샘플도 구성됩니다. 훈련 과정에서 각 배치에서 다른 데이터의 문장을 무작위로 음성 샘플로 선택하고 음성 샘플을 구성하여 데이터 향상을 수행합니다. 견본. EFL 모델은 새로운 분류자를 훈련해야 하지만 현재 CMNLI, LCQMC 등과 같은 공개 텍스트 암시/문장 간 관계 데이터 세트가 많이 있으며 이러한 샘플을 통해 지속적으로 학습할 수 있습니다(continue-train). 그런 다음 학습된 매개변수는 소규모 샘플 시나리오로 전송되고 FewCLUE의 작업 데이터 세트를 사용하여 추가로 미세 조정됩니다.

작업 예

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련표 2 FewCLUE 데이터세트의 EFL 템플릿 구성

2.3 데이터 향상

데이터 향상 방법에는 주로 샘플 향상과 임베딩 향상이 포함됩니다. NLP 분야에서 데이터 증대의 목적은 의미를 변경하지 않고 텍스트 데이터를 확장하는 것입니다. 주요 방법으로는 간단한 텍스트 대체, 언어 모델을 사용하여 유사한 문장 생성 등이 있습니다. 텍스트 데이터를 확장하기 위해 EDA와 같은 방법을 시도했지만 단어의 변경으로 인해 전체 문장의 의미가 뒤집힐 수 있으며 대체됩니다. 텍스트에는 노이즈가 많기 때문에 간단한 규칙 샘플 변경으로는 충분한 증강 데이터를 생성하기가 어렵습니다. 그러나 임베딩 향상은 더 이상 입력에서 작동하지 않고 임베딩 수준에서 작동합니다. 임베딩에 섭동이나 보간을 추가하면 모델의 견고성이 향상될 수 있습니다.

따라서 이번 실습에서는 Embedding Enhancement를 주로 수행합니다. 우리가 사용하는 데이터 향상 전략에는 Mixup[12], Manifold-Mixup[13], 적대적 훈련(Adversarial training, AT) [14] 및 대조 학습 R-drop[15]이 포함됩니다.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련표 3 데이터 향상 전략에 대한 간략한 설명

Mixup은 입력 데이터에 대해 간단한 선형 변환을 수행하여 새로운 결합 샘플과 결합 레이블을 구성함으로써 모델의 일반화 능력을 향상시킬 수 있습니다. 다양한 지도 또는 반지도 작업에서 Mixup을 사용하면 모델의 일반화 능력이 크게 향상될 수 있습니다. Mixup 방법은 특성 수준에서 모델에 의해 생성된 결합된 특성이 선형 제약 조건을 만족하도록 요구하고 이 제약 조건을 사용하여 모델을 정규화하는 정규화 작업으로 간주할 수 있습니다. 직관적으로 모델의 입력이 다른 두 입력의 선형 결합인 경우 출력도 두 데이터를 별도로 모델에 입력한 후 얻은 출력의 선형 결합입니다. 실제로 모델은 대략적으로 필요합니다. 선형 시스템.

Manifold Mixup은 위의 Mixup 작업을 기능으로 일반화한 것입니다. 기능에는 고차 의미 정보가 있으므로 해당 차원 전체에 걸쳐 보간하면 더 의미 있는 샘플이 생성될 수 있습니다. BERT[9] 및 RoBERTa[6]과 유사한 모델에서는 레이어 수 k가 무작위로 선택되고 이 레이어의 특징 표현에 대해 혼합 보간이 수행됩니다. 일반적인 Mixup의 보간은 출력 레이어의 Embedding 부분에서 발생하며 Manifold Mixup은 언어 모델 내부 Transformers 구조의 임의 레이어에 이러한 일련의 보간 작업을 추가하는 것과 동일합니다.

적대적 훈련은 입력 샘플에 작은 교란을 추가하여 모델 손실을 크게 개선합니다. 적대적 훈련은 원본 표본과 적대적 표본을 효과적으로 식별할 수 있는 모델을 훈련시키는 것입니다. 기본 원리는 섭동을 추가하여 일부 적대적 샘플을 구성하고 훈련용 모델에 제공함으로써 적대적 샘플을 만날 때 모델의 견고성을 향상시키는 동시에 모델의 성능 및 일반화 기능을 향상시키는 것입니다. 적대적 예에는 두 가지 특성이 있어야 합니다. 즉,

  1. 원래 입력에 비해 추가된 섭동은 작습니다.
  2. 모델이 실수를 하게 만들 수 있습니다. 적대적 훈련에는 악의적인 공격에 대한 모델의 견고성을 향상시키는 것과 모델의 일반화 능력을 향상시키는 두 가지 기능이 있습니다.

R-Drop은 동일한 문장에 대해 Dropout을 두 번 수행하고 Dropout에 의해 생성된 다양한 하위 모델의 출력 확률이 일관되도록 강제합니다. Dropout의 도입은 잘 작동하지만 훈련 및 추론 프로세스에서 불일치 문제가 발생할 수 있습니다. 이러한 훈련 추론 프로세스의 불일치를 완화하기 위해 R-Drop은 Dropout을 정규화하고 두 하위 모델에서 생성된 출력의 출력 데이터 분포에 대한 제한을 추가하며 데이터 분포 측정값의 KL 발산 손실을 도입합니다. 동일한 샘플에서 생성된 두 데이터 분포는 최대한 가까워야 하며 분포 일관성이 있어야 합니다. 특히, 각 훈련 샘플에 대해 R-Drop은 다양한 Dropouts에 의해 생성된 하위 모델의 출력 확률 간의 KL 차이를 최소화합니다. 훈련 아이디어로서 R-Drop은 대부분의 지도 또는 반지도 훈련에 사용될 수 있으며 매우 다재다능합니다.

우리가 사용하는 세 가지 데이터 향상 전략인 Mixup은 출력 레이어의 두 샘플 사이에 선형 변화를 만드는 것입니다. 언어 모델 내부에 언어 모델과 트랜스포머의 무작위 레이어의 출력 레이어를 임베딩하고, 적대적 훈련은 샘플 수를 늘리십시오. 작은 섭동이 있는 반면, 대조 학습은 동일한 문장에 대해 두 개의 Dropout을 수행하여 양성 샘플 쌍을 형성한 다음 KL 분기를 사용하여 두 하위 모델이 일관되도록 제한합니다. 세 가지 전략 모두 Embedding에서 일부 작업을 완료하여 모델의 일반화를 향상시킵니다. 서로 다른 전략을 통해 얻은 모델은 서로 다른 선호도를 가지며 이는 앙상블 학습의 다음 단계를 위한 조건을 제공합니다.

2.4 앙상블 학습 및 자가 훈련

앙상블 학습은 더 좋고 포괄적인 강력한 지도 모델을 얻기 위해 여러 개의 약한 지도 모델을 결합할 수 있습니다. 앙상블 학습의 기본 개념은 약한 분류기가 잘못된 예측을 하더라도 다른 약한 분류기가 오류를 수정할 수 있다는 것입니다. 결합할 모델 간의 차이가 상당한 경우 일반적으로 앙상블 학습이 더 나은 결과를 생성합니다.

자가 훈련은 소량의 레이블이 있는 데이터와 대량의 레이블이 없는 데이터를 사용하여 모델을 공동으로 훈련합니다. 먼저 훈련된 분류기를 사용하여 레이블이 없는 모든 데이터의 레이블을 예측한 다음 다음과 같이 신뢰도가 더 높은 레이블을 선택합니다. 의사 레이블 데이터, 의사 레이블이 지정된 데이터는 사람이 레이블을 지정한 훈련 데이터와 결합되어 분류기를 재교육합니다.

Ensemble learning + self-training은 다양한 모델과 라벨링되지 않은 데이터를 활용할 수 있는 솔루션입니다. 그중 앙상블 학습의 일반적인 단계는 다음과 같습니다: 여러 개의 서로 다른 약하게 지도되는 모델을 훈련하고, 각 모델을 사용하여 레이블이 없는 데이터의 레이블 확률 분포를 예측하고, 레이블 확률 분포의 가중 합을 계산하고, 레이블이 없는 데이터의 의사 레이블 확률 분포를 얻습니다. 데이터. 자가 학습은 다른 모델을 결합하기 위해 모델을 학습하는 것을 의미합니다. 일반적인 단계는 다음과 같습니다. 여러 Teacher 모델을 학습하고, Student 모델은 의사 라벨 확률 분포에서 신뢰도가 높은 샘플의 소프트 예측을 학습하며, Student 모델은 역할을 합니다. 마지막으로 강한 학습자.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련그림 5 통합 학습 + 자체 학습 구조

이 FewCLUE 실습에서는 먼저 Fine-Tune 단계에서 다중 템플릿 프롬프트 학습을 구성하고 레이블이 지정된 데이터에 대한 적대적 학습 및 비교를 사용합니다. 학습, 혼합 및 기타 향상 전략. 이러한 데이터 향상 전략은 서로 다른 향상 원리를 사용하므로 이러한 모델 간의 차이가 상대적으로 중요하고 통합 학습 후에 더 나은 결과를 얻을 것이라고 생각할 수 있습니다.

데이터 증대 전략을 사용하여 훈련한 후 여러 개의 약한 감독 모델을 갖게 되며 이러한 약한 감독 모델을 사용하여 레이블이 없는 데이터를 예측하여 레이블이 없는 데이터의 의사 레이블 분포를 얻습니다. 그 후, 우리는 다양한 데이터 증대 모델에 의해 예측된 레이블이 없는 데이터의 여러 의사 레이블 분포를 통합하여 레이블이 없는 데이터의 전체 의사 레이블 분포를 얻습니다. Pseudo-label 데이터를 선별하는 과정에서 반드시 신뢰도가 가장 높은 표본을 선택하지는 않을 것입니다. 왜냐하면 각 데이터 증대 모델에서 부여하는 신뢰도가 매우 높다면 이 표본이 학습하기 쉬운 표본일 수 있기 때문입니다. 반드시 큰 값을 가질 필요는 없습니다.

여러 데이터 향상 모델에서 제공하는 신뢰도 수준을 결합하고 신뢰도 수준이 더 높은 샘플을 선택하려고 하지만 배우기가 쉽지 않습니다(예를 들어 여러 모델의 예측이 모두 일관되지는 않습니다). 그런 다음 레이블이 지정된 데이터와 의사 레이블이 지정된 데이터 집합을 사용하여 다중 템플릿 프롬프트 학습을 재구성하고 데이터 증대 전략을 다시 사용하여 최상의 전략을 선택합니다. 현재 우리의 실험은 한 번의 반복만 수행하며 여러 번의 반복을 시도할 수도 있습니다. 그러나 반복 횟수가 증가하면 개선 효과가 줄어들고 더 이상 의미가 없습니다.

3 실험 결과

3.1 데이터 세트 소개

FewCLUE 목록은 텍스트 분류 작업 4개, 문장 간 관계 작업 2개, 독해 작업 3개 등 9개 작업을 제공합니다. 텍스트 분류 작업에는 전자상거래 평가 감성 분석, 과학 문서 분류, 뉴스 분류, 앱 애플리케이션 설명 주제 분류 작업이 포함됩니다. 주로 단문 다중분류, 단문 다중분류, 장문 다중분류 두 가지로 분류된다. 일부 작업에는 100개 이상의 카테고리가 있으며 카테고리 불균형 문제가 있습니다. 문장 간 관계 작업에는 자연어 추론 및 짧은 텍스트 일치 작업이 포함됩니다. 독해 과제에는 관용어 독해, 선택적 빈칸 채우기, 요약 판단, 키워드 식별, 대명사 명확성 과제가 포함됩니다. 각 작업은 대략 160개의 레이블이 지정된 데이터와 약 20,000개의 레이블이 지정되지 않은 데이터를 제공합니다. 긴 텍스트 분류 작업은 카테고리가 많고 너무 어렵기 때문에 더 많은 레이블이 지정된 데이터를 제공합니다. 자세한 작업 데이터는 표 4에 나와 있습니다.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

표 4 FewCLUE 데이터 세트 작업 소개

3.2 실험 비교

표 5는 다양한 모델 및 매개변수 양에 따른 실험 결과의 비교를 보여줍니다. RoBERTa Base 실험에서 PET/EFL 모델을 사용하면 기존의 직접 Fine-Tune 모델 결과가 2-28PP만큼 초과됩니다. PET/EFL 모델을 기반으로 소규모 샘플 시나리오에서 대형 모델의 효과를 탐색하기 위해 RoBERTa Large에 대한 실험을 수행했습니다. RoBERTa Base와 비교하여 대형 모델은 모델을 더 잘 활용하기 위해 0.5-13PP를 향상시킬 수 있습니다. 도메인 지식을 기반으로 CLUE 데이터 세트를 사전 학습한 RoBERTa Large Clue 모델에 대한 실험을 추가로 수행했으며, 도메인 지식을 통합한 대형 모델은 결과를 0.1~9pp 정도 더 향상시켰습니다. 이를 바탕으로 후속 실험에서는 RoBERTa Large Clue에 대한 실험을 진행할 예정이다.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

표 5 다양한 모델 및 매개변수 양의 실험 결과 비교(굵은 빨간색 글꼴이 가장 좋은 결과를 나타냄)

표 6은 PET/EFL 모델에 대한 데이터 향상 및 앙상블 학습의 실험 결과를 보여줍니다. 대규모 모델에 데이터 향상 전략을 사용하더라도 모델은 0.8-9PP의 향상을 가져올 수 있으며, 추가 통합 학습 및 자체 학습 후에 모델 성능은 0.4-4PP만큼 지속적으로 향상된다는 것을 알 수 있습니다.

Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련

표 6 기본 모델 + 데이터 향상 + 앙상블 학습 실험 결과(굵은 빨간색 글꼴이 가장 좋은 결과를 나타냄)

앙상블 학습 + self-training 단계에서는 여러 선별 전략을 시도했습니다.

  1. 신뢰도가 가장 높은 샘플을 선택하세요. 이 전략으로 인한 개선은 1PP 이내입니다. 신뢰도가 가장 높은 유사 라벨 샘플 중 다수는 여러 모델에 의한 일관된 예측과 상대적으로 신뢰도가 높은 샘플입니다. 배우기 쉽고 이러한 샘플을 통합하는 데 따른 이점은 제한적입니다.
  2. 신뢰도와 논란의 여지가 높은 표본을 선택합니다(다른 모델 예측 결과와 일치하지 않는 모델이 하나 이상 있지만 여러 모델의 전체 신뢰도가 임계값 1을 초과함). 이 전략은 특별함을 피합니다. 배우기 쉬운 샘플과 너무 많은 더러운 데이터를 가져오지 않도록 임계값을 설정하면 0-3PP의 개선을 가져올 수 있습니다.
  3. 샘플에 대한 여러 모델의 예측 결과가 있는 경우 위의 두 가지 전략을 통합하세요. 일관성이 있는 경우 신뢰 수준이 임계값 2보다 작은 샘플을 선택합니다. 하나 이상의 모델이 다른 모델의 예측 결과와 일치하지 않는 경우 신뢰 수준이 임계값 3보다 큰 샘플을 선택합니다. 이 방법은 출력의 신뢰성을 보장하기 위해 더 높은 신뢰도를 갖는 샘플을 동시에 선택하고, 선택된 의사 라벨 샘플의 학습 난이도가 더 높도록 논란이 많은 샘플을 선택하여 0.4-4PP의 개선을 가져올 수 있습니다.

4 메이투안 시나리오에서 소규모 샘플 학습 전략 적용

메이투안의 다양한 비즈니스에는 위에서 언급한 것처럼 일부 작업은 텍스트 분류 작업과 문장 간 관계 작업으로 분류될 수 있습니다. -샘플 학습 전략은 Meituan-Dianping의 다양한 시나리오에 적용되었으며, 데이터 리소스가 부족한 경우 더 나은 모델을 훈련할 것으로 예상됩니다. 또한, 소규모 샘플 학습 전략은 Meituan 내부 자연어 처리(NLP) 플랫폼의 다양한 NLP 알고리즘 기능에 널리 사용되었으며 많은 비즈니스 시나리오에서 구현되었으며 Meituan 내부 엔지니어는 이 플랫폼을 사용할 수 있습니다. NLP 센터와 관련된 역량을 경험해 보세요.

텍스트 분류 작업

메디컬 뷰티 주제 분류: 메이투안과 디앤핑에 대한 노트는 호기심 사냥, 매장 탐색, 평가, 실제 사례, 치료 과정, 함정 회피, 효과 비교, 과학 대중화. 사용자가 특정 주제를 클릭하면 해당 노트 내용이 반환되고, 메이투안 메디컬 뷰티 채널의 백과사전 페이지와 플랜 페이지에서 경험 공유가 공유되며, 2,989개의 트레이닝 데이터를 활용한 소규모 샘플 학습의 정확성. 1.8PP 증가해 89.24%에 달했다.

전략 식별: UGC 및 노트에서 여행 전략 마이닝, 여행 전략 콘텐츠 공급 제공, 명승지 검색 아래 전략 모듈에 적용, 리콜된 콘텐츠는 여행 전략을 설명하는 노트, 소규모 샘플 학습 및 활용입니다. 384개 항목 학습 데이터 정확도가 2PP 증가하여 87%에 도달했습니다.

Xuecheng 텍스트 분류: Xuecheng(Meituan 내부 지식 베이스)에는 유도 후 텍스트가 700개 카테고리로 나누어져 있습니다. 샘플 학습을 통해 기존 모델 대비 모델 정확도가 2.5PP 향상되어 84%에 도달합니다.

프로젝트 심사: 현재 LE 라이프 서비스/뷰티 등의 평가 목록 페이지는 평가를 혼합하고 정리하여 사용자가 의사결정 정보를 빠르게 찾는 데 불편하므로 사용자를 만나기 위해서는 보다 구조화된 분류 태그가 필요합니다. 요구 사항 및 소규모 샘플 학습 이 두 사업에서는 300~500개의 데이터를 사용한 정확도가 95% 이상에 도달했습니다(여러 데이터 세트가 각각 1.5~4PP 증가했습니다).

문장관계과제

메디안과 디앤핑의 효능별 노트 내용을 떠올려보세요. 효능 종류는 수분 공급, 미백, 얼굴 슬리밍, 주름 제거 등입니다. , 온라인 메디컬 뷰티 채널 페이지에는 표시해야 할 효능이 110가지가 있습니다. 소규모 샘플 학습에서는 2909개의 훈련 데이터만 사용하여 91.88%(2.8PP 증가)의 정확도를 달성했습니다.

메디컬 뷰티 브랜드 마킹: 브랜드 업스트림 기업은 자사 제품의 브랜드 홍보 및 마케팅에 대한 수요가 있으며, 콘텐츠 마케팅은 현재 주류이자 효과적인 마케팅 방법 중 하나입니다. 브랜드 마킹은 "European", "Shuweike" 등 각 브랜드에 대해 자세히 설명하는 메모를 기억하는 것입니다. 총 103개의 브랜드가 있으며, 의료 뷰티 브랜드 홀에 온라인으로 등록되어 있는 소규모 샘플에는 1,676개의 교육 항목만 필요합니다. 학습 데이터 정확도는 88.59%(2.9PP 증가)에 도달했습니다.

5 요약

이번 목록 제출에서는 RoBERTa를 기반으로 하는 의미 이해 모델과 강화된 사전 학습, PET/EFL 모델, 데이터 강화 및 통합 학습 및 자가 학습의 성능을 향상시켰습니다. 모델. 이 모델은 텍스트 분류, 문장 간 관계 추론 작업 및 여러 독해 작업을 완료할 수 있습니다.

이번 평가 작업에 참여함으로써 우리는 소규모 샘플 시나리오에서 자연어 이해 분야의 알고리즘과 연구에 대한 더 깊은 이해를 갖게 되었습니다. 또한 이를 사용하여 최첨단 중국어 구현 능력을 철저히 테스트했습니다. 알고리즘을 통해 향후 발전을 위한 기반을 마련하고, 알고리즘 연구와 구현을 통해 기반을 마련했습니다. 또한 이 데이터 세트의 작업 시나리오는 Meituan 검색 및 NLP 부서의 비즈니스 시나리오와 매우 유사합니다. 이 모델의 많은 전략도 실제 비즈니스에 직접 적용되어 비즈니스에 직접적인 힘을 실어줍니다.

6 이 기사의 저자

Luo Ying, Xu Jun, Xie Rui 및 Wu Wei는 모두 Meituan Search 및 NLP 부서/NLP 센터 출신입니다.

위 내용은 Meituan은 소규모 샘플 학습 목록 FewCLUE에서 1위를 차지했습니다! 신속한 학습+자기 훈련의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제