>  기사  >  기술 주변기기  >  불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

王林
王林앞으로
2023-04-09 13:31:061041검색

수천억 개의 모델의 위력을 입증한 GPT-3의 등장 이후 NLP 작업은 규모, 샘플, 성능 미세 조정이라는 불가능한 삼각 관계에 직면하게 되었습니다. 10억 개 미만의 매개변수를 가진 언어 모델이 SOTA의 Few-Shot(또는 심지어 Zero-shot) 및 Fine-tuning 성능을 어떻게 달성할 수 있습니까? 제로샷 시나리오를 해결하려면 수천억 개의 매개변수를 보유하고 불안정한 프롬프트를 견뎌야 합니까? 이 기사에서 IDEA 연구소 Fengshenbang 팀은 단 2억 개의 매개변수만으로 제로샷 SOTA를 달성할 수 있는 새로운 "현상학적" UniMC를 소개합니다. 관련 연구는 EMNLP 2022에 승인되었습니다.

올해 기사 [1]에서 사전 훈련 기술이 제안된 이후 NLP 세계에는 불가능한 삼각형이 있었다고 지적했습니다(아래 그림 1 참조). 즉, 모델이 다음을 동시에 만족할 수 없습니다.

  1. 중간 모델 크기(10억 미만);
  2. SOTA의 Few-Shot(또는 심지어 Zero-shot) 성능
  3. SOTA의 미세 조정 성능.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 1

불가능한 삼각형이 존재하는 이유는 현재 사전 학습된 모델의 매개 변수 수가 일정 크기에만 도달하고, 힌트 학습을 사용하기 때문입니다. 강력한 Fleet/Zero Shot 성능을 반영할 수 있습니다.

Fengshenbang 팀이 최근 발표하고 EMNLP 2022에 포함된 논문: "통합 다중 선택 관점을 통한 자연어 이해를 위한 제로 샷 학습자"는 이 "저주"를 깨고 유연하고 효율적인 솔루션을 제공합니다. 우리의 논문에서 제안한 UniMC는 매우 적은 수의 모델 매개변수(단지 1억 레벨)와 SOTA의 미세 조정 기능도 갖추고 있습니다(5400억 PaLM과 비교 가능) -Shot 성능. .

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

  • 논문 주소: https://arxiv.org/abs/2210.08590
  • 모델 오픈 소스 주소: https://github.com/IDEA-CCNL/Fengshenbang - LM/tree/main/fengshen/examples/unimc/

기술적 배경

2018년 BERT의 도입으로 NLP 분야 전체가 사전 훈련 시대에 진입했으며, 마침내 NLP가 한 단계 더 발전했습니다. 앞으로 단계. DeBERTa 및 기타 사전 훈련된 마스크 언어 모델(PMLM)과 같은 기존 모델은 이미 10억 미만의 매개변수로 SOTA 미세 조정을 달성할 수 있지만 제로 샷 시나리오에서 NLU 작업에 직면할 때 약합니다.

이유는 PMLM을 사용할 때 그림 2(c)와 같이 특정 작업에 대해 맨 위에 MLP 레이어를 추가해야 하기 때문입니다. 더욱이 이 MLP 레이어는 추가 매개변수를 추가하므로 이 방법은 제로 샷 시나리오에 직면할 때 무작위 초기화만 선택하게 하며 합리적인 출력을 얻을 수 있는 방법이 없습니다. 더욱이 미세 조정 시나리오에서 MLP 레이어를 추가하면 서로 다른 작업 간 전송도 불가능해집니다(예: 2-분류 작업과 3-분류 작업 간 전송이 불가능함).

제로샷 시나리오의 경우 최근 몇 년 동안 주류 접근 방식은 수백억 또는 수천억 개의 사전 훈련된 언어 모델(PLM)을 사용하여 NLU 작업을 텍스트 생성 작업으로 균일하게 변환하는 것입니다. 언어변환기는 그림 2(a)와 같이 대형 모델을 제로샷 작업에 적용할 수 있도록 설계되었습니다. 또한 FLAN 논문에서는 그림 2(b)와 같이 인위적으로 구성된 다수의 템플릿을 사용하여 다양한 작업을 통합함으로써 다른 작업에 대한 지식을 특정 작업으로 전달할 수 있습니다. 그러나 이러한 생성 모델에는 다음과 같은 단점이 있습니다.

  • 모델을 생성하려면 언어 변환기(레이블 설명)를 생성해야 하며, 언어 변환기는 일반적으로 수동으로 작성됩니다.
  • 프롬프트도 수동으로 설계해야 하며 다른 프롬프트는 성능에 큰 영향을 미칩니다. . 다운스트림 작업의 효과에 큰 영향을 미칩니다.
  • 추론할 때 생성 모델은 답변을 생성하기 위해 자동 회귀가 필요하며 이는 느립니다. 그리고 일반적으로 단방향이며 BERT와 같은 양방향 정보를 얻을 수 없습니다.
  • 몇 가지/제로샷 성능을 보장하기 위해 생성된 모델 매개변수의 수는 종종 GPT-3 또는 540의 경우 1,750억 개에 이릅니다. Billion for PaLM ;
  • FLAN의 명령어 튜닝은 다른 작업의 지식을 특정 작업으로 전달할 수 있지만, 다른 작업에 직면하려면 새로운 교육이 필요합니다. 예를 들어, A를 평가할 때는 BCDE를 훈련해야 하고, B를 평가할 때는 ACDE를 훈련해야 합니다.

그리고 우리는 위의 문제를 피하고 여러 중국어 및 영어 작업에서 SOTA 또는 가장 진보된 모델과 유사한 성능을 달성하는 그림 2(d)의 UniMC 방법을 제안했습니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 2

UniMC(새로운 모델 표현형)

모델 아이디어

대부분의 NLU 작업은 레이블을 기반으로 하며 모델 생성에는 급격히 증가하다 작업의 난이도와 모델의 학습 비용. 많은 레이블 기반 작업의 경우 일반적으로 입력 텍스트와 출력 텍스트가 각 레이블에 속할 확률만 제공하면 됩니다. 이 아이디어를 바탕으로 NLU 작업을 객관식 작업(Multiple-Choice)으로 변환합니다. 즉, 텍스트, 질문 및 옵션이 주어지면 옵션을 생성하지 않고 각 옵션의 확률을 출력합니다.

이를 바탕으로 새로운 컨셉을 제안합니다: 모델의 현상. 기존 모델 표현식은 항상 분류 레이어와 같은 특정 레이어를 나중에 추가합니다. 또는 생성된 모델 GPT의 표현형은 Prompt를 통해 모델에 대한 지식을 마이닝하는 것입니다. 우리가 제안한 UniMC 구성표는 PMLM에 추가 레이어를 도입할 필요가 없으며 PMLM의 또 다른 표현형을 활용합니다.

이 백서에서는 ALBERT를 백본 PMLM 네트워크로 선택합니다.

Uniform Multiple Choice Format

그림 3과 같이 모든 레이블 기반 NLU 작업을 통합 MC(Multiple-Choice) 형식으로 변환하려고 합니다. 우리의 철학은 인간의 정보를 가능한 한 적게 추가하는 것입니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 3

구체적으로 다음 두 단계를 수행했습니다.

  • 레이블을 옵션으로 변경
  • 질문 프롬프트를 추가할지 여부를 선택합니다. 데이터 세트의).

장점: 단 하나의 옵션 프롬프트만 설계되었으며, 질문 프롬프트는 하나 또는 없음이 설계되었습니다.

모델 구조

UniMC의 구조는 아래 그림 4와 같으며 BERT와 유사한 자동 인코딩 구조를 사용합니다. 주요 프로세스는 먼저 다양한 작업의 입력을 통합하고 입력 정보의 흐름을 제한하는 것입니다. PMLM 이후에는 MC 훈련에 O-MLM, OP 및 MLM을 사용하고 마지막으로 제로 샷 예측에 O-MLM 및 OP를 사용합니다. . 다음으로 솔루션을 단계별로 분석하겠습니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 4

입력 입력

그림 5 빨간색 실선 상자 영역의 내용. UniMC에 입력하기 전에 UniMC 고유의 토큰 형식으로 처리하여 변환해야 합니다. 계산 효율성을 높이기 위해 모든 옵션을 질문과 텍스트, 즉 [옵션, 질문, 지문]으로 직접 연결합니다. 그리고 각 옵션 앞에 특수 토큰인 [O-MASK]를 삽입하여 예 또는 아니요(이 옵션 선택 여부)를 나타냅니다. (참고로 재사용성을 높이기 위해 [MASK] 토큰을 재사용했습니다.

그림 5와 같이 녹색 점선 상자 영역의 내용입니다. 다음을 포함하여 입력 정보 소스가 너무 많다는 점을 고려해야 합니다. 옵션 정보, 질문 정보 및 텍스트 세그먼트 정보는 서로 영향을 미치므로 서로 다른 정보를 분리하려고 합니다. 예를 들어 입력 시 다른 옵션이 표시되면 질문의 난이도가 줄어들고 모델이 됩니다.

그래서 우리는 다음을 고려했습니다.

  • 옵션과 컨텍스트(질문, 지문) 정보가 다르다는 것을 모델에 알리기 위해 세그먼트 ID를 사용합니다.
  • 포지션 ID를 수정하려면 다음이 필요합니다. 모델이 다양한 옵션을 동일하게 처리하도록 위치 정보
  • 모델이 다양한 옵션의 정보를 볼 수 없도록 주의 마스크 매트릭스를 수정하여 모델을 비활성 상태로 만듭니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.모델은 어떻게 객관식 질문을 수행합니까(O-MLM 및 OP)

그림 6에 표시된 것처럼 O-MLM 및 OP 작업을 사용하여 모델이 다음을 "선택"할 수 있도록 합니다. 답변 O-MASK는 MASK 토큰에서 완전히 상속됩니다(구체적으로 추가 매개변수를 추가하지 않기 위해. 감독되지 않은 사전 학습 단계에서 모델이 학습한 지식을 최대한 활용하여 MaskLM 헤드의 매개변수를 재사용합니다.) ) 유일한 차이점은 100% 마스크된다는 것입니다. O-MLM 작업의 목표는 옵션이 선택되었는지 예측하는 데 사용되는 '예' 또는 '아니요'를 MASK로 만드는 것입니다.

OP 작업의 역할은 각 옵션의 '예'에 대한 답을 예측하는 것입니다. 구체적으로 각 옵션을 사용합니다. [O-MASK] 출력 '예'의 로짓에 대해 소프트맥스를 수행하여 다음의 확률을 얻습니다. 각 옵션을 선택하고 확률이 가장 높은 옵션을 예측 답변으로 선택합니다. 여러 MC 작업을 한 배치로 처리

그림 7과 같이 여러 MC 데이터 세트를 한 배치에 넣어서 효율성을 향상할 수 있기를 바랍니다. 일괄 처리할 때 문제를 발견했습니다. 일괄 처리에 서로 다른 옵션이 있는 샘플이 있으면 어떻게 될까요?

그래서 우리는 음의 무한대를 직접 할당하는 로짓 마스크 방법을 설계했습니다. 예측된 값을 합산함으로써 소프트맥스 계산 시 다른 토큰이 O-MASK에 미치는 영향을 제거할 수 있습니다. 또한, 다양한 수의 객관식 문제를 한 배치에서 균일하게 처리할 수 있습니다.

그림 7

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.모델 훈련 및 예측

MC 훈련

FLAN의 Instruction Tuning과 달리 MC 데이터 세트에 대해서만 훈련합니다. 이는 주로 모델이 객관식 질문을 수행하는 방법을 학습할 수 있도록 하기 위한 것이며 MC 데이터 세트는 어느 정도 다양성을 갖습니다. 데이터 세트는 동일하지 않은 레이블로 구성된 수에 따라 결정될 수 있습니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 8

제로샷 추론

흥미롭게도 이 두 작업은 훈련과 제로샷 추론이라는 두 단계로 수행될 수 있습니다. 일관성을 유지하세요. 이는 모델이 객관식 질문을 수행할 수 있도록 O-MLM과 OP라는 두 가지 작업을 사용하기 때문입니다. 그리고 분류 계층을 폐기했기 때문에 모든 매개변수를 재사용할 수 있으므로 PMLM의 제로샷 기능이 활성화됩니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 9

UniMC 성능

영어 시나리오

사전 훈련을 위해 14개의 객관식 작업을 수집한 후 제로샷을 위해 다른 NLU 작업을 수행했습니다. 성능 시험. 4가지 NLI 작업에서 UniMC는 SOTA를 달성하고 5,400억 개의 매개변수 PaLM 모델을 능가합니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 10

그리고 우리는 분류 작업에서 GPT-2와 GPT-3을 백본으로 사용하여 네트워크를 이겼습니다. 매우 어려운 Dbpedia 작업의 경우 최대 13개 카테고리까지 88.9%의 초고정확도를 달성할 수 있습니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 11

UNIMC의 일반화를 살펴보기 위해 FLAN과 비교했습니다. 보시다시피 UniMC는 거의 모든 작업에서 FLAN을 능가하거나 이에 근접할 수 있습니다.

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 12

중국 장면

중국 장면에서는 40개의 감독 데이터 세트를 수집하고 MC 작업 형식으로 균일하게 구성하여 UniMC 모델에 대한 실험을 수행했습니다. Pre -FewCLUE 및 ZeroCLUE의 9가지 작업을 훈련한 후 테스트합니다. 2022년 8월 30일 현재 UniMC가 FewCLUE 및 ZeroCLUE 목록 모두에서 1위를 달성했습니다(사진의 Erlangshen - UnifiedMC는 UniMC입니다).

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 13

불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.

그림 14

결론

우리는 새로운 제로샷 솔루션을 제안했습니다 시나리오에서 NLU 작업에 수억만 사용 매개변수 수가 수천 배에 달하는 복잡한 대규모 모델을 무력화할 수 있습니다.

또한 인위적인 정보는 거의 소개하지 않습니다. 그리고 BERT 유형 모델의 사전 훈련과 미세 조정 사이의 불일치 문제를 극복하고 훈련과 예측이 일관됩니다. 한 번의 훈련과 여러 개의 제로샷 예측을 수행할 수도 있어 컴퓨팅 전력 비용이 크게 절감됩니다. 현재 IDEA Fengshenban 팀은 70개 이상의 사전 훈련된 대형 모델을 출시했습니다.

  • 모델: https://huggingface.co/IDEA-CCNL
  • Fengshenbang 전체 논문(중국어 및 영어 이중 언어): https://arxiv.org/abs/2209.02970
  • Fengshenbang 홈페이지: https://github.com/IDEA-CCNL/Fengshenbang-LM

Quote

[1]불가능한 삼각형: 사전 훈련된 언어 모델의 다음 단계는 무엇입니까?https: / /readpaper.com/paper/4612531641570566145

위 내용은 불가능한 삼각형을 깨고 5,400억 개의 모델과 경쟁하는 IDEA Fengshen List 팀은 2억 개의 모델로 제로 샘플 학습 SOTA를 달성했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제