집 >기술 주변기기 >일체 포함 >대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-08-05 20:48:40963검색

인간이 생성한 데이터에 주로 의존하여 대형 모델을 미세 조정하는 현재의 일반적인 관행에 직면하여 Google DeepMind는 이러한 의존성을 줄이기 위한 보다 효율적인 방법을 모색했습니다.

여러분과 제가 볼 수 있듯이 LLM(대형 언어 모델)은 딥 러닝 환경을 변화시키고 있으며 인간 수준의 텍스트를 생성하고 다양한 언어 작업을 해결하는 데 있어 뛰어난 기능을 보여줍니다. 업계에서는 인간이 수집한 데이터를 정밀 조정 감독하여 특정 작업에 대한 성과를 더욱 향상시켰지만, 고품질의 인간 데이터를 얻는 데에는 심각한 병목 현상이 발생합니다. 이는 복잡한 문제를 해결하고 상당한 자원과 전문 지식이 필요한 작업의 경우 특히 그렇습니다.

어떻게 해결하나요? 모델을 통해 생성된 합성 데이터는 데이터 품질이 유지되는 한 확장 가능하고 비용 효율적일 수 있는 유망한 대안입니다.

LLM은 생성된 데이터를 자체 평가할 수 있지만 이 백서에서는 Google DeepMind는 생성된 각 샘플의 품질 지표로 외부 스칼라 피드백 신호를 사용하는 더 간단한 설정을 탐색합니다.

대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

논문 주소: https://arxiv.org/pdf/2312.06585.pdf

연구원들은 모델 생성 데이터에 대한 훈련을 연구하기 위해 간단하지만 강력한 언어 모델인 자가 훈련을 고려했습니다. 이 방법에는 두 가지 기능만 필요합니다. 하나는 모델을 기반으로 샘플을 생성하는 것이고, 다른 하나는 채점 메커니즘을 사용하여 이러한 샘플을 평가하는 것입니다.

연구원들은 명확성과 일관성을 보장하기 위해 강화 자가 훈련 방법인 ReST^??를 채택했으며 이 방법이 강화 학습에 기대 최대화(EM)를 사용할 수 있음을 입증했습니다. 특히 ReST^??는 기대 단계와 최대화 단계를 번갈아 가며 수행합니다.

Generation(E-step): 언어 모델은 각 입력 컨텍스트에 대해 여러 출력 샘플을 생성한 다음 이진 보상을 사용하여 이러한 샘플을 필터링하여 교육 데이터 세트를 수집합니다.
개선(M-step): 원래 언어 모델은 이전 E-step의 훈련 데이터 세트에서 미세 조정된 지도를 받은 후 다음 E-step에서 사용됩니다.

연구원들은 ReST^??와 그 변형이 기계 번역, 의미 분석, 선호도 정렬 및 기본 추론을 포함한 다양한 분야에서 언어 모델을 향상시키는 데 성공했음을 확인했습니다.

또한 이전 작업에서는 상대적으로 작은 모델(최대 70억 개의 매개변수)에 ReST^??를 주로 사용했으며 더 큰 모델의 경우 확장성이 제한되었습니다. 따라서 이 문서에서는 까다롭지만 덜 연구된 두 가지 영역, 즉 경쟁 수준에서의 수학적 문제 해결(MATH)과 코드 생성(APPS)에서 모델 생성 합성 데이터와 인간 생성 데이터의 효율성과 확장성을 탐구하는 것을 목표로 합니다.

실증적 결과에 따르면 다양한 크기의 PaLM 2 모델에 ReST^??를 사용하면 수학적 추론 및 코드 생성 작업에서 상당한 성능 향상이 달성됩니다. 모델에 의해 생성된 합성 데이터를 기반으로 미세 조정된 모델은 사람이 작성한 데이터로 학습한 모델보다 더 큰 성능 향상을 달성했습니다. 흥미롭게도 특정 ReST^?? 반복 횟수를 초과하면 성능이 저하되어 소수의 훈련 문제에 과적합될 가능성이 있음을 나타냅니다.

또한 ReST^??를 사용하여 모델을 미세 조정하여 pass@k 메트릭과 다수결 투표 성능을 향상시켰습니다. 이러한 미세 조정 모델은 수학(GSM8K 및 헝가리 HS 최종), 코딩(HumanEval) 및 Big-Bench Hard 작업을 포함하여 관련 있지만 보류된 벤치마크에서도 성능 향상을 보여줍니다.

요약하자면, 이 논문의 결과는 피드백을 통한 자가 훈련이 인간 데이터에 대한 의존도를 줄이는 유망한 방법임을 보여줍니다.

강화 자가 훈련을 위한 예상 최대값(EM)

먼저, 이 연구는 Dayan과 Hinton의 이전 연구를 기반으로 하며 언어 모델을 사용하여 EM 기반 강화 학습 프레임워크를 설명합니다. . 구체적으로 그들은 먼저 ?(?= 1|?,?)∝?(?(?,?))와 같은 이진 최적 변수 O를 정의한 다음, 비감소 함수 ?: ℝ → ℝ+에 대해 최대화를 달성했습니다. 관찰?= 1(높은 보상 획득), 다음 공식이 얻어집니다:

대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

그러나 위 방정식에서 수열의 합을 푸는 것은 까다롭습니다. 따라서 본 논문에서는 log ?(? = 1; ?)를 최대화하는 대신 모수 ? 및 변분분포 ?( ?|?)에 대해 ELBO ?( ??, ?)를 최대화하는 것을 고려한다. 구체적으로:

대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

공식 (2)의 EM 알고리즘은 E-단계(기대)와 M-단계(최대화)를 번갈아 사용합니다.

ReST^??: EM 프레임워크에서 영감을 받은 다음 논문에서는 Gulcehre 등이 제안한 ReST 방법의 단순화된 버전에 대해 논의합니다. 명확성을 위해 이 문서에서는 이 접근 방식을 ReST^??라고 부르는데, 이는 RL 파이프라인에서 데이터 수집(E-단계)과 정책 최적화(M-단계)를 분리합니다. 알고리즘 1에 표시된 대로:

대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

세대(E-단계) : 이 단계에서 연구는 현재 정책 ??의 출력 시퀀스를 샘플링하여 데이터 세트 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

를 생성합니다. 여기서 입력은 원본 데이터 세트 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

에서 리샘플링됩니다. 그런 다음 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

의 출력 시퀀스는 이진 보상 함수 ?(?, ?)를 사용하여 점수가 매겨집니다. 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

개선(M-단계) : ? 반복에서 연구는 E-단계의 새로운 데이터세트 를 사용하여 전략을 미세 조정합니다. Gulcehre의 연구와 달리 그들은 기본 사전 훈련된 언어 모델을 미세 조정하여 작업별 과적합을 최소화하고 기본 모델과의 편차를 최소화합니다. 미세 조정을 위해 이 연구는 보상 가중 음의 로그 우도 손실 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

을 최소화합니다. 전략이 개선되면 더 나은 품질의 샘플이 포함된 새로운 데이터세트를 다시 생성할 수 있습니다. 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

실험 및 분석

이 논문에서 실험을 수행하는 주요 목표는 다음 질문에 답하는 것입니다.

ReST^?? 인간이 생성한 데이터에?
최고의 성능을 얻으려면 얼마나 많은 반복이 필요합니까? ReST^??훈련 세트가 과적합되는 데 얼마나 걸리나요?
ReST^??pass@k와 다수결 투표 성과에 어떤 영향을 미치나요?
사용자가 특정 작업의 미세 조정을 위해 모델에서 생성된 데이터를 사용하는 경우 다른 작업으로 마이그레이션됩니까? 다양한 작업에 대해 미세 조정된 모델을 평가할 때 기본 모델에 비해 성능이 저하됩니까?
ReST에서 대부분의 성능 향상을 얻으려면 대략 얼마나 많은 입력 데이터가 필요합니까^??? ReST^의 한 번의 반복으로 충분합니까?

이 연구에서는 PaLM 2-S(Bison), PaLM 2-S*(Codey), PaLM 2-L(Unicorn)을 포함하여 Google Cloud에서 PaLM 2 모델과 공개 API를 사용하여 실험을 수행했습니다. 훈련 데이터 세트는 MATH 데이터 세트와 APPS 데이터 세트를 사용합니다.

그림 2와 그림 3은 각각 MATH 및 APPS 데이터세트

에서 훈련된 ReST^??의 성능을 보여줍니다. MATH는 MATH 테스트 세트의 성능과 GSM8K로의 마이그레이션 측면에서 ReST^??의 여러 반복을 통해 이점을 얻을 수 있다는 결론을 내릴 수 있습니다. 반면에 APPS에 대한 이득의 대부분은 첫 번째 반복에서 나오는 반면 더 많은 반복을 수행하면 APPS와 HumanEval 모두 성능이 저하된다는 것을 알 수 있습니다.

대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

훈련과 시험 성과 사이의 격차. 그림 4는 훈련 세트 성능이 ReST^?? 반복 횟수에 따라 선형적으로 증가하는 반면 테스트 세트 성능은 그렇지 않음을 보여줍니다. MATH의 경우 첫 번째 반복 이후 테스트 성능이 거의 향상되지 않은 반면, APPS의 경우 두 번째 반복에서 성능 회귀가 관찰되었습니다. 이 연구에서는 성능 저하가 과적합으로 인한 것일 수 있다고 추측합니다. APPS 데이터세트는 MATH 데이터세트 크기의 약 1/3이므로 이 문제에 더 취약합니다.

대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

그림 5는 pass@K 측정 기준에서 Palm-2-L 모델의 성능을 보여줍니다. 결과는 미세 조정 후 얻은 ReST^?? 모델이 K의 모든 값에 대해 더 강력하며 일반적으로 K=1에서 성능 격차가 가장 크다는 것을 보여줍니다. 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다

위 내용은 대규모 모델을 미세 조정하려면 인간 데이터에 의존해야 합니까? DeepMind: 피드백을 통한 자가 훈련이 더 좋습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

math 算法 https palm

성명：

이전 기사：새로운 품질과 컴퓨팅 성능의 공명 통합: Bose Quantum, 차세대 550 계산 큐비트 코히어런트 광학 양자 컴퓨터 출시다음 기사：새로운 품질과 컴퓨팅 성능의 공명 통합: Bose Quantum, 차세대 550 계산 큐비트 코히어런트 광학 양자 컴퓨터 출시