대규모 언어 모델(LLM)은 강력한 기능을 입증했지만 공격적인 응답, 허위 정보, 개인 데이터 유출 등 예측할 수 없고 유해한 출력을 생성하여 사용자와 사회에 해를 끼칠 수도 있습니다. . 이러한 모델의 행동이 인간의 의도 및 가치와 일치하는지 확인하는 것이 시급한 과제입니다.
인간 피드백을 기반으로 한 강화 학습(RLHF)은 솔루션을 제공하지만 복잡한 훈련 아키텍처, 매개변수에 대한 높은 민감도, 다양한 데이터 세트에 대한 보상 모델의 불안정성에 직면해 있습니다. 이러한 요인으로 인해 RLHF 기술은 구현, 효과적, 재현이 어렵습니다. 이러한 과제를 극복하기 위해 북경대학교 팀은 새로운 효율적인 정렬 패러다임인
Aligner를 제안했습니다. 이 패러다임의 핵심은 정답 정렬과 오정렬 사이의 수정된 잔차 를 학습하여 번거로운 작업을 우회하는 것입니다. RLHF 프로세스. 잔여 학습 및 확장 가능한 감독 아이디어를 바탕으로 Aligner는 정렬 프로세스를 단순화합니다. Seq2Seq 모델을 사용하여 암시적 잔차를 학습하고 복제 및 잔차 수정 단계를 통해 정렬을 최적화합니다.
여러 모델을 학습해야 하는 RLHF의 복잡성에 비해 Aligner의 장점은 정렬할 모델 뒤에 모듈을 추가하기만 하면 정렬이 가능하다는 것입니다. 또한 필요한 계산 리소스는 주로 업스트림 모델의 크기보다는 원하는 정렬 효과에 따라 달라집니다. 실험에 따르면 Aligner-7B를 사용하면 GPT-4의 유용성과 보안이 크게 향상되어 유용성이 17.5% 증가하고 보안이 26.9% 증가하는 것으로 나타났습니다. 이러한 결과는 Aligner가 모델 성능 향상을 위한 실행 가능한 솔루션을 제공하는 효율적이고 효과적인 정렬 방법임을 보여줍니다.또한 Aligner 프레임워크를 사용하여 저자는 약한 모델(Aligner-13B) 감독 신호를 사용하여 강력한 모델(Llama-70B)의 성능을 향상시켜
약한 대 강한 일반화를 달성하고, Super Alignment를 위한 실용적인 솔루션을 제공합니다.
논문 주소: https://arxiv.org/abs/2402.02416
자동 회귀 Seq2Seq 모델인 Aligner는 Q-A-C(Query-Answer-Correction) 데이터를 실행하여 정렬된 간의 차이를 학습합니다. 그리고 정렬되지 않은 답변을 통해 보다 정확한 모델 정렬을 달성할 수 있습니다. 예를 들어, 70B LLM을 정렬할 때 Aligner-7B는 DPO보다 16.67배, RLHF보다 30.7배 작은 훈련 매개변수의 양을 대폭 줄입니다.
Aligner 패러다임은 약한 것에서 강한 것까지 일반화를 달성하고, 높고 작은 매개변수 수량이 있는 Aligner 모델을 사용하여 신호를 감독하고 매개변수 수량이 많은 LLM을 미세 조정하여 강력한 모델의 성능을 크게 향상시킵니다. 예를 들어 Aligner-13B의 감독하에 Llama2-70B를 미세 조정하면 유용성과 안전성이 각각 8.2%, 61.6% 향상되었습니다.
Aligner의 플러그 앤 플레이 특성과 모델 매개변수에 대한 둔감성으로 인해 매개변수를 얻을 수 없는 GPT3.5, GPT4 및 Claude2와 같은 모델을 정렬할 수 있습니다. 단 한 번의 교육 세션으로 Aligner-7B는 폐쇄 소스, 오픈 소스 및 보안/비보안 정렬 모델을 포함한 11개 모델의 유용성과 안전성을 정렬하고 향상시킵니다. 이 중 Aligner-7B는 GPT-4의 유용성과 보안성을 각각 17.5%, 26.9% 크게 향상시켰습니다.
Aligner 전체 성능
1.질의-응답(Q-A) 데이터 수집
저자는 Stanford Alpaca, ShareGPT, HH-RLHF 및 기타 사용자 공유 대화를 포함한 다양한 오픈 소스 데이터세트에서 쿼리를 얻습니다. 이러한 질문은 후속 답변 및 정답 생성을 위해 중복 패턴 제거 및 품질 필터링 과정을 거칩니다. Alpaca-7B, Vicuna-(7B,13B,33B), Llama2-(7B,13B)-Chat 및 Alpaca2-(7B,13B)와 같은 다양한 오픈 소스 모델을 사용하여 무수정 답변이 생성되었습니다.
2. 답변 수정
저자는 GPT-4, Llama2-70B-Chat 및 수동 주석을 사용하여 대형 언어 모델의 3H 기준(유용성, 안전성, 정직성)에 따라 Q-A 데이터를 수정합니다. 집중된 답변.
이미 기준을 충족하는 답변은 그대로 두세요. 수정 프로세스는 답변을 더욱 유용하고 안전하게 만드는 데 중점을 두고 Seq2Seq 모델 교육에 대한 제약 조건을 설정하는 잘 정의된 원칙 세트를 기반으로 합니다. 수정 전후에 답변 분포가 크게 변경되었습니다. 다음 그림은 수정이 데이터 세트에 미치는 영향을 명확하게 보여줍니다.
3. 위 프로세스를 기반으로, 저자는 새로운 수정 데이터 세트
를 구성했습니다. 여기서는 사용자의 질문을 나타내고, 는 질문에 대한 원래 답변, 은 확립된 원칙에 따른 수정 답변입니다. 모델 학습 과정은 비교적 간단합니다. 저자는
로 매개변수화된 조건부 Seq2Seq 모델을 훈련하여 원래 답변 이 정렬된 답변에 재분배되도록 했습니다. 업스트림 대형 언어 모델을 기반으로 한 정렬 답변 생성 프로세스는 다음과 같습니다.
훈련 손실은 다음과 같습니다.
두 번째 항목은 Aligner 매개 변수와 관련이 없습니다. , Aligner 훈련 목표는 다음과 같이 파생될 수 있습니다.
다음 그림은 Aligner의 중간 프로세스를 동적으로 보여줍니다.
Aligner는 다음의 매개변수에 액세스할 필요가 없다는 점에 주목할 가치가 있습니다. 훈련 및 추론 단계에서 업스트림 모델. Aligner의 추론 프로세스는 사용자의 질문과 업스트림 대형 언어 모델에서 생성된 초기 답변을 얻은 다음 인간의 가치와 보다 일치하는 답변을 생성하기만 하면 됩니다.
직접 답변하는 대신 기존 답변을 수정하면 Aligner가 인간의 가치에 쉽게 맞춰 모델 기능에 대한 요구 사항을 크게 줄일 수 있습니다.
Aligner vs SFT
Aligner와 달리 SFT는 Query 의미 공간에서 Answer 의미 공간으로의 도메인 간 매핑을 직접 생성합니다. 이 과정은 학습에 따라 다릅니다. 업스트림 모델에서 의미 공간에서 다양한 맥락을 추론하고 시뮬레이션하는 것은 신호를 수정하는 방법을 학습하는 것보다 훨씬 어렵습니다.
Aligner 훈련 패러다임은 잔여 학습(residual Correction)의 한 형태로 간주될 수 있습니다. 저자는 Aligner에서 "복사 + 올바른" 학습 패러다임을 만들었습니다. 따라서 Aligner는 본질적으로 답변 의미 공간에서 두 의미 공간이 분포적으로 더 가까운 수정된 답변 의미 공간으로의 잔여 매핑을 생성합니다.
이를 위해 저자는 Q-A-C 훈련 데이터 세트와 다른 비율로 Q-A-A 데이터를 구성하고 ID 매핑 학습(복사 매핑이라고도 함)을 수행하도록 Aligner를 훈련했습니다(워밍업 단계라고 함). 이를 기반으로 전체 Q-A-C 훈련 데이터 세트가 훈련에 사용됩니다. 이 잔여 학습 패러다임은 ResNet에서도 신경망을 너무 깊게 쌓아서 발생하는 기울기 소멸 문제를 해결하는 데 사용됩니다. 실험 결과, 예열 비율이 20%일 때 모델이 가장 좋은 성능을 발휘할 수 있는 것으로 나타났습니다.
Aligner vs RLHF
RLHF는 인간 선호도 데이터 세트에 대해 보상 모델(RM)을 교육하고 이 보상 모델을 사용하여 PPO 알고리즘의 LLM을 미세 조정하여 LLM이 행동과 일치하도록 만듭니다. 인간의 취향.
구체적으로 보상 모델은 최적화를 위해 인간의 선호도 데이터를 이산적 수치 공간에서 연속 수치 공간으로 매핑해야 하지만, 텍스트 공간에서 강력한 일반화 능력을 갖춘 Seq2Seq 모델과 비교할 때 이러한 유형의 수치 보상 모델은 텍스트의 일반화 능력을 가지고 있습니다. 공간이 약하여 다른 모델에서 RLHF의 효과가 불안정해집니다.
Aligner는 Seq2Seq 모델을 훈련하여 정렬된 답변과 정렬되지 않은 답변 간의 차이(잔차)를 학습하므로 효과적으로 RLHF 프로세스를 피하고 RLHF보다 더 나은 일반화 성능을 달성합니다.
Aligner vs. Prompt Engineering
Prompt Engineering은 LLM의 역량을 자극하는 일반적인 방법입니다. 그러나 이 방법에는 프롬프트를 설계하기 어렵고 다음과 같은 몇 가지 주요 문제가 있습니다. 모델은 다르게 설계되었으며 최종 효과는 모델의 능력에 따라 달라집니다. 모델의 능력이 작업을 해결하기에 충분하지 않으면 여러 번의 반복이 필요할 수 있으며 이로 인해 제한된 컨텍스트 창이 낭비됩니다. 작은 모델은 프롬프트 단어 프로젝트의 효과에 영향을 미치며, 큰 모델의 경우 컨텍스트를 너무 오래 차지하면 훈련 비용이 크게 증가합니다.
Aligner 자체는 모든 모델의 정렬을 지원할 수 있으며, 한 번의 훈련 후에는 원본 모델의 컨텍스트 창을 차지하지 않고도 11가지 유형의 모델을 정렬할 수 있습니다. Aligner가 기존의 프롬프트 단어 엔지니어링 방법과 완벽하게 결합되어 1+1>2 효과를 달성할 수 있다는 점은 주목할 가치가 있습니다.
일반적으로 Aligner는 다음과 같은 중요한 이점을 보여줍니다.
1. 이 모델을 기반으로 한 RLHF의 복잡한 보상 모델 학습 및 강화 학습(RL) 미세 조정 프로세스에 비해 Aligner의 구현 프로세스는 더 직접적이고 운영하기 쉽습니다. RLHF와 관련된 다중 엔지니어링 매개변수 조정 세부 사항과 RL 알고리즘의 고유한 불안정성 및 하이퍼 매개변수 감도를 되돌아보면 Aligner는 엔지니어링 복잡성을 크게 단순화합니다.
2.Aligner는 훈련 데이터가 적고 정렬 효과가 뚜렷합니다. 20K 데이터를 기반으로 Aligner-7B 모델을 훈련하면 GPT-4의 유용성이 12%, 보안이 26% 향상되고, Vicuna 33B 모델의 유용성이 29%, 보안이 45.3% 향상될 수 있습니다. RLHF에는 더 많은 선호도 데이터와 보안이 필요합니다. 이 효과를 얻으려면 매개변수를 조정해야 합니다.
3.얼라이너는 모델 추를 건드릴 필요가 없습니다. RLHF는 모델 정렬에 효과적인 것으로 입증되었지만 모델의 직접적인 교육에 의존합니다. RLHF의 적용 가능성은 GPT-4와 같은 비오픈 소스 API 기반 모델과 다운스트림 작업의 미세 조정 요구 사항으로 인해 제한됩니다. 대조적으로 Aligner는 모델의 원래 매개변수를 직접 조작할 필요가 없으며 독립적인 정렬 모듈에서 정렬 요구 사항을 외부화하여 유연한 정렬을 달성합니다.
4.Aligner는 모델 유형에 무관합니다. RLHF 프레임워크에서 다양한 모델(예: Llama2, Alpaca)을 미세 조정하려면 선호도 데이터를 다시 수집해야 할 뿐만 아니라 보상 모델 훈련 및 RL 단계에서 훈련 매개변수를 조정해야 합니다. Aligner는 일회성 교육을 통해 모든 모델의 정렬을 지원할 수 있습니다. 예를 들어 Aligner-7B는 수정된 데이터 세트에 대한 단 한 번의 교육 세션으로 11개의 서로 다른 모델(오픈 소스 모델, GPT와 같은 API 모델 포함)을 정렬하고 유용성과 안전성 측면에서 각각 21.9% 및 23.8%의 성능을 향상시킬 수 있습니다.
5. 훈련 자원에 대한 Aligner의 요구는 더욱 유연합니다. RLHF 70B 모델을 미세 조정하려면 여전히 컴퓨팅 리소스가 많이 필요하며, 이를 수행하려면 수백 개의 GPU 카드가 필요합니다. RLHF 방식 역시 모델 매개변수 수만큼 보상 모델, 행위자 모델, 비평 모델을 추가로 로딩해야 하기 때문입니다. 따라서 단위 시간당 훈련 자원 소비 측면에서 보면 실제로 RLHF는 사전 훈련보다 더 많은 컴퓨팅 자원을 필요로 합니다.
이에 비해 Aligner는 보다 유연한 훈련 전략을 제공하므로 사용자는 실제 컴퓨팅 리소스에 따라 Aligner의 훈련 규모를 유연하게 선택할 수 있습니다. 예를 들어, 70B 모델의 정렬 요구 사항의 경우 사용자는 실제 사용 가능한 리소스를 기반으로 다양한 크기(7B, 13B, 70B 등)의 Aligner 모델을 선택하여 대상 모델의 효과적인 정렬을 달성할 수 있습니다.
이러한 유연성은 컴퓨팅 리소스에 대한 절대적인 수요를 줄일 뿐만 아니라 사용자에게 제한된 리소스 하에서 효율적인 정렬 가능성을 제공합니다.
약-강 일반화 논의되는 질문은 약한 모델의 레이블을 사용하여 강한 모델을 훈련할 수 있는지 여부입니다. 강력한 모델은 성능을 향상시킬 수 있습니다. OpenAI는 이 비유를 사용하여 SuperAlignment의 문제를 해결합니다. 특히 Ground Truth Label을 사용하여 약한 모델을 교육합니다.
OpenAI 연구진은 몇 가지 예비 실험을 수행했습니다. 예를 들어, 학습 데이터 세트는 전반부의 입력 및 지상 진실 라벨을 두 부분으로 나누어 약한 모델을 학습했습니다. 훈련 데이터의 절반은 입력만 유지하고 레이블은 약한 모델에 의해 생성됩니다. 강한 모델을 훈련할 때 약한 모델이 생성한 약한 레이블만 강한 모델에 대한 감독 신호를 제공하는 데 사용됩니다.
참값 레이블을 사용하여 약한 모델을 훈련시키는 목적은 약한 모델이 해당 작업을 해결할 수 있는 능력을 얻을 수 있도록 하는 것이지만, 약한 레이블을 생성하는 데 사용되는 입력과 약한 모델을 훈련하는 데 사용되는 입력은 일치하지 않습니다. 똑같다. 이 패러다임은 "가르치기"의 개념, 즉 약한 모델을 사용하여 강력한 모델을 안내하는 개념과 유사합니다.
저자는 Aligner의 특성을 기반으로 새로운 약-강 일반화 패러다임을 제안합니다.
Aligner가 “거인의 어깨 위에 서있는 감독자” 역할을 하게 한다는 것이 저자의 핵심입니다. "거인"을 직접 감독하는 OpenAI의 방식과 달리 Aligner는 약한 수정부터 강한 수정까지 통해 더 강한 모델을 수정하여 그 과정에서 보다 정확한 라벨을 제공합니다.
특히 Aligner의 훈련 과정에서 수정된 데이터에는 GPT-4, 인간 주석자 및 더 큰 모델 주석이 포함됩니다. 그 후, 저자는 Aligner를 사용하여 새로운 Q-A 데이터 세트에 대해 약한 레이블(즉, 수정)을 생성한 다음 약한 레이블을 사용하여 원본 모델을 미세 조정합니다.
실험 결과에 따르면 이 패러다임은 모델의 정렬 성능을 더욱 향상시킬 수 있습니다.
Aligner vs SFT/RLHF/DPO
저자는 Aligner의 Query-Answer-Correction 훈련 데이터 세트를 사용하여 각각 SFT/RLHF/DPO 방법을 통해 Alpaca-7B를 미세 조정했습니다.
성능 평가를 수행할 때 오픈 소스 BeaverTails 및 HarmfulQA 테스트 프롬프트 데이터 세트를 사용하여 미세 조정 모델에서 생성된 답변과 Aligner를 사용하여 원본 Alpaca-7B 모델에서 생성된 답변을 비교하여 답변을 수정했습니다. 보안 측면에서 유용성과 비교 측면에서 결과는 다음과 같습니다.
실험 결과 Aligner는 유용성 측면에서 SFT/RLHF/DPO와 같은 성숙한 LLM 정렬 패러다임에 비해 분명한 이점이 있음을 보여줍니다. 보안이 훨씬 앞서 있습니다.
특정 실험 사례를 분석해 보면 RLHF/DPO 패러다임을 사용하여 미세 조정된 정렬 모델이 보안 향상을 위해 보수적인 답변을 생성하는 경향이 더 높을 수 있지만 유용성을 향상하는 과정에서 보안을 취할 수 없음을 알 수 있습니다. 고려하여 답변이 나옵니다. 위험한 정보가 증가합니다.
Aligner vs Prompt Engineering
동일한 업스트림 모델에서 Aligner-13B와 CAI/Self-Critique 방법의 성능 향상을 비교하면 아래 그림과 같습니다. Aligner-13B가 도움이 됩니다. GPT-4에 이르기까지 CAI/Self-Critique 방법에 비해 안전성과 보안성 모두 향상이 높으며, 이는 Aligner 패러다임이 일반적으로 사용되는 프롬프트 엔지니어링 방법에 비해 확실한 이점을 가지고 있음을 보여줍니다.
CAI 프롬프트는 실험에서 추론하는 동안에만 사용되어 응답자가 스스로 답변을 수정하도록 권장하며 이는 Self-Refine의 형태 중 하나이기도 합니다.
또한 저자는 Aligner를 통해 CAI 방법을 사용하여 답변을 수정하고 Aligner 전후의 답변을 직접 비교했습니다. .
방법 A: CAI + Aligner 방법 B: CAI만
Aligner를 사용하여 CAI 정답을 두 번 수정한 후 보안을 잃지 않고 안전성 측면에서 도움이 되는 답변이 되었습니다. 달성되었습니다. 이는 Aligner가 단독으로 사용될 때 매우 경쟁력이 있을 뿐만 아니라 기존의 다른 정렬 방법과 결합하여 성능을 더욱 향상시킬 수도 있음을 보여줍니다.
약함-강함 일반화
방법: 약함-강함 훈련 데이터 세트는 (q, a, a′) 트리플로 구성됩니다. 여기서 q는 Aligner의 훈련 데이터를 나타냅니다. 세트 - 50K 질문, a는 Alpaca-7B 모델에서 생성된 답변을 나타내고, a'는 Aligner-7B에서 제공한 정렬된 답변(q, a)을 나타냅니다. a'를 정답 레이블로만 활용하는 SFT와 달리 RLHF 및 DPO 교육에서는 a'가 a보다 나은 것으로 간주됩니다.
저자는 Aligner를 사용하여 새로운 Q-A 데이터 세트의 원래 답을 수정하고 수정된 답을 약한 레이블로 사용했으며 이러한 약한 레이블을 감독 신호로 사용하여 더 큰 크기의 모델을 훈련했습니다. 이 과정은 OpenAI의 훈련 패러다임과 유사합니다.
저자는 SFT, RLHF, DPO의 세 가지 방법을 통해 약한 레이블을 기반으로 강력한 모델을 훈련합니다. 위 표의 실험 결과는 업스트림 모델이 SFT를 통해 미세 조정되면 모든 시나리오에서 Aligner-7B 및 Aligner-13B의 약한 레이블이 Llama2 시리즈의 강력한 모델의 성능을 향상시키는 것을 보여줍니다.
Aligner는 혁신적인 정렬 방법으로서 엄청난 연구 잠재력을 가지고 있습니다. 논문에서 저자는 다음을 포함하여 Aligner의 여러 응용 시나리오를 제안했습니다.
1. 다중 회전 대화 시나리오의 응용. 다단계 대화에서는 희박한 보상에 직면하는 과제가 특히 두드러집니다. 질의응답 대화(QA)에서 스칼라 형식의 감독 신호는 일반적으로 대화가 끝날 때만 사용할 수 있습니다.
이 희박성 문제는 여러 라운드의 대화(예: 지속적인 QA 시나리오)에서 더욱 증폭되어 강화 학습 기반 인간 피드백(RLHF)이 효과적이게 됩니다. 여러 라운드에 걸쳐 대화 정렬을 개선하는 Aligner의 잠재력을 조사하는 것은 추가 조사할 가치가 있는 영역입니다.
2. 보상 모델에 대한 인간 가치의 정렬. 인간 선호도를 기반으로 보상 모델을 구축하고 대규모 언어 모델(LLM)을 미세 조정하는 다단계 프로세스에는 LLM이 특정 인간 가치(예: 공정성, 공감, 등.).
값 정렬 작업을 모델 외부의 Aligner 정렬 모듈에 맡기고 특정 코퍼스를 사용하여 Aligner를 훈련함으로써 값 정렬에 대한 새로운 아이디어를 제공할 뿐만 아니라 Aligner가 전면의 출력을 수정할 수 있습니다. 특정 값을 반영하는 최종 모델.
3. MoE-Aligner의 스트리밍 및 병렬 처리. Aligner를 전문화하고 통합하면 다양한 하이브리드 보안 및 가치 정렬 요구 사항을 충족할 수 있는 더욱 강력하고 포괄적인 MoE(Hybrid Expert) Aligner를 만들 수 있습니다. 동시에 추론 시간의 손실을 줄이기 위해 Aligner의 병렬 처리 기능을 더욱 향상시키는 것이 가능한 개발 방향입니다.
4. 모델 훈련 중 융합. 특정 가중치 레이어 뒤에 Aligner 레이어를 통합하면 모델 훈련 중 출력에 실시간 개입이 가능합니다. 이 방법은 정렬 효율성을 향상시킬 뿐만 아니라 모델 훈련 프로세스를 최적화하고 보다 효율적인 모델 정렬을 달성하는 데에도 도움이 됩니다.
이 작업은 북경대학교 인공지능연구소 AI 보안 및 거버넌스 센터 양야오동 연구팀이 독립적으로 완료했습니다. 팀은 오픈 소스 백만 수준 보안 정렬 기본 설정 데이터 세트 BeaverTails(NeurIPS 2023) 및 대규모 언어 모델을 위한 보안 정렬 알고리즘 SafeRLHF(ICLR 2024 Spotlight)를 포함하여 대규모 언어 모델의 정렬 기술에 깊이 관여하고 있습니다. 여러 오픈 소스 모델에서 채택되었습니다. 인공 지능 정렬에 대한 업계 최초의 포괄적인 리뷰를 작성하고 이를 리소스 웹사이트 www.alignmentssurvey.com(바로 이동하려면 원문을 클릭하세요)과 연결하여 피드백을 통한 학습, 배포 전환에 따른 학습, 보증의 네 가지 관점을 체계적으로 설명합니다. , 그리고 아래의 AI 정렬 문제. 정렬과 초정렬에 대한 팀의 견해는 Sanlian Life Weekly 2024년 5호 표지에 실렸습니다.
위 내용은 RLHF 없이 GPT-4/Llama2 성능을 크게 향상시키는 북경대학교 팀은 Aligner 정렬의 새로운 패러다임을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!