집 >기술 주변기기 >일체 포함 >인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

PHPz앞으로: 2024-02-04 09:20:38734검색

기존 대형 모델 정렬 방법에는 예제 기반 지도 미세 조정(SFT) 및 점수 피드백 기반 강화 학습(RLHF)이 있습니다. 그러나 점수는 현재 응답의 품질만 반영할 수 있으며 모델의 단점을 명확하게 나타낼 수는 없습니다. 대조적으로, 우리 인간은 일반적으로 언어적 피드백을 통해 행동 패턴을 배우고 조정합니다. 리뷰 댓글이 단순한 점수가 아닌 것처럼, 승인 또는 거부에 대한 다양한 이유도 포함됩니다.

그렇다면 대규모 언어 모델이 인간처럼 자신을 향상시키기 위해 언어 피드백을 사용할 수 있을까요?

홍콩중문대학교와 Tencent AI Lab의 연구원들은 최근 CUT(Contrastive Likelihood Learning)라는 혁신적인 연구를 제안했습니다. 이 연구는 언어 피드백을 사용하여 언어 모델을 조정하여 인간처럼 다양한 비판으로부터 학습하고 개선할 수 있도록 합니다. 이 연구의 목표는 언어 모델의 품질과 정확성을 향상하여 인간이 생각하는 방식과 더욱 일치하도록 만드는 것입니다. 연구자들은 비가능성 훈련을 비교함으로써 언어 모델이 다양한 언어 사용 상황을 더 잘 이해하고 적응할 수 있게 하여 자연어 처리 작업의 성능을 향상시키기를 희망합니다. 이 혁신적인 연구는 언어 모델에 대한 간단하고 효과적인 방법이 될 것을 약속합니다.

CUT은 간단하고 효과적인 방법입니다. CUT는 1317개의 언어 피드백 데이터만을 사용하여 AlpacaEval에서 LLaMA2-13b의 승률을 1.87%에서 62.56%로 대폭 향상시켜 175B DaVinci003을 물리치는 데 성공했습니다. 흥미로운 점은 CUT가 다른 강화 학습 및 RLHF(강화 학습 강화 피드백) 프레임워크처럼 탐구, 비판, 개선의 반복적인 주기를 수행할 수도 있다는 것입니다. 이 과정에서 자동 평가 모델을 통해 비판 단계를 완료하여 자체 평가와 전체 시스템 개선을 달성할 수 있습니다.

저자는 LLaMA2-chat-13b에서 4번의 반복을 수행하여 AlpacaEval의 모델 성능을 81.09%에서 91.36%로 점차 향상시켰습니다. 점수 피드백(DPO) 기반 정렬 기술과 비교하여 CUT는 동일한 데이터 크기에서 더 나은 성능을 발휘합니다. 결과는 언어 피드백이 정렬 분야에서 발전할 수 있는 큰 잠재력을 가지고 있으며 향후 정렬 연구에 새로운 가능성을 열어준다는 것을 보여줍니다. 이 발견은 정렬 기술의 정확성과 효율성을 향상시키는 데 중요한 의미를 가지며 더 나은 자연어 처리 작업을 달성하기 위한 지침을 제공합니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

논문 제목: Reasons to Reject? Aligning Language Models with Judgments
논문 링크: https://arxiv.org/abs/2312.14591
Github 링크: https://github.com/wwxu21/CUT

Alignment of Large models

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

기존 작업을 기반으로 연구자들은 대형 모델을 정렬하는 두 가지 일반적인 방법을 요약했습니다.

1. 데모를 통해 학습: 미리 만들어진 지침-응답 쌍을 기반으로 감독 교육 방법을 사용하여 대규모 모델을 정렬합니다.

장점: 안정적인 교육, 간단한 구현.

단점: 고품질의 다양한 예시 데이터를 수집하는 데 비용이 많이 듭니다. 예시 데이터는 종종 모델과 관련이 없습니다.

점수 피드백

에서 학습(보상에서 학습): 지시-응답 쌍에 점수를 매기고 강화 학습을 사용하여 모델을 훈련하여 응답 점수를 최대화합니다.

장점: 올바른 응답과 오류 응답을 모두 활용할 수 있습니다. 피드백 신호는 모델과 관련이 있습니다.

단점: 피드백 신호가 드물고 훈련 과정이 복잡한 경우가 많습니다.

Language Feedback

(판단으로부터 학습): 지시 제공 - 언어 피드백을 기반으로 댓글 작성에 대한 응답, 모델의 결함 개선, 모델의 장점 유지를 통해 학습에 중점을 둡니다. 모델 성능을 향상시킵니다. 언어 피드백이 점수 피드백의 장점을 계승하고 있음을 알 수 있습니다. 점수 피드백과 비교할 때 구두 피드백은 더 많은 정보를 제공합니다. 즉, 모델이 옳은 점과 잘못된 점을 추측하도록 하는 대신 구두 피드백은 자세한 결함과 개선 방향을 직접 지적할 수 있습니다. 그러나 불행하게도 연구자들은 현재 언어적 피드백을 완전히 활용할 수 있는 효과적인 방법이 없다는 사실을 발견했습니다. 이를 위해 연구자들은 언어 피드백을 최대한 활용하도록 설계된 혁신적인 프레임워크인 CUT를 제안했습니다.

대조적 비우도 훈련

CUT의 핵심 아이디어는 대조를 통해 학습하는 것입니다. 연구자들은 다양한 조건에서 대형 모델의 반응을 비교하여 어떤 부분이 만족스럽고 유지되어야 하는지, 어떤 부분에 결함이 있어 수정이 필요한지 알아냅니다. 이를 바탕으로 연구자들은 최대 우도 추정(MLE)을 사용하여 만족스러운 부분을 훈련시키고, 가능성 없는 훈련(UT)을 사용하여 응답의 결함을 수정합니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

1. 정렬 시나리오: 위 그림에서 볼 수 있듯이 연구원들은 두 가지 정렬 시나리오를 고려했습니다.

a) 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 이 시나리오에서는 다음이 일반적으로 이해됩니다. , 대응은 지침을 충실히 따르고 인간의 기대 및 가치와 일치해야 합니다.

b) 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 : 이 시나리오에서는 추가 조건으로 구두 피드백이 도입됩니다. 이 시나리오에서 응답은 지침과 구두 피드백을 모두 충족해야 합니다. 예를 들어 부정적인 피드백을 받으면 대형 모델은 해당 피드백에서 언급된 문제를 기반으로 실수를 해야 합니다.

2. 정렬 데이터: 위 그림과 같이 위의 두 가지 정렬 시나리오를 기반으로 연구원들은 세 가지 유형의 정렬 데이터를 구성했습니다.

a) Align-P: 생성된 대형 모델 정말 만족스럽습니다. 답변이 긍정적인 피드백입니다. 분명히 Align-P는 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 및 시나리오 모두에서 정렬을 만족합니다.

b) Align-N: 대형 모델은 결함이 있는(굵은 파란색) 응답을 생성하므로 부정적인 피드백을 받습니다. Align-N의 경우 에서 정렬이 만족되지 않습니다. 그러나 이러한 부정적인 피드백을 고려한 후에도 Align-N은 여전히 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 시나리오에 부합합니다.

c) Misalign: Align-N의 실제 부정적인 피드백이 가짜 긍정적인 피드백으로 대체됩니다. 분명히 Misalign은 및 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 시나리오 모두에서 정렬을 만족하지 않습니다.

3. 비교를 통해 알아보기:

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

a) Align-N 대 Misalign: 둘 사이의 차이점은 주로 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 아래의 정렬 정도에 있습니다. 대규모 모델의 강력한 상황 내 학습 기능을 고려할 때 Align-N에서 Misalign으로의 정렬 극성 반전은 일반적으로 특정 단어, 특히 실제 부정적인 피드백과 밀접하게 관련된 단어의 생성 확률에 상당한 변화를 동반합니다. 위 그림에서 볼 수 있듯이 Align-N(왼쪽 채널) 조건에서는 대형 모델이 "a"를 생성할 확률이 Misalign(오른쪽 채널)보다 훨씬 높습니다. 그리고 확률이 크게 변하는 곳은 큰 모델이 실수를 하는 곳입니다.

이 비교를 통해 학습하기 위해 연구원들은 Align-N 및 Misalign 데이터를 대형 모델에 동시에 입력하여 각각 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 및 두 가지 조건에서 출력 단어의 생성 확률을 얻었습니다. 조건보다 조건에서 생성 확률이 훨씬 높은 단어는 부적절한 단어로 표시됩니다. 특히 연구원들은 부적절한 단어의 정의를 정량화하기 위해 다음 표준을 사용했습니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

여기서 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 은 부적절한 단어 인식 과정에서 정밀도와 재현율을 평가하는 하이퍼 매개변수입니다.

연구원들은 이렇게 식별된 부적절한 단어에 대해 가능성이 낮은 훈련(UT)을 사용하여 대규모 모델이 더 만족스러운 응답을 탐색하도록 했습니다. 다른 응답 단어의 경우 연구원은 여전히 최대 우도 추정(MLE)을 사용하여 최적화합니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

여기서 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 는 비우도 훈련의 비율을 제어하는 하이퍼파라미터이고, 는 응답 단어의 수입니다. .

b) Align-P 대 Align-N: 둘 사이의 차이점은 주로 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 아래의 정렬 정도에 있습니다. 기본적으로 대형 모델은 서로 다른 극성의 언어 피드백을 도입하여 출력 응답의 품질을 제어합니다. 따라서 두 가지를 비교하면 대규모 모델에 영감을 주어 만족스러운 응답과 결함이 있는 응답을 구별할 수 있습니다. 특히 연구원들은 다음과 같은 최대 우도 추정(MLE) 손실을 통해 이 비교 세트에서 학습했습니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

여기서 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 는 표시 함수이며, 데이터가 alignment를 만족하면 1을 반환하고, 그렇지 않으면 반환합니다. 0.

CUT 최종 훈련 목표는 위의 두 비교 세트 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 를 결합합니다.

실험 평가

1. 오프라인 정렬

연구원들은 비용을 절약하기 위해 먼저 기성 언어 피드백 데이터를 사용하여 대형 모델을 정렬하려고 했습니다. 이 실험은 CUT의 언어 피드백 활용 능력을 입증하는 데 사용되었습니다.

a) 만능모델

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

위 표와 같이 일반 모델 정렬을 위해 연구진은 Shepherd에서 제공한 1317 정렬 데이터를 사용하여 CUT를 콜드 스타트(LLaMA2) 및 핫 스타트(LLaMA2-chat) 조건에서 기존 슬레이브 모델과 비교했습니다. .

LLaMA2를 기반으로 한 콜드 스타트 실험에서 CUT는 AlpacaEval 테스트 플랫폼의 기존 정렬 방법을 크게 뛰어넘어 언어 피드백 활용에 대한 장점을 충분히 입증했습니다. 또한 CUT은 기본 모델에 비해 TruthfulQA에서도 상당한 개선을 달성했으며, 이는 CUT가 대형 모델의 환각 문제를 완화하는 데 큰 잠재력이 있음을 보여줍니다.

LLaMA2 채팅을 기반으로 한 핫 스타트 시나리오에서 기존 방법은 LLaMA2 채팅을 개선하는 데 성능이 좋지 않으며 부정적인 영향을 미치기까지 합니다. 그러나 CUT은 이를 바탕으로 기본 모델의 성능을 더욱 향상시킬 수 있으며, 언어 피드백 활용에 있어서 CUT의 큰 잠재력을 다시 한 번 검증합니다.

b) 전문가 모델

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

연구원들은 특정 전문가 작업(텍스트 요약)에 대한 CUT의 정렬 효과도 테스트했습니다. 위 표에서 볼 수 있듯이 CUT은 전문가 작업에 대한 기존 정렬 방법에 비해 상당한 개선을 달성합니다.

2. 온라인 정렬

오프라인 정렬에 대한 연구는 CUT의 강력한 정렬 성능을 성공적으로 입증했습니다. 이제 연구자들은 실제 적용에 더 가까운 온라인 정렬 시나리오를 추가로 탐색하고 있습니다. 이 시나리오에서 연구자들은 대상 모델과 관련된 언어 피드백을 기반으로 대상 모델을 보다 정확하게 정렬할 수 있도록 대상 대형 모델의 응답에 언어 피드백을 반복적으로 주석을 추가합니다. 구체적인 프로세스는 다음과 같습니다.

1단계: 지침을 수집하고 대상 대형 모델로부터 응답을 받습니다.
2단계: 위의 명령-응답 쌍에 대한 응답으로 언어 피드백을 으로 표시합니다.
3단계: CUT을 사용하여 수집된 삼중항 데이터를 기반으로 대상 대형 모델을 미세 조정합니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

위 그림에 표시된 것처럼 4회에 걸쳐 온라인 정렬을 반복한 후에도 CUT는 4000개의 훈련 데이터와 91.36포인트의 작은 모델 크기로 여전히 인상적인 결과를 얻을 수 있습니다. 이번 성과는 CUT의 탁월한 성능과 엄청난 잠재력을 더욱 입증합니다.

3. AI 댓글 모델

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

연구원들은 언어 피드백 라벨링 비용을 고려하여 대상 대형 모델에 대한 언어 피드백을 자동으로 라벨링하는 판단 모델을 훈련하려고 합니다. 위 그림에서 볼 수 있듯이, 연구진은 언어 피드백 데이터 5,000개(AI Judge-5000)와 3,000개(AI Judge-3000)를 사용하여 두 가지 리뷰 모델을 훈련했습니다. 두 검토 모델 모두 대상 대규모 모델, 특히 AI Judge-5000의 효과를 최적화하는 데 놀라운 결과를 얻었습니다.

이는 AI 검토 모델을 사용하여 대상 대형 모델을 정렬하는 타당성을 입증하고 전체 정렬 프로세스에서 검토 모델 품질의 중요성을 강조합니다. 이 실험 세트는 향후 주석 비용 절감을 위한 강력한 지원도 제공합니다.

4. 언어 피드백 vs 점수 피드백

대규모 모델 정렬에서 언어 피드백의 엄청난 잠재력을 심층적으로 탐색하기 위해 연구자들은 언어 피드백 기반 CUT와 점수 피드백(DPO) 기반 방법을 비교했습니다. 공정한 비교를 보장하기 위해 연구자들은 동일한 지시-응답 쌍의 4,000개 세트를 실험 샘플로 선택하여 CUT와 DPO가 각각 이러한 데이터에 해당하는 점수 피드백과 언어 피드백으로부터 학습할 수 있도록 했습니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

위 표에서 볼 수 있듯이 콜드 스타트(LLaMA2) 실험에서는 CUT가 DPO보다 훨씬 좋은 성능을 보였습니다. 핫 스타트(LLaMA2-chat) 실험에서 CUT는 ARC, HellaSwag, MMLU 및 TruthfulQA와 같은 작업에서 DPO와 비슷한 결과를 얻을 수 있으며 AlpacaEval 작업에서는 DPO보다 훨씬 앞서 있습니다. 이 실험은 대규모 모델 정렬 중 부분 피드백에 비해 언어 피드백의 더 큰 잠재력과 이점을 확인했습니다.

요약 및 과제

이 연구에서 연구자들은 대규모 모델 정렬에서 언어 피드백의 현재 상황을 체계적으로 탐구하고 언어 피드백 기반 정렬 프레임워크 CUT를 혁신적으로 제안하여 언어 피드백이 큰 잠재력과 이점을 가지고 있음을 밝혔습니다. 대형 모델 정렬 분야에서. 또한, 언어 피드백 연구에는 다음과 같은 몇 가지 새로운 방향과 과제가 있습니다.

1. 댓글 모델의 품질: 연구자들은 댓글 모델 교육의 타당성을 성공적으로 확인했지만, 관찰 모델이 출력되었을 때 그들은 여전히 검토 모델이 종종 부정확한 평가를 제공한다는 것을 발견했습니다. 따라서 검토 모델의 품질을 향상시키는 것은 향후 정렬을 위해 언어 피드백을 대규모로 사용하는 데 큰 의미가 있습니다.

2. 새로운 지식의 도입: 언어 피드백에 대형 모델이 부족한 지식이 포함될 경우 대형 모델이 오류를 정확하게 식별할 수 있더라도 수정 방향이 명확하지 않습니다. 따라서 대형모델이 정렬을 하면서 부족한 지식을 보완하는 것이 매우 중요하다.

3. 다중 모드 정렬 : 언어 모델의 성공으로 인해 언어, 음성, 이미지 및 비디오의 조합과 같은 다중 모드 대형 모델 연구가 촉진되었습니다. 이러한 다중 모드 시나리오에서 언어 피드백과 해당 양식의 피드백을 연구하면 새로운 정의와 과제가 발생합니다.

위 내용은 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

循环继承 github https

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：인간형 로봇은 마술을 할 수 있습니다. 봄 축제 갈라 프로그램 팀에서 자세히 알아보세요.다음 기사：인간형 로봇은 마술을 할 수 있습니다. 봄 축제 갈라 프로그램 팀에서 자세히 알아보세요.