UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 03, 2024 am 08:00 AM

gpt-4llmucla

합성 데이터는 대규모 언어 모델의 진화에서 가장 중요한 초석이 되었습니다.

지난해 말 일부 네티즌들은 전 OpenAI 수석 과학자 Ilya가 LLM 개발에 데이터 병목 현상이 없으며 합성 데이터가 대부분의 문제를 해결할 수 있다고 반복해서 언급했다고 폭로했습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

Nvidia의 수석 과학자인 Jim Fan은 최신 논문을 연구한 후 합성 데이터를 전통적인 게임 및 이미지 생성 기술과 결합하면 LLM이 엄청난 자기 진화를 이룰 수 있다는 결론을 내렸습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

이 방법을 공식적으로 제안한 논문은 UCLA의 중국 팀이 작성했습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

문서 주소: https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

그들은 자체 재생 메커니즘(SPIN)을 사용하여 합성 데이터를 생성하고 자기- 미세 조정 방법 없음 새 데이터 세트에 의존하여 Open LLM Leaderboard Benchmark에서 약한 LLM의 평균 점수가 58.14에서 63.16으로 향상되었습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.

연구원들은 자체 재생을 통해 언어 모델의 성능을 점진적으로 향상시키는 SPIN이라는 자체 미세 조정 방법을 제안했습니다. LLM은 이전 반복 버전과 경쟁합니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

이러한 방식으로 추가적인 인간 주석 데이터나 상위 수준 언어 모델의 피드백 없이도 모델의 자체 진화가 완료될 수 있습니다.

메인 모델과 상대 모델의 매개변수는 완전히 동일합니다. 두 가지 버전으로 자신과 대결해 보세요.

게임 과정은 다음 공식으로 요약할 수 있습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

자기 플레이 훈련 방법을 요약하면 아이디어는 대략 다음과 같습니다.

응답을 구별하세요. 상대 모델은 메인 모델과 인간의 목표 반응을 훈련하여 생성되며, 적대 모델은 가능한 한 구별할 수 없는 반응을 생성하는 것을 목표로 라운드에서 반복적으로 얻은 언어 모델입니다.

t번째 반복에서 얻은 언어 모델 매개변수가 θt라고 가정하고, t+1 반복에서 θt를 상대 플레이어로 사용하고 θt를 사용하여 각 프롬프트 x에 대한 응답 y'를 생성합니다. 감독된 미세 조정 데이터 세트.

그런 다음 감독된 미세 조정 데이터 세트에서 y'를 인간 응답 y와 구별할 수 있도록 새 언어 모델 매개변수 θt+1을 최적화합니다. 이는 점진적인 과정을 형성하여 목표 반응 분포에 점진적으로 접근할 수 있습니다.

여기서 메인 모델의 손실 함수는 y와 y' 사이의 함수 값의 차이를 고려하여 로그 손실을 사용합니다.

모델 매개변수가 너무 많이 벗어나는 것을 방지하기 위해 상대 모델에 KL 발산 정규화를 추가합니다.

구체적인 적대 게임 훈련 목표는 Formula 4.7에 나와 있습니다. 이론적인 분석을 통해 언어 모델의 응답 분포가 목표 응답 분포와 같을 때 최적화 과정이 수렴된다는 것을 알 수 있습니다.

게임 후 생성된 합성 데이터를 훈련에 활용하고, SPIN을 활용하여 자체 미세 조정을 하면 LLM의 성능을 효과적으로 향상시킬 수 있습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

그런데 초기 미세 조정 데이터를 단순히 다시 미세 조정하면 성능 저하가 발생합니다.

SPIN에는 초기 모델 자체와 기존의 미세 조정된 데이터 세트만 필요하므로 LLM은 SPIN을 통해 자체적으로 개선할 수 있습니다.

특히 SPIN은 DPO를 통해 추가 GPT-4 선호도 데이터로 훈련된 모델보다 성능이 뛰어납니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

또한 실험에서는 반복 학습이 더 많은 Epoch를 사용하여 학습하는 것보다 모델 성능을 더 효과적으로 향상할 수 있다는 것을 보여줍니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

단일 반복의 학습 기간을 연장해도 SPIN 성능은 저하되지 않지만 한계에 도달하게 됩니다.

반복이 많을수록 SPIN의 효과는 더욱 분명해집니다.

이 논문을 읽은 후 네티즌들은 한숨을 쉬었습니다.

합성 데이터가 대규모 언어 모델의 개발을 지배하게 될 것이며 이는 대규모 언어 모델 연구자들에게 매우 좋은 소식이 될 것입니다!

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. Pictures

자체 연주를 통해 LLM은 지속적으로 개선됩니다

특히 연구진이 개발한 SPIN 시스템은 상호 영향을 미치는 두 모델이 서로를 홍보하는 시스템입니다.

은 이전 반복 t의 LLM을 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 로 표시하며, 연구원은 이를 인간 주석이 달린 SFT 데이터 세트의 큐 x에 대한 응답 y를 생성하는 데 사용했습니다.

다음 목표는 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 생성된 응답 y와 인간이 생성한 응답 y'를 구별할 수 있는 새로운 LLM을 찾는 것입니다.

이 프로세스는 2인용 게임으로 볼 수 있습니다.

주요 플레이어 또는 새로운 LLM UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 은 상대 플레이어의 반응과 인간이 생성한 반응을 식별하려고 시도합니다. 또는 이전 LLM이 생성합니다. 응답은 수동으로 주석이 달린 SFT 데이터세트의 데이터와 최대한 유사합니다.

이전 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 을 미세 조정하여 얻은 새로운 LLM 은 의 응답을 선호하므로 을 사용하여 보다 일관된 배포 이 이루어집니다.

다음 반복에서는 새로 획득한 LLM UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 이 응답 생성 상대가 되며 자체 재생 프로세스의 목표는 LLM이 결국 로 수렴하여 가장 강력한 LLM이 더 이상 응답을 생성할 수 없도록 하는 것입니다. 이전에 생성된 응답 버전과 사람이 생성한 버전을 구별합니다.

SPIN을 사용하여 모델 성능을 향상시키는 방법

연구원들은 LLM 생성 응답과 인간 생성 응답을 구별하는 것이 주요 모델 목표인 2인용 게임을 설계했습니다. 동시에, 대적의 역할은 인간과 구별할 수 없는 반응을 만들어내는 것입니다. 연구원의 접근 방식의 핵심은 기본 모델을 교육하는 것입니다.

먼저 LLM의 응답과 인간의 응답을 구별하기 위해 기본 모델을 훈련하는 방법을 설명합니다.

연구원 접근 방식의 중심에는 메인 플레이어와 상대가 모두 동일한 LLM이지만 서로 다른 반복에서 나온 자체 게임 메커니즘이 있습니다.

더 구체적으로 상대는 이전 반복의 이전 LLM이고, 주 플레이어는 현재 반복에서 배울 새로운 LLM입니다. t+1 반복에는 (1) 주 모델 훈련, (2) 상대 모델 업데이트라는 두 단계가 포함됩니다.

마스터 모델 훈련

먼저, 연구원들은 LLM 반응과 인간 반응을 구별하기 위해 마스터 플레이어를 훈련시키는 방법을 설명할 것입니다. 적분 확률 측정(IPM)에서 영감을 받아 연구원들은 목적 함수를 공식화했습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 그림

적대 모델 업데이트

적대 모델의 목표는 다음과 같은 더 나은 LLM을 찾는 것입니다. 의 응답은 메인 모델의 p 데이터와 다르지 않습니다.

실험

SPIN은 벤치마크 성능을 효과적으로 향상시킵니다

연구원들은 SPIN의 효과를 입증하기 위한 광범위한 평가로 HuggingFace Open LLM Leaderboard를 사용했습니다.

아래 그림에서 연구원들은 0~3회 반복 후 SPIN으로 미세 조정된 모델의 성능을 기본 모델인 zephyr-7b-sft-full과 비교했습니다.

연구원들은 SPIN이 기본 모델이 완전히 미세 조정된 SFT 데이터 세트를 더욱 활용하여 모델 성능을 향상시키는 데 상당한 결과를 보인다는 것을 관찰할 수 있습니다.

반복 0에서는 모델 응답이 zephyr-7b-sft-full에서 생성되었으며, 연구원들은 평균 점수에서 2.66%의 전반적인 개선을 관찰했습니다.

이러한 개선은 특히 TruthfulQA 및 GSM8k 벤치마크에서 두드러져 각각 5% 및 10% 이상 증가했습니다.

반복 1에서 연구원들은 알고리즘 1에 설명된 프로세스에 따라 반복 0의 LLM 모델을 사용하여 SPIN에 대한 새로운 응답을 생성했습니다.

이 반복에서는 평균 1.32%의 추가 향상이 이루어졌으며 이는 Arc Challenge 및 TruthfulQA 벤치마크에서 특히 중요합니다.

이후 반복을 통해 다양한 작업에 대한 점진적인 개선 추세가 이어졌습니다. 동시에, 반복 t+1에서의 개선은 자연스럽게 더 작아집니다

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. picture

zephyr-7b-beta는 약 62k 선호도 데이터에 DPO를 사용하여 zephyr-7b-sft-full에서 파생된 모델입니다. 훈련을 받았습니다.

연구원들은 DPO가 선호도를 결정하기 위해 사람의 입력이나 높은 수준의 언어 모델 피드백이 필요하므로 데이터 생성에는 다소 비용이 많이 드는 프로세스라고 지적합니다.

반면에 연구진의 SPIN은 초기 모델 자체만 필요합니다.

또한 새로운 데이터 소스가 필요한 DPO와 달리 연구원의 방법은 기존 SFT 데이터 세트를 완전히 활용합니다.

아래 그림은 반복 0과 1에서 SPIN과 DPO 교육의 성능 비교를 보여줍니다(50k SFT 데이터 사용).

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 사진

연구원들은 DPO가 새로운 소스의 더 많은 데이터를 활용하지만 기존 SFT 데이터를 기반으로 한 SPIN이 반복 1부터 시작된다는 것을 관찰할 수 있습니다. SPIN은 심지어 DPO의 성능을 능가하며 순위에서 SPIN 순위도 높습니다. 벤치마크 테스트는 DPO의 테스트를 훨씬 능가합니다.

참조:

https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

위 내용은 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

무지의 베일 뒤에 직장 AI를 만들어야합니다.Apr 29, 2025 am 11:15 AM

존 롤스 (John Rawls)의 1971 년 책 The Justice의 이론에서 그는 오늘날의 AI 디자인의 핵심으로 취해야 할 사고 실험을 제안하고 의사 결정 : 무지의 베일을 제안했다. 이 철학은 형평성을 이해하기위한 간단한 도구를 제공하며 리더 가이 이해를 사용하여 AI를 공평한 방식으로 설계하고 구현할 수있는 청사진을 제공합니다. 새로운 사회에 대한 규칙을 만들고 있다고 상상해보십시오. 그러나 전제가 있습니다.이 사회에서 어떤 역할을할지 미리 알 수 없습니다. 당신은 부자 또는 가난하거나 건강하거나 장애가있을 수 있으며 다수 또는 소수의 소수에 속할 수 있습니다. 이 "무지의 베일"하에 운영되면 규칙 제조업체가 스스로 이익을 얻는 결정을 내리지 못하게합니다. 반대로, 사람들은 대중을 공식화하도록 더 동기를 부여받을 것입니다

결정, 결정… 실용적인 적용 AI를위한 다음 단계Apr 29, 2025 am 11:14 AM

수많은 회사들이 로봇 프로세스 자동화 (RPA)를 전문으로하며, 반복적 인 작업과 같은 반복적 인 작업 (어디서나 자동화, 파란색 프리즘 등)를 제공하는 봇을 제공합니다. 한편, 프로세스 마이닝, 오케스트레이션 및 지능형 문서 처리 Speciali

에이전트가오고 있습니다 - AI 파트너 옆에서 우리가 할 일에 대해 더 많이Apr 29, 2025 am 11:13 AM

AI의 미래는 간단한 단어 예측과 대화 시뮬레이션을 넘어서고 있습니다. AI 에이전트는 새로운 행동 및 작업 완료가 가능합니다. 이러한 변화는 이미 Anthropic의 Claude와 같은 도구에서 분명합니다. AI 요원 : 연구 a

AI 중심의 미래에 리더를위한 통제보다 공감이 더 중요한 이유Apr 29, 2025 am 11:12 AM

빠른 기술 발전은 미래의 업무에 대한 미래 지향적 인 관점을 필요로합니다. AI가 단순한 생산성 향상을 초월하고 사회적 구조를 형성하기 시작하면 어떻게됩니까? Topher McDougal의 다가오는 책인 Gaia Wakes :

제품 분류를위한 AI : 기계가 세법을 마스터 할 수 있습니까?Apr 29, 2025 am 11:11 AM

조화 시스템 (HS)과 같은 시스템의 "HS 8471.30"과 같은 복잡한 코드를 포함하는 제품 분류는 국제 무역 및 국내 판매에 중요합니다. 이 코드는 올바른 세금 신청을 보장하여 모든 inv에 영향을 미칩니다

데이터 센터 요구가 기후 기술 반등을 일으킬 수 있습니까?Apr 29, 2025 am 11:10 AM

데이터 센터 및 기후 기술 투자의 에너지 소비의 미래 이 기사는 AI가 주도하는 데이터 센터의 에너지 소비 급증과 기후 변화에 미치는 영향을 탐구 하고이 과제를 해결하기 위해 혁신적인 솔루션 및 정책 권장 사항을 분석합니다. 에너지 수요의 과제 : 대규모 및 초대형 스케일 데이터 센터는 수십만 명의 일반 북미 가족의 합과 비슷한 대규모 전력을 소비하며, AI 초반 규모 센터는 이보다 수십 배 더 많은 힘을 소비합니다. 2024 년 첫 8 개월 동안 Microsoft, Meta, Google 및 Amazon은 AI 데이터 센터의 건설 및 운영에 약 1,250 억 달러를 투자했습니다 (JP Morgan, 2024) (표 1). 에너지 수요 증가는 도전이자 기회입니다. 카나리아 미디어에 따르면 다가오는 전기

AI와 할리우드의 다음 황금 시대Apr 29, 2025 am 11:09 AM

생성 AI는 영화 및 텔레비전 제작을 혁신하고 있습니다. Luma의 Ray 2 모델과 활주로의 Gen-4, Openai의 Sora, Google의 VEO 및 기타 새로운 모델은 전례없는 속도로 생성 된 비디오의 품질을 향상시키고 있습니다. 이 모델은 복잡한 특수 효과와 현실적인 장면을 쉽게 만들 수 있으며 짧은 비디오 클립과 카메라로 인식 된 모션 효과조차도 달성되었습니다. 이러한 도구의 조작과 일관성은 여전히 개선되어야하지만 진행 속도는 놀랍습니다. 생성 비디오는 독립적 인 매체가되고 있습니다. 일부 모델은 애니메이션 제작에 능숙하고 다른 모델은 라이브 액션 이미지에 능숙합니다. Adobe 's Firefly와 Moonvalley's MA가

chatgpt가 천천히 AI의 가장 큰 예-맨이되고 있습니까?Apr 29, 2025 am 11:08 AM

ChatGpt 사용자 경험 감소 : 모델 저하 또는 사용자 기대치입니까? 최근에, 많은 ChatGpt 유료 사용자가 성능 저하에 대해 불평하여 광범위한 관심을 끌었습니다. 사용자는 모델에 대한 느린 반응, 짧은 답변, 도움 부족 및 더 많은 환각을보고했습니다. 일부 사용자는 소셜 미디어에 대한 불만을 표명했으며 Chatgpt가“너무 아첨”이되었으며 중요한 피드백을 제공하기보다는 사용자보기를 확인하는 경향이 있습니다. 이는 사용자 경험에 영향을 줄뿐만 아니라 생산성 감소 및 컴퓨팅 리소스 낭비와 같은 회사 고객에게 실제 손실을 가져옵니다. 성능 저하의 증거 많은 사용자들이 ChatGpt 성능, 특히 GPT-4와 같은 이전 모델 (이번 달 말에 서비스에서 곧 중단 될 예정)에서 상당한 악화를보고했습니다. 이것

See all articles