2024 년 9 월에 공개 된 Openai의 O1 모델은 대규모 강화 학습을 통해 "고급 추론"기능을 선보였습니다. AI Research Lab 인 DeepSeek는이 행동을 성공적으로 복제하고 방법론을 공개적으로 발표했습니다. 이 기사는이 돌파구의 핵심 개념과 기본 메커니즘을 탐구합니다. OpenAi의 O1 모델은 "사고"토큰을 소개하여 LLM (Lange Language Model) 교육을 혁신했습니다. 이 특수 토큰은 스크래치 패드 역할을하여 모델이 문제와 사용자 쿼리를 체계적으로 처리 할 수 있습니다. 주요 결과는 테스트 시간 컴퓨팅 증가로 인한 성능 향상이었습니다. 더 많은 토큰은 더 나은 응답과 동일합니다. 다음 그래프 (OpenAi의 블로그에서)는 다음을 보여줍니다
왼쪽 플롯은 더 긴 훈련 (열차 시간 컴퓨팅)이 성능을 향상시키는 확립 된 신경 스케일링 법칙을 보여줍니다. 올바른 플롯은 새로운 스케일링 법칙을 보여줍니다. 추론 중 (테스트 시간 컴퓨팅)가 성능을 향상시킵니다.
사고 토큰
o1의"사고 "토큰은 모델의 사고 체인 (COT) 추론을 구분합니다. 그들의 중요성은 두 가지입니다. 그들은 UI 개발에 대한 추론 과정을 명확하게 설명하고 모델의 사고 과정에 대한 인간이 읽을 수있는 기록을 제공합니다. OpenAi는 훈련 세부 사항을 기밀로 유지했지만 DeepSeek의 연구는 이에 대한 빛을 비추고 있습니다.
Deepseek의 2025 년 1 월 간행물 인 " Deepseek-R1 : 강화 학습
DeepSeek-R1-Zero (rl 만 해당)
프롬프트 템플릿 : 간단한 템플릿은
및 태그를 사용하여 모델의 응답을 구조화합니다.
보상 신호 : 규칙 기반 시스템은 정확도와 서식을 평가하여 잠재적 인 "보상 해킹"문제를 피하십시오. 종종 신경 보상 모델과 관련된 문제.
GRPO (Group Relative Policy Optimization) : 이 RL 접근 방식은 안정적인 교육을 위해 클리핑 및 KL 디버 겐 규칙화를 통합하여 모델 매개 변수를 업데이트하는 데 응답을 집계합니다. 손실 함수는 다음과 같습니다.
r1-zero 결과 (출현 능력)
DeepSeek-R1은 SFT와 RL을 결합한 4 단계 교육 프로세스를 통해 R1-Zero의 가독성 문제를 해결합니다.
r1-Zero 스타일 RL (언어 일관성 보상) :
최종 RL 교육은 추론 교육과 도움과 무해함을 향상시키기위한 RLHF를 포함합니다.
[참고 : 외부 리소스에 대한 링크는 해당 내용과 관련이 없으며 프로모션으로 간주 될 수 있으므로 생략되었습니다.] .
위 내용은 LLM을'생각”하도록 훈련시키는 방법 (O1 & Deepseek-R1)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!