>기술 주변기기 >일체 포함 >LLMS의 작동 방식 : 강화 학습, RLHF, DeepSeek R1, Openai O1, Alphago

LLMS의 작동 방식 : 강화 학습, RLHF, DeepSeek R1, Openai O1, Alphago

DDD
DDD원래의
2025-02-28 10:37:12867검색

내 LLM Deep Dive의 2 부에 오신 것을 환영합니다. 파트 1을 읽지 않았다면 먼저 확인하는 것이 좋습니다.

이전에, 우리는 LLM을 훈련시키는 첫 두 가지 주요 단계를 다루었습니다.

사전 훈련-기본 모델을 형성하기 위해 대규모 데이터 세트에서 학습 감독 미세 조정 (SFT)-유용한 예제로 모델을 정제합니다.

이제, 우리는 다음 주요 단계로 다이빙을하고 있습니다 :

강화 학습 (rl) . 사전 훈련 및 SFT는 잘 확립되어 있지만 RL은 여전히 ​​발전하고 있지만 교육 파이프 라인의 중요한 부분이되었습니다. 나는 Andrej Karpathy의 널리 인기있는 3.5 시간 YouTube를 참조했습니다. Andrej는 Openai의 창립 멤버이며 그의 통찰력은 금입니다. > 가자?
    강화 학습 (RL)의 목적은 무엇입니까? 인간과 LLMS는 정보를 다르게 처리합니다. 기본 산술과 같은 우리에게 직관적 인 것은 LLM에 대한 것이 아니며, 이는 텍스트를 토큰 시퀀스로 만 보는 것입니다. 반대로, LLM은 단순히 훈련 중에 충분한 예를 보았 기 때문에 복잡한 주제에 대한 전문가 수준의 응답을 생성 할 수 있습니다. 인식의 차이점은 인간 주석기가 정답을 향해 LLM을 지속적으로 안내하는 "완벽한"레이블 세트를 제공하는 것을 어렵게 만듭니다. rl 모델이
  1. 자신의 경험에서 배우도록 함으로써이 간격을 연결합니다. 는 명시 적 레이블에만 의존하는 대신 다른 토큰 시퀀스를 탐색하고 출력이 가장 유용한 피드백 (보상 신호)을 수신합니다. 시간이 지남에 따라 인간 의도에 더 잘 맞는 법을 배웁니다.
  2. rl
  3. 뒤에 직관 llms는 확률 론적입니다. 즉, 응답이 고정되어 있지 않음을 의미합니다. 동일한 프롬프트를 사용하더라도 출력은 확률 분포에서 샘플링되기 때문에 다양합니다. 우리는 수천 또는 수백만의 가능한 응답을 동시에 를 생성 함으로써이 무작위성을 활용할 수 있습니다. 다른 길을 탐색하는 모델로 생각하십시오. 우리의 목표는 더 나은 길을 더 자주 가져 가도록 격려하는 것입니다. 이를 위해, 우리는 더 나은 결과를 초래하는 토큰 시퀀스에 대한 모델을 훈련시킵니다. 인간 전문가가 라벨이 붙은 데이터를 제공하는 감독 된 미세 조정과 달리, 강화 학습은 모델이

자체로부터 배울 수있게 해줍니다. 모델은 어떤 응답이 가장 잘 작동하는지 발견하고 각 교육 단계 후에는 매개 변수를 업데이트합니다. 시간이 지남에 따라, 이것은 미래에 비슷한 프롬프트가 주어지면 고품질 답변을 생성 할 가능성이 더 높아집니다. 그러나 어떤 응답이 가장 좋은지 어떻게 결정합니까? 그리고 우리는 얼마나 많은 RL을해야합니까? 세부 사항은 까다 롭고 올바르게 얻는 것이 사소하지 않습니다. rl은 "신규"가 아닙니다 - 그것은 인간의 전문 지식을 능가 할 수 있습니다 (Alphago, 2016) RL의 힘의 좋은 예는 Deepmind 's Alphago입니다. 최초의 AI는 프로 고 플레이어를 물리 치고 나중에 인간 수준의 플레이를 능가합니다. 2016 년 자연 논문 (아래 그래프)에서 모델이 순전히 SFT에 의해 교육을 받았을 때 (모델을 모방 할 수있는 좋은 예를 제공 함), 모델은 인적 수준의 성능에 도달 할 수 있었지만 결코 능가 할 수는 없었지만 결코 그것을 능가하지 못했습니다. 점선은 Lee Sedol의 공연을 나타냅니다.

SFT는 혁신이 아닌 복제에 관한 것이기 때문입니다. 모델이 인간의 지식을 넘어 새로운 전략을 발견 할 수는 없습니다. 그러나 RL은 Alphago가 스스로를 대항하고 전략을 개선하고 궁극적으로 인간의 전문 지식을 초과 할 수있게 해주었다.

rl은 AI의 흥미 진진한 프론티어를 나타냅니다. 여기서 모델은 인간의 상상력을 넘어서 전략을 탐색 할 수 있습니다. rl 기초 요약 일반적인 RL 설정의 주요 구성 요소를 빠르게 요약하겠습니다.

에이전트

- 학습자 또는 의사 결정자. 그것은 현재 상황 ()을 관찰하고, 행동을 선택한 다음 결과를 기반으로 동작을 업데이트합니다 ( 보상 ).

환경

- 에이전트가 작동하는 외부 시스템 상태

LLMS의 작동 방식 : 강화 학습, RLHF, DeepSeek R1, Openai O1, Alphago - 주어진 단계에서 환경의 스냅 샷 t

.

각 타임 스탬프에서 에이전트는 환경에서 환경의 상태를 새로운 환경으로 바꾸는 환경에서

액션

를 수행합니다. 에이전트는 또한 행동이 얼마나 좋든 나쁜지를 나타내는 피드백을 받게됩니다. LLMS의 작동 방식 : 강화 학습, RLHF, DeepSeek R1, Openai O1, Alphago 이 피드백은
  • 보상 라고 불리며 숫자 형태로 표시됩니다. 긍정적 인 보상은 그 행동을 장려하고 부정적인 보상은 그것을 낙담시킵니다. 다른 상태와 행동의 피드백을 사용하여 에이전트는 시간이 지남에 따라 총 보상을 극대화하는 최적의 전략을 점차적으로 배웁니다. 정책 정책은 에이전트의 전략입니다. 에이전트가 좋은 정책을 따르는 경우, 일관되게 좋은 결정을 내리면서 많은 단계에서 더 높은 보상을받을 것입니다. . 수학적 용어에서는 주어진 상태에 대한 다른 출력의 확률을 결정하는 함수입니다 - (πθ (a | s)) .

    값 함수 장기 예상 보상을 고려하여 특정 상태에있는 것이 얼마나 좋은지 추정합니다. LLM의 경우 보상은 인간의 피드백 또는 보상 모델에서 나올 수 있습니다.

    액터 크리치 아키텍처 는 두 가지 구성 요소를 결합한 인기있는 RL 설정입니다.

    액터 - 각 주에서 어떤 조치를 취할 것인지 결정하는 정책 (πθ)를 배우고 업데이트합니다. 비평가 - (v (s))를 평가하여 선택한 행동이 좋은 결과를 가져 오는지에 대한 액자에게 피드백을 제공합니다.
    1. <: :> 작동 방식 : 액터 는 현재 정책에 따라 조치를 선택합니다.
    2. 비평가 는 결과를 평가하고 (다음 상태) 값 추정치를 업데이트합니다. 비평가의 피드백은 배우가 정책을 개선하여 미래의 행동이 더 높은 보상으로 이어질 수 있도록 도와줍니다. 모든 것을 llms 에 넣습니다 상태는 현재 텍스트 (프롬프트 또는 대화) 일 수 있으며, 그 행동은 다음에 생성 할 토큰이 될 수 있습니다. 보상 모델 (예 : 인간 피드백)은 모델에 생성 된 텍스트가 얼마나 좋든 나쁜지를 알려줍니다. 정책은 다음 토큰을 선택하기위한 모델의 전략이며, 값 함수는 최종 고품질 응답을 생성하는 측면에서 현재 텍스트 컨텍스트가 얼마나 유익한 지 추정합니다. Deepseek-R1 (2025 년 1 월 22 일 출판) RL의 중요성을 강조하기 위해 오픈 소스를 유지하면서 최고 수준의 성능을 달성하는 추론 모델 인 DeepSeek-R1을 탐색합시다. 이 논문은 두 가지 모델을 소개했다 Deepseek-R1-Zero는 대규모 RL을 통해서만 훈련을 받았으며 감독 된 미세 조정 (SFT)을 건너 뛰었습니다. DeepSeek-R1은 그 위에 빌드하여 도전에 직면했습니다
  • 이 핵심 요점 중 일부에 뛰어 들어 봅시다.

    1. RL Algo : 그룹 상대 정책 최적화 (GRPO) 중 하나의 주요 게임 변경 RL 알고리즘은 널리 인기있는 근위 정책 최적화 (PPO)의 변형 인 그룹 상대 정책 최적화 (GRPO)입니다. GRPO는 2024 년 2 월에 Deepseekmath 신문에 소개되었습니다.

위 내용은 LLMS의 작동 방식 : 강화 학습, RLHF, DeepSeek R1, Openai O1, Alphago의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.