찾다
기술 주변기기일체 포함언어 모델에서 RLHF 기술의 기원과 적용은 무엇입니까?

언어 모델에서 RLHF 기술의 기원과 적용은 무엇입니까?

RLHF는 인간의 피드백을 바탕으로 한 강화 학습입니다. 이 기사에서는 LLM(대형 언어 모델)이 RLHF와 결합되는 방법을 소개합니다.

RLHF의 메커니즘

강화 학습은 환경과 상호 작용하여 최적의 전략을 학습하는 기계 학습의 한 분야입니다. 에이전트는 환경 상태의 전환에 영향을 미치는 작업을 선택하고 그에 따라 보상을 받습니다. 보상은 강화 학습 에이전트가 전략을 조정하기 위한 피드백 신호입니다. 훈련 단계에서 에이전트는 보상을 기반으로 전략을 조정하여 장기적인 수익을 극대화합니다.

따라서 강화학습의 핵심인 적절한 보상 시스템을 설계하는 것이 중요합니다. 반면 RLHF는 인간의 피드백을 통합하고 인간을 훈련 프로세스에 통합하여 강화 학습 에이전트의 훈련 효과를 향상시킵니다.

RLHF 일반 프레임워크

대형 언어 모델(LLM)의 강화 학습 미세 조정 프로세스는 일반적으로 세 단계로 구성됩니다. 먼저 사전 훈련된 언어 모델부터 시작합니다. LLM에는 많은 양의 훈련 데이터가 필요하기 때문에 수동 피드백으로 처음부터 훈련하는 것은 비현실적입니다. 따라서 비지도 학습을 통해 사전 훈련하고 출력 생성을 위해 기존 언어 모델을 사용할 수 있습니다. 사전 학습이 완료되면 다음 단계는 미세 조정 단계입니다. 이 단계에서는 강화 학습 알고리즘을 사용하여 LLM을 최적화합니다. LLM은 환경과 상호 작용함으로써 환경으로부터 피드백을 얻고 모델 매개변수를 조정하여 결과를 최적화할 수 있습니다. 마지막 단계는 후속 미세 조정입니다. 이 단계에서 LLM은 특정 작업과 상호 작용하고

를 통해 작업을 수행합니다. 다음으로 두 번째 단계로 들어가면 RL 시스템에 대한 보상 모델을 만들어야 합니다. 이 단계에서는 기본 모델에서 생성된 텍스트를 가져와 이에 대한 품질 점수를 생성하는 또 다른 기계 학습 모델을 교육합니다. 일반적으로 다른 LLM 모델을 사용하고 텍스트 토큰 시퀀스 대신 스칼라 값을 출력하도록 수정합니다. 이 품질 점수는 메인 모델이 더 높은 품질의 텍스트를 생성하도록 안내하는 보상 신호로 사용됩니다.

보상 모델을 훈련하려면 LLM 생성 텍스트가 포함된 품질 평가 데이터세트를 구축해야 합니다. 각 교육 예제는 LLM에서 생성된 힌트와 여러 출력으로 구성됩니다. 다음으로 우리는 인간에게 생성된 텍스트의 품질을 평가하도록 요청했습니다. 그런 다음 이러한 평가 결과를 사용하여 LLM 생성 텍스트의 점수를 예측하는 보상 모델을 교육합니다. 보상 모델은 LLM의 출력과 평가 간의 학습을 통해 인간 선호도에 대한 수학적 표현을 구축할 수 있습니다.

마지막 단계에서 우리는 강화 학습 루프를 미세 조정하고 만들었습니다. 마스터 LLM의 복제본이 RL 에이전트로 사용됩니다. 각 훈련 세트에서 LLM은 데이터 세트에서 여러 단서를 가져와 텍스트를 생성합니다. 그런 다음 텍스트는 인간 선호도와의 일관성을 평가하는 점수를 할당하는 보상 모델로 전달됩니다. 그런 다음 LLM을 업데이트하여 보상 모델에서 더 높은 점수를 받는 출력을 생성합니다.

이것은 언어 모델을 위한 일반적인 RLHF 프레임워크이지만 구현 목표에 따라 해당 수정이 필요합니다.

RLHF의 언어 모델에 대한 또 다른 고려 사항은 보상 최적화와 언어 일관성 간의 균형을 유지하는 것입니다. 보상 모델은 인간 선호도의 불완전한 근사치일 뿐이지만 에이전트 LLM은 대부분의 RL 시스템과 유사하게 구문적 또는 논리적 일관성을 위반하여 보상을 최대화할 수 있습니다. 이러한 일이 발생하지 않도록 ML 팀은 원본 LLM의 복사본을 보관하고 이를 RL 루프에서 사용합니다. 그들은 모델과 원래 출력 사이의 과도한 편차를 방지하기 위해 원래 LLM의 출력과 RL 훈련된 LLM의 출력(KL 발산)의 차이를 보상 신호에 음수 값으로 통합했습니다. 이 전략은 보상 최적화와 언어 일관성 간의 관계 균형을 맞추는 것을 목표로 합니다.

위 내용은 언어 모델에서 RLHF 기술의 기원과 적용은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 网易伏羲에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Apr 24, 2025 am 11:19 AM

AI의 빠른 통합으로 악화 된 직장의 급성장 용량 위기는 점진적인 조정을 넘어 전략적 변화를 요구합니다. 이것은 WTI의 발견에 의해 강조됩니다. 직원의 68%가 작업량으로 어려움을 겪고 BUR로 이어

AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?Apr 24, 2025 am 11:18 AM

John Searle의 중국 방 주장 : AI 이해에 대한 도전 Searle의 사고 실험은 인공 지능이 진정으로 언어를 이해할 수 있는지 또는 진정한 의식을 가질 수 있는지 직접 의문을 제기합니다. Chines를 무시하는 사람을 상상해보십시오

중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다Apr 24, 2025 am 11:17 AM

중국의 기술 거대 기업은 서부에 비해 AI 개발 과정에서 다른 과정을 차트하고 있습니다. 기술 벤치 마크 및 API 통합에만 초점을 맞추는 대신 "스크린 인식"AI 비서 우선 순위를 정합니다.

Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Apr 24, 2025 am 11:16 AM

MCP : AI 시스템이 외부 도구에 액세스 할 수 있도록 권한을 부여합니다 MCP (Model Context Protocol)를 사용하면 AI 애플리케이션이 표준화 된 인터페이스를 통해 외부 도구 및 데이터 소스와 상호 작용할 수 있습니다. MCP를 통해 MCP는 인류에 의해 개발되고 주요 AI 제공 업체가 지원하는 언어 모델 및 에이전트가 사용 가능한 도구를 발견하고 적절한 매개 변수로 전화 할 수 있습니다. 그러나 환경 충돌, 보안 취약점 및 일관되지 않은 교차 ​​플랫폼 동작을 포함하여 MCP 서버 구현에는 몇 가지 과제가 있습니다. Forbes 기사 "Anthropic의 모델 컨텍스트 프로토콜은 AI 에이전트 개발의 큰 단계입니다."저자 : Janakiram MSVDocker는 컨테이너화를 통해 이러한 문제를 해결합니다. Docker Hub Infrastructure를 구축했습니다

6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용Apr 24, 2025 am 11:15 AM

최첨단 기술을 활용하고 비즈니스 통제력을 발휘하여 통제력을 유지하면서 수익성이 높고 확장 가능한 회사를 창출하는 비전 기업가가 사용하는 6 가지 전략. 이 안내서는

Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Apr 24, 2025 am 11:14 AM

Google 사진의 새로운 Ultra HDR 도구 : 이미지 향상을위한 게임 체인저 Google Photos는 강력한 Ultra HDR 변환 도구를 도입하여 표준 사진을 활기차고 높은 동기 범위 이미지로 변환했습니다. 이 향상은 사진가 a

Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Apr 24, 2025 am 11:13 AM

기술 아키텍처는 새로운 인증 문제를 해결합니다 에이전트 Identity Hub는 문제를 해결합니다. 많은 조직이 AI 에이전트 구현을 시작한 후에 만 ​​기존 인증 방법이 기계 용으로 설계되지 않았다는 것을 발견 한 후에 만 ​​발견합니다.

Google Cloud 다음 2025 및 현대 작업의 연결된 미래Google Cloud 다음 2025 및 현대 작업의 연결된 미래Apr 24, 2025 am 11:12 AM

(참고 : Google은 회사 인 Moor Insights & Strategy의 자문 고객입니다.) AI : 실험에서 Enterprise Foundation까지 Google Cloud Next 2025는 실험 기능에서 엔터프라이즈 기술의 핵심 구성 요소까지 AI의 진화를 보여주었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구