>기술 주변기기 >일체 포함 >수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.

수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.

WBOY
WBOY앞으로
2023-04-16 13:52:031422검색

ChatGPT는 올해 말 AI 분야의 새로운 최고 플레이어입니다. 사람들은 강력한 질문 및 답변 언어 기능과 프로그래밍 지식에 놀랐습니다. 그러나 모델이 강력할수록 그에 따른 기술 요구 사항도 높아집니다.

수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.

ChatGPT는 GPT 3.5 시리즈 모델을 기반으로 하며 사전 훈련된 언어 모델을 지속적으로 미세 조정하는 "수동 주석 데이터 + 강화 학습"(RLHF)을 도입하여 대규모 언어 모델(LLM) 허용을 목표로 합니다. ) 인간의 명령을 이해하고 주어진 프롬프트에 따라 최적의 답변을 제공하는 방법을 배웁니다.

이 기술적 아이디어는 현재 언어 모델의 개발 추세입니다. 이러한 유형의 모델은 개발 가능성이 높지만 모델 교육 및 미세 조정 비용이 매우 높습니다.

현재 OpenAI에서 공개한 정보에 따르면 ChatGPT의 교육 과정은 세 단계로 나뉩니다.

수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.

첫 번째 단계는 GPT 3.5와 유사한 감독 정책 모델입니다. 이러한 기반은 다양한 유형의 인간 지시에 포함된 의도를 모델이 이해하기 어렵고, 생성된 콘텐츠의 품질을 모델이 판단하는 것도 어렵습니다. 연구원들은 프롬프트 데이터 세트에서 일부 샘플을 무작위로 선택한 다음 전문 주석자에게 지정된 프롬프트를 기반으로 고품질 답변을 제공하도록 요청했습니다. 이 수동 프로세스를 통해 얻은 프롬프트와 이에 상응하는 고품질 답변은 초기 감독 정책 모델을 미세 조정하여 기본적인 프롬프트 이해를 제공하고 생성된 답변의 품질을 초기에 향상시키는 데 사용되었습니다.

두 번째 단계에서 연구팀은 주어진 프롬프트를 기반으로 모델에서 생성된 여러 출력을 추출한 다음 인간 연구원에게 이러한 출력을 정렬하도록 요청한 다음 정렬된 데이터를 사용하여 보상 모델(RM)을 ​​교육합니다. ChatGPT는 RM을 훈련하기 위해 쌍별 손실을 채택합니다.

3단계에서 연구팀은 강화 학습을 사용하여 사전 학습 모델의 성능을 향상시키고, 이전 단계에서 학습한 RM 모델을 사용하여 사전 학습 모델의 매개변수를 업데이트합니다.

ChatGPT 훈련의 세 단계 중 세 번째 단계에서만 데이터에 대한 수동 주석이 필요하지 않은 반면, 첫 번째와 두 번째 단계 모두 많은 양의 수동 주석이 필요하다는 것을 알 수 있습니다. 따라서 ChatGPT와 같은 모델의 성능은 매우 우수하지만 지시 사항을 따르는 능력을 향상시키기 위해 인건비가 매우 높습니다. 모델의 규모가 커지고, 능력의 범위가 점점 더 넓어질수록, 이 문제는 더욱 심각해지고, 결국 모델 개발을 방해하는 병목 현상이 될 것입니다.

이 병목 현상을 해결하기 위한 방법을 제안하려는 일부 연구 시도가 있습니다. 예를 들어, 워싱턴 대학과 다른 기관에서는 최근 "SELF-INSTRUCT: Aligning Language Model with Self-Generated Instructions"라는 논문을 공동으로 발표했습니다. INSTRUCT는 모델 자체의 생성 프로세스를 통해 사전 훈련된 언어 모델의 지시 따르기 능력을 향상시킵니다.

수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.

문서 주소: https://arxiv.org/pdf/2212.10560v1.pdf

SELF-INSTRUCT는 모델 자체의 지시 신호를 사전에 사용하는 반자동 프로세스입니다. 열차 LM은 명령 조정을 수행합니다. 아래 그림에서 볼 수 있듯이 전체 프로세스는 반복적인 부트스트래핑 알고리즘입니다.

SELF-INSTRUCT는 제한된 씨앗 세트로 시작하여 손으로 쓴 지침으로 전체 생성 과정을 안내합니다. 첫 번째 단계에서는 모델에 새로운 작업 생성 지침이 입력됩니다. 이 단계에서는 기존 지침 세트를 활용하여 새 작업을 정의하기 위한 더 광범위한 지침을 생성합니다. SELF-INSTRUCT는 또한 명령 조정을 감독하는 데 사용하기 위해 새로 생성된 명령 세트에 대한 입력 및 출력 인스턴스를 생성합니다. 마지막으로 SELF-INSTRUCT는 품질이 낮고 중복된 명령어도 제거합니다. 전체 프로세스는 반복적으로 수행되며 최종 모델은 수많은 작업에 대한 지침을 생성할 수 있습니다.

새로운 방법의 효율성을 검증하기 위해 연구에서는 GPT-3에 SELF-INSTRUCT 프레임워크를 적용했으며, 이는 궁극적으로 약 52k 명령어, 82k 인스턴스 입력 및 목표 출력을 생성했습니다. 우리는 GPT-3가 SUPER-NATURALINSTRUCTIONS 데이터 세트의 새로운 작업에 대해 원래 모델에 비해 33.1%의 절대적 개선을 달성한 것을 관찰했습니다. 이는 개인 사용자 데이터와 사람 주석을 사용하여 훈련된 InstructGPT_001의 성능과 비슷합니다.

수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.

추가 평가를 위해 이 연구는 새로운 작업에 대해 전문가가 작성한 지침 세트를 편집하고 인간 평가를 통해 SELF-INSTRUCT를 사용하는 GPT-3의 성능이 기존 공개보다 훨씬 더 좋을 것임을 입증했습니다. 명령 데이터 세트에서 모델을 사용하는 방법은 InstructGPT_001보다 5%만 뒤쳐져 있습니다.

수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.

SELF-INSTRUCT는 수동 주석이 거의 필요하지 않고 사전 훈련된 언어 모델을 지침과 정렬하는 방법을 제공합니다. 유사한 방향으로 여러 작업이 시도되었으며 모두 좋은 결과를 얻었습니다. 이러한 유형의 방법은 대규모 언어 모델의 높은 수동 라벨링 비용 문제를 해결하는 데 매우 효과적이라는 것을 알 수 있습니다. 이를 통해 ChatGPT와 같은 LLM이 더 강력해지고 더 발전할 것입니다.

위 내용은 수동 주석이 필요하지 않으며 자체 생성된 지침 프레임워크가 ChatGPT와 같은 LLM의 비용 병목 현상을 해결합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제