처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 10, 2023 pm 02:21 PM

ai모델

우리는 Google T5 모델부터 OpenAI GPT 시리즈 대형 모델, LLM(대형 언어 모델)에 이르기까지 상황별 학습 및 사고 사슬 추론과 같은 인상적인 일반화 기능을 입증했다는 것을 알고 있습니다. 동시에 LLM이 자연어 지침을 따르고 실제 작업을 완료하도록 하기 위해 연구자들은 LLM에 대한 지침 미세 조정 방법을 탐색해 왔습니다. 이는 두 가지 방법으로 수행됩니다. 사람이 주석을 추가한 프롬프트와 피드백을 사용하여 다양한 작업에 대한 모델을 미세 조정하거나 수동 또는 자동 생성된 지침으로 보강된 공개 벤치마크 및 데이터 세트를 사용하여 미세 조정을 감독합니다.

이러한 방법 중 Self-Instruct Fine-tuning은 SOTA 수업 Fine-tuning의 교사 LLM이 생성한 데이터를 따르는 수업을 통해 학습하여 LLM이 인간의 의도와 일치하도록 하는 간단하고 효과적인 방법입니다. 명령 미세 조정이 LLM의 제로 샘플 및 소규모 샘플 일반화 기능을 향상시키는 효과적인 수단이 되었다는 사실이 입증되었습니다.

최근 ChatGPT 및 GPT-4의 성공은 교육 미세 조정을 사용하여 오픈 소스 LLM을 개선할 수 있는 엄청난 기회를 제공합니다. Meta LLaMA는 GPT-3와 같은 독점 LLM에 필적하는 성능을 갖춘 오픈 소스 LLM 제품군입니다. LLaMA가 지침을 따르도록 가르치기 위해 뛰어난 성능과 저렴한 비용으로 인해 Self-Instruct가 빠르게 채택되었습니다. 예를 들어 Stanford의 Alpaca 모델은 GPT-3.5에서 생성된 52k 명령 준수 샘플을 사용하고, Vicuna 모델은 ShareGPT에서 약 70k 명령 준수 샘플을 사용합니다.

LLM 지침 미세 조정의 SOTA 수준을 향상시키기 위해 Microsoft Research는 "GPT-4를 사용한 지침 조정"이라는 논문에서 처음으로 GPT-4를 자기 유도 미세 조정을 위한 교사 모델로 사용했습니다. ".

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

문서 주소: https://arxiv.org/pdf/2304.03277.pdf
프로젝트 주소: https://instruction-tuning-with-gpt-4.github. io/
GitHub 주소: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

연구원이 한 번에 공개했습니다. GPT-4에서 생성된 데이터에는 중국어와 영어로 된 52,000개의 명령 준수 데이터 세트와 세 가지 명령 미세 조정 모델의 출력을 평가하기 위해 GPT-4에서 생성된 피드백 데이터가 포함됩니다.

한편, GPT-4에서 생성된 데이터를 기반으로 지시 미세 조정 LLaMA 모델과 보상 모델이 개발되었습니다. 지침 미세 조정 LLM의 품질을 평가하기 위해 연구원들은 세 가지 정렬 기준의 수동 평가, GPT-4 피드백을 기반으로 한 자동 평가, ROUGE-L(부자연스러운 지침에 대한 자동 요약 평가 방법)의 세 가지 지표를 사용하여 테스트 샘플을 평가했습니다. . 하나).

실험 결과는 GPT-4에서 생성된 데이터를 사용하여 LLM 지침 미세 조정의 효과를 검증합니다. GPT-4에서 생성된 52k 중국어 및 영어 명령 준수 데이터는 이전 SOTA 모델보다 새로운 작업에서 더 나은 제로 샘플 성능을 달성합니다. 현재 연구자들은 GPT-4 및 관련 코드를 사용하여 생성된 데이터를 공개했습니다.

데이터 세트

이 연구에서는 GPT-4를 사용하여 다음 네 가지 데이터 세트를 생성합니다.

영어 지침-다음 데이터: Alpaca에서 수집된 52K 지침의 경우 각 지침에는 영어 GPT-4 답변이 제공됩니다. 이 데이터 세트는 주로 GPT-4 답변과 GPT-3 답변의 통계를 탐색하고 비교하는 데 사용됩니다.
중국어 지침 따르기 데이터: 이 연구에서는 ChatGPT를 사용하여 52K 지침을 중국어로 번역하고 GPT-4에게 중국어로 답변하도록 요청했습니다.
비교 데이터: GPT-4가 귀하의 응답을 1에서 10까지 평가하도록 하세요. 또한 연구에서는 GPT-4에 GPT-4, GPT-3.5, OPT-IML이라는 세 가지 모델의 응답을 비교하고 점수를 매기도록 요청했습니다. 이 데이터 세트는 주로 보상 모델을 훈련하는 데 사용됩니다.
부자연스러운 명령에 대한 답변: GPT-4의 답변은 68K 명령-입-출력 3개 핵심 데이터 세트에서 디코딩됩니다. 이 하위 집합은 GPT-4와 명령어 미세 조정 모델 간의 격차를 정량화하는 데 사용됩니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

그림 1은 GPT-4와 GPT-3.5의 영어 출력 응답 세트를 비교합니다. 그림 1 (a)와 (b)는 빈도가 10보다 높은 동사-명사 쌍의 두 출력 세트를 보여줍니다. 그림 1 (c)는 두 세트에서 가장 자주 사용되는 25개의 단어 쌍을 비교합니다. 시퀀스 길이의 빈도 분포 및 결과는 GPT-4가 GPT-3.5보다 더 긴 시퀀스를 생성하는 경향이 있음을 보여줍니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

명령 미세 조정 언어 모델

이 연구는 LLaMA 7B 체크포인트를 기반으로 하며 지도 미세 조정을 사용하여 두 가지 모델을 훈련합니다. (i) LLaMA-GPT4, 다음에서 생성된 52K 영어 명령 준수 데이터 GPT-4 열차. (ii) GPT-4에서 생성된 데이터를 따르는 52K 중국어 명령어로 훈련된 LLaMA-GPT4-CN.

보상 모델

RLHF(Reinforcement Learning with Human Feedback)는 LLM 행동이 인간 선호도와 일치하도록 만드는 것을 목표로 합니다. 이 문제는 종종 회귀 작업으로 공식화됩니다. 주어진 단서와 반응 사이의 보상을 예측합니다. 그러나 이 방법은 일반적으로 대규모 비교 데이터가 필요하며, Alpaca, Vicuna, Dolly와 같은 기존 오픈 소스 모델은 비교 데이터에 주석을 추가하는 데 드는 비용이 높기 때문에 RLHF를 포함하지 않습니다. 동시에 최근 연구에 따르면 GPT-4는 자체 오류를 식별 및 수정하고 응답의 품질을 정확하게 판단할 수 있는 것으로 나타났습니다. 따라서 본 연구에서는 RLHF에 대한 연구를 촉진하기 위해 앞서 설명한 바와 같이 GPT-4를 활용한 비교자료를 작성하였다.

데이터 품질을 평가하기 위해 연구에서는 이 데이터 세트에 대한 평가를 위해 OPT 1.3B를 기반으로 한 보상 모델도 훈련했습니다. 비교 데이터의 분포는 그림 2에 나와 있습니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

실험

이 연구에서는 인간 평가, GPT-4, 부자연스러운 수업 평가의 세 가지 평가 유형을 활용합니다. 결과는 GPT-4에서 생성된 데이터를 사용하는 것이 다른 기계 생성 데이터에 비해 LLM 명령을 미세 조정하는 효율적이고 효과적인 방법임을 확인합니다. 다음으로 구체적인 실험 과정을 살펴보겠습니다.

인간 평가

그림 3(a)는 LLaMA-GPT4와 Alpaca의 비교 결과를 보여줍니다. 실험 결과 유용성 지표에서 GPT-4가 54.12%의 점수로 승리했습니다. 그림 3(b)는 LLaMA-GPT4와 GPT-4의 비교 결과를 보여주며, 이는 GPT-4 명령어로 미세 조정된 LLaMA의 성능이 원래 GPT-4와 유사함을 보여줍니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

자동 평가를 사용해 SOTA와 비교

이 연구에서는 GPT-4를 사용하여 보이지 않는 질문 80개에 대한 다양한 모델의 응답을 자동으로 평가합니다. 먼저 LLaMA-GPT-4(7B) 및 GPT-4라는 두 개의 챗봇에서 답변을 수집하고 LLaMA(13B), Alpaca(13B), Vicuna(13B), Bard(Google, 2023)를 포함한 다른 챗봇을 사용하여 답변을 게시합니다. 그리고 ChatGPT. 각 평가에 대해 연구에서는 GPT-4에게 두 모델 간의 반응 품질을 1~10점 척도로 평가하도록 요청했습니다. 결과는 그림 4에 나와 있습니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

그림 4(c,d)는 모든 챗봇을 비교합니다. LLaMA_GPT4는 더 나은 성능을 발휘합니다. 7B LLaMA GPT4는 13B Alpaca 및 LLaMA보다 성능이 더 좋습니다. 그러나 LLaMA_GPT4는 GPT-4와 같은 대형 상용 챗봇과 비교하면 여전히 격차가 있습니다.

연구원들은 아래 그림 5에서 모든 챗봇의 성능을 추가로 연구했습니다. 먼저 GPT-4를 사용하여 챗봇의 영어 응답을 중국어로 번역한 다음 GPT-4를 사용하여 영어 질문을 중국어로 번역하여 답변을 얻습니다. GPT-4 번역 및 생성된 중국어 응답과의 비교는 5(a) 및 5(b)에 표시되며, 중국어로 답변하도록 요청된 모든 모델 결과는 5(c)에 표시됩니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

아래 그림 6에서 연구원들은 LLaMA-GPT4를 GPT-4 및 Alpaca 부자연스러운 명령과 비교합니다. 결과는 LLaMA-GPT4 및 GPT-4가 Ground Truth 응답 길이가 증가함에 따라 더 나은 성능을 발휘한다는 것을 보여줍니다. 이는 장면이 더 창의적일수록 지시를 더 잘 따를 수 있다는 것을 의미합니다. LLaMA-GPT4와 GPT-4는 모두 시퀀스 길이가 짧을 때 간단한 실측 답변이 포함된 응답을 생성할 수 있으며 추가 단어를 추가하면 응답이 더욱 채팅과 유사해집니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

더 많은 기술적, 실험적 세부사항은 원본 논문을 참조하세요.

위 내용은 처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.