7억 7천만 개의 매개변수, 5,400억 개의 PaLM을 초과합니다! UW Google, ACL 2023 학습 데이터의 80%만 필요한 '단계별 증류' 제안 |-일체 포함-php.cn

집

기술 주변기기

일체 포함

7억 7천만 개의 매개변수, 5,400억 개의 PaLM을 초과합니다! UW Google, ACL 2023 학습 데이터의 80%만 필요한 '단계별 증류' 제안 |

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 07, 2023 pm 04:49 PM

ai기차

대형 언어 모델은 성능이 뛰어나며 제로 또는 퓨샷 힌트로 새로운 작업을 해결할 수 있습니다. 그러나 실제 애플리케이션 배포에서 LLM은 메모리 활용 효율성이 낮고 컴퓨팅 리소스가 많이 필요하기 때문에 그다지 실용적이지 않습니다. 예를 들어 1,750억 개의 매개변수가 있는 언어 모델 서비스를 실행하려면 최소 350GB의 비디오 메모리가 필요하며, 현재 최첨단 언어 모델의 대부분은 5,000억 개의 매개변수를 초과했습니다. 많은 연구팀은 이를 실행할 리소스가 충분하지 않으며 실제 응용 프로그램에서 짧은 대기 시간 성능을 충족할 수 없습니다.

수동으로 레이블이 지정된 데이터나 LLM 생성 레이블을 사용한 증류를 사용하여 더 작은 작업별 모델을 훈련하는 연구도 있지만 미세 조정 및 증류에는 LLM과 비슷한 성능을 달성하기 위해 많은 양의 훈련 데이터가 필요합니다.

대형 모델의 리소스 요구 사항 문제를 해결하기 위해 워싱턴 대학과 Google은 협력하여 "Distilling Step-by-Step"이라는 새로운 증류 메커니즘을 제안했습니다. 단계별 증류를 통해 증류된 모델의 크기는 원래 모델보다 작지만 성능은 더 좋고, 미세 조정 및 증류 과정에서 필요한 훈련 데이터도 적습니다

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

보기를 클릭하세요. 다음 링크의 논문: https://arxiv.org/abs/2305.02301 분포 증류 메커니즘은 다중 작업 프레임워크 내에서 소규모 모델을 훈련하기 위한 추가 감독 정보로 LLM에서 추출된 예측 이유(근거)를 사용합니다.

4개의 NLP 벤치마크에 대한 실험 후 다음을 발견했습니다.

1. 미세 조정 및 증류와 비교할 때 이 메커니즘은 더 적은 수의 훈련 샘플로 더 나은 성능을 달성합니다. 7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

더 작은 크기를 사용하는 몇 가지 샘플 프롬프트와 비교합니다. 모델을 사용하여 더 나은 성능을 얻을 수 있습니다

3. 동시에 모델 크기와 데이터 양을 줄이면 LLM보다 더 나은 성능을 얻을 수 있습니다.

실험에서 미세 조정된 770M T5 모델은 가용 데이터의 80%만 사용한 벤치마크 테스트에서 샘플 힌트가 거의 없어 540B PaLM 모델보다 성능이 뛰어났지만, 표준 미세 조정이 적용된 동일한 T5 모델은 100을 사용해도 어려움을 겪었습니다. 데이터 세트의 %가 일치합니다.

증류법

분포증류의 핵심 아이디어는 자연어로 설명되고 유익할 예측 이유, 즉 중간 추론 단계를 점진적으로 추출하여 입력 문제와 모델 출력 간의 연관성을 설명하는 것이며, 이 데이터를 사용하여 소규모 모델을 보다 효율적으로 교육합니다.

분포 증류에는 주로 두 단계가 포함됩니다.

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

1 LLM에서 원리(근거) 추출

연구원은 CoT(Few-Shot Chain of Thinking)를 사용합니다. LLM 예측 중간 단계에서 추출하라는 메시지가 표시됩니다. 대상 작업을 결정한 후 먼저 LLM 입력 프롬프트에서 몇 가지 샘플을 준비하세요. 각 예는 입력, 원리 및 출력을 포함하는 삼중항으로 구성됩니다.

프롬프트를 입력한 후 LLM은 삼중항 시연을 모방하여 상식 질문 및 답변 작업과 같은 다른 새로운 질문에 대한 예측 원리를 생성할 수 있습니다. , 주어진

입력 질문:

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

새미는 사람들이 모이는 장소에 가고 싶어합니다. 그는 어디를 선택할 것인가? 답변 선택: (a) 인구 밀집 지역, (b) 경마장, (c) 사막, (d) 아파트, (e) 장애물)

점진적인 개선을 거쳐 LLM은 "(a) 질문에 대한 정답을 제공할 수 있습니다. 인구 "인구 밀집 지역"을 선택하고, "답은 사람이 많은 곳이어야 합니다. 위 선택지 중에서 인구 밀집 지역에만 사람이 많습니다."라는 질문에 답하는 이유를 제시합니다. LLM은 점진적인 정제를 거쳐 "(a) 인구밀도가 높은 지역"이 정답이라는 결론을 내릴 수 있었고, "답은 사람이 많은 곳이어야 한다. 위의 선택지 중에서 인구밀도가 높은 지역만"이라는 질문에 대한 답변 이유를 제공했다. 사람이 많아요." 사람."

프롬프트의 근거와 짝을 이루는 CoT 예제를 제공함으로써 상황별 학습 기능을 통해 LLM은 직면하지 않은 질문 유형에 대한 해당 답변 이유를 생성할 수 있습니다

2. 소규모 모델 교육

다중 작업 문제에 대한 교육 프로세스 구축을 통해 예측 이유를 추출하여 훈련 소형 모델에 통합할 수 있습니다

표준 라벨 예측 작업 외에도 연구원들은 새로운 이유 생성 작업을 사용하여 소형 모델을 훈련하여 모델이 사용자 생성 방법을 학습할 수 있도록 했습니다. 예측을 위한 중간 추론 단계를 수행하고 모델이 결과 레이블을 더 잘 예측하도록 안내합니다.

입력 프롬프트에 작업 접두사 "label" 및 "rationale"을 추가하여 레이블 예측 및 이유 생성 작업을 구별합니다.

실험 결과

실험에서 연구진은 5,400억 개의 매개변수를 갖는 PaLM 모델을 LLM 기준선으로 선택하고, 작업 관련 다운스트림 소형 모델로 T5 모델을 사용했습니다.

본 연구에서는 자연어 추론을 위한 e-SNLI와 ANLI, 상식 질문 답변을 위한 CQA, 산술수학 응용 질문을 위한 SVAMP의 4가지 벤치마크 데이터 세트에 대한 실험을 수행했습니다. 우리는 세 가지 다른 NLP 작업에 대해 실험을 수행했습니다

더 적은 훈련 데이터

단계적 증류 방법은 성능 면에서 표준 미세 조정보다 성능이 뛰어나고 더 적은 훈련 데이터가 필요합니다

in e-SNLI 데이터 세트에서 더 나은 성능 표준 미세 조정은 전체 데이터 세트의 12.5%를 사용하여 달성되며 ANLI, CQA 및 SVAMP에는 각각 훈련 데이터의 75%, 25% 및 20%만 필요합니다.

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

220M T5 모델을 사용하여 사람이 라벨을 붙인 다양한 크기의 데이터 세트에 대한 표준 미세 조정과 비교했을 때, 분포 증류는 모든 데이터 세트에서 더 적은 수의 훈련 예제를 사용할 때 전체 데이터 세트에 대한 표준 미세 조정보다 성능이 뛰어납니다.

더 작은 배포 모델 크기

소표본 CoT로 유도된 LLM과 비교하여 분포 증류로 얻은 모델 크기는 훨씬 작지만 성능은 더 좋습니다.

e-SNLI 데이터 세트에서 220M T5 모델을 사용하면 ANLI에서 540B PaLM보다 더 나은 성능을 얻을 수 있으며, 770M T5 모델을 사용하면 540B PaLM보다 더 나은 성능을 얻을 수 있으며 모델 크기는 1/700

더 작은 모델, 더 적은 데이터

모델 크기와 학습 데이터를 줄이면서 퓨샷 PaLM 이상의 성능을 성공적으로 달성했습니다.

ANLI에서는 770M을 사용하여 전체 데이터 세트의 80%만 사용하면서도 T5 모델은 540B PaLM보다 성능이 뛰어납니다.

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

전체 100% 데이터 세트에서도 표준 미세 조정은 PaLM의 성능 수준에 도달할 수 없는 것으로 관찰되었습니다. 이는 단계적 증류를 통해 모델 크기와 훈련 데이터 양을 동시에 줄여 LLM 이상의 성능을 달성할 수 있음을 보여줍니다.

위 내용은 7억 7천만 개의 매개변수, 5,400억 개의 PaLM을 초과합니다! UW Google, ACL 2023 학습 데이터의 80%만 필요한 '단계별 증류' 제안 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Chatgpt에서 대화 기록 (대화 로그)을 저장하는 방법에 대한 이해하기 쉬운 설명!May 16, 2025 am 05:41 AM

Chatgpt 대화 레코드를 효율적으로 저장하는 다양한 방법 chatgpt 생성 대화 기록을 저장하는 것에 대해 생각한 적이 있습니까? 이 기사는 공식 기능, 크롬 확장 및 스크린 샷 등을 포함하여 다양한 저장 방법을 소개하여 ChatGpt 대화 레코드를 최대한 활용할 수 있도록합니다. 다양한 방법의 특성과 단계를 이해하고 가장 적합한 방법을 선택하십시오. [OpenAI에서 출시 된 최신 AI 프록시 "OpenAi 운영자"소개] (OpenAI 운영자에 대한 링크는 여기에 삽입해야합니다) 목차 chatgpt 내보내기를 사용하여 대화 기록을 저장합니다 공식 수출 기능을 사용하는 단계 크롬 확장을 사용하여 chatgpt 로그를 저장하십시오 chatgp

chatgpt로 일정을 만듭니다! 테이블을 만들고 조정하는 데 사용할 수있는 프롬프트 설명May 16, 2025 am 05:40 AM

현대 사회는 소모적 인 속도를 가지고 있으며 효율적인 일정 관리가 중요합니다. 일, 삶, 연구 및 기타 작업은 얽혀 있으며 우선 순위와 일정은 종종 두통입니다. 따라서 AI 기술을 사용하는 지능형 일정 관리 방법은 많은 관심을 끌었습니다. 특히 Chatgpt의 강력한 자연어 처리 기능은 지루한 일정 및 작업 관리를 자동화하여 생산성을 크게 향상시킬 수 있습니다. 이 기사는 일정 관리에 Chatgpt를 사용하는 방법을 심도있게 설명합니다. 우리는 AI가 일상 생활과 업무 효율성을 향상시킬 수있는 방법을 보여주기 위해 특정 사례와 단계를 결합합니다. 또한 Chatgpt를 사용할 때이 기술을 안전하고 효과적으로 사용 할 때 주목할 사항을 논의 할 것입니다. 지금 채팅을 경험하고 일정을 얻으십시오

스프레드 시트와 Chatgpt를 연결하는 방법! 당신이 할 수있는 일에 대한 철저한 설명May 16, 2025 am 05:39 AM

비즈니스 효율성을 향상시키기 위해 Google 시트와 Chatgpt를 연결하는 방법을 설명 할 것입니다. 이 기사에서는 초보자가 쉽게 사용할 수있는 애드온 "시트 및 문서 용 GPT"를 사용하는 방법에 대해 자세히 설명합니다. 프로그래밍 지식이 필요하지 않습니다. ChatGpt 및 스프레드 시트 통합을 통해 비즈니스 효율성을 향상시킵니다 이 기사는 추가 기능을 사용하여 Chatgpt를 스프레드 시트와 연결하는 방법에 중점을 둡니다. 추가 기능을 사용하면 Chatgpt 기능을 스프레드 시트에 쉽게 통합 할 수 있습니다. Shee를위한 GPT

2025 년 AI에 대한 6 개의 투자자 예측May 16, 2025 am 05:37 AM

AI 혁명의 향후 몇 년 동안 예측할 때 전문가들이 강조하는 트렌드와 패턴이 있습니다. 예를 들어, 데이터에 대한 상당한 수요가 있으며 나중에 논의 할 것입니다. 또한 에너지의 필요성은 d입니다

chatgpt를 사용하여 글을 쓰십시오! 팁과 프롬프트의 예에 대한 철저한 설명!May 16, 2025 am 05:36 AM

Chatgpt는 텍스트 생성 도구 일뿐 아니라 작가의 창의성을 극적으로 증가시키는 진정한 파트너입니다. 초기 원고 생성, 아이디어 아이디어 및 문체 변화와 같은 전체 작문 과정에 Chatgpt를 사용하면 시간을 절약하고 품질을 향상시킬 수 있습니다. 이 기사는 각 단계에서 ChatGpt를 사용하는 특정 방법과 생산성과 창의성을 극대화하기위한 팁을 자세히 설명합니다. 또한 Chatgpt와 문법 점검 도구 및 SEO 최적화 도구를 결합한 Synergy를 조사합니다. AI와의 협력을 통해 작가는 무료 아이디어로 독창성을 만들 수 있습니다.

chatgpt에서 그래프를 만드는 방법! 플러그인이 필요하지 않으므로 Excel에도 사용할 수 있습니다!May 16, 2025 am 05:35 AM

chatgpt를 사용한 데이터 시각화 : 그래프 생성에서 데이터 분석에 이르기까지 복잡한 정보를 이해하기 쉬운 방식으로 전달하는 데이터 시각화는 현대 사회에서 필수적입니다. 최근 몇 년 동안 AI 기술의 발전으로 인해 Chatgpt를 사용한 그래프 작성이 주목을 끌었습니다. 이 기사에서는 초보자에게도 이해하기 쉬운 방식으로 Chatgpt를 사용하여 그래프를 만드는 방법을 설명합니다. 무료 버전과 유료 버전 (Chatgpt Plus), 특정 제작 단계 및 실제 예제와 함께 일본 레이블을 표시하는 방법의 차이점을 소개합니다. chatgpt를 사용하여 그래프 생성 : 기본에서 고급 사용까지 채팅

현대 LLM의 한계를 저녁 식사 접시로 밀어 넣으십니까?May 16, 2025 am 05:34 AM

일반적으로 우리는 AI가 크고 점점 커지고 있음을 알고 있습니다. 빠르고 점점 더 빨라지고 있습니다. 특히, 모든 사람이 업계에서 최신 하드웨어 및 소프트웨어 접근 방식에 익숙한 것은 아니며 더 나은 결과를 홍보하는 방법은 아닙니다. Peopl

chatgpt 대화 내용을 보관하십시오! 저장하기위한 단계와 복원 방법 설명May 16, 2025 am 05:33 AM

Chatgpt Dialogue Record Management Guide : 지식의 보물을 효율적으로 조직하고 최대한 활용하십시오! Chatgpt 대화 기록은 창의성과 지식의 원천이지만, 성장하는 기록을 어떻게 효과적으로 관리 할 수 있습니까? 중요한 정보를 찾는 것이 시간이 걸립니까? 괜찮아요! 이 기사는 Chatgpt 대화 기록을 효과적으로 "아카이브"(저장 및 관리)하는 방법을 자세히 설명합니다. 공식 아카이브 기능, 데이터 내보내기, 공유 링크 및 데이터 활용 및 고려 사항을 다룹니다. 목차 Chatgpt의 "아카이브"기능에 대한 자세한 설명 chatgpt 아카이브 기능을 사용하는 방법 ChatGpt 아카이브 레코드의 위치 및보기 방법을 저장하십시오 ChatGpt 아카이브 레코드의 메소드를 취소하고 삭제하십시오 아카이브를 취소하십시오 아카이브를 삭제하십시오 요약 ch

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.