>기술 주변기기 >일체 포함 >Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 '알파카 털깎기' 열풍을 일으켰습니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 '알파카 털깎기' 열풍을 일으켰습니다.

王林
王林앞으로
2023-10-12 14:29:04762검색

SOTA를 얻기 위해 3%의 계산량5%의 비용만 사용하여 1B-3B 규모의 오픈소스 대형 모델을 장악하고 있습니다.

이 결과는 프린스턴 팀의 Chen Danqi에서 나온 것이며 LLM-Shearing대형 모델 가지치기 방법이라고 합니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

Alpaca LLaMA 2 7B를 기반으로 1.3B 및 3B 가지치기 Sheared-LLama 모델은 방향 구조 가지치기를 통해 얻어집니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

다운스트림 작업 평가에서 동일한 규모의 이전 모델을 능가하려면 다시 작성해야 합니다

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

제1저자인 Xia Mengzhou는 "사전 훈련보다 훨씬 비용 효율적입니다. 기스로부터."

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

또한 이 논문에서는 정리된 Sheared-LLaMA 출력의 예를 제공하여 1.3B와 2.7B의 크기에도 불구하고 이미 일관되고 풍부한 응답을 생성할 수 있음을 보여줍니다.

"반도체 산업 분석가의 역할 수행"이라는 동일한 작업에 대해 버전 2.7B의 답변 구조가 더욱 명확해졌습니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

팀에서는 현재 Llama 2 7B 버전만 가지치기 실험에 사용되었지만 방법 을 다른 모델 아키텍처 로 확장할 수 있으며 모든 규모로 확장

할 수도 있다고 밝혔습니다.

가지치기 후의 추가 이점은 지속적인 사전 학습을 위해 고품질 데이터 세트를 선택할 수 있다는 것입니다.Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

일부 개발자는 불과 6개월 전만 해도 거의 모든 사람들이 65B 미만의 모델에는 실용적인 용도가 없다고 생각했다고 말했습니다.

이대로라면 1B-3B 모델도 지금은 아니더라도 조만간 큰 가치를 지니게 될 것이라고 확신합니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

가지치기를 제한된 최적화로 처리LLM-전단, 특히 대규모 모델을 지정된 대상 구조로 가지치기하는 일종의 방향 구조 가지치기

입니다.

기존 가지치기 방법은 일부 구조가 삭제되어 표현력에 영향을 미치기 때문에 모델 성능 저하를 일으킬 수 있습니다.

가지치기를 제한된 최적화 문제로 취급하여 새로운 방법을 제안합니다. 가지치기 마스크 행렬을 학습하여 지정된 구조와 일치하는 하위 네트워크를 검색하고 성능 극대화를 목표로 합니다Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

다음으로 가지치기 모델을 계속해서 사전 훈련하고 성능 손실이 발생한 정도까지 가지치기를 복원합니다.

이 단계에서 팀은 가지치기된 모델과 처음부터 훈련된 모델이 데이터 세트마다 손실 감소율이 다르기 때문에 데이터 사용 효율성이 낮은 문제가 있음을 발견했습니다. 이를 위해 팀은 다양한 도메인 데이터에 대한 모델의 손실 감소율에 따라 각 도메인의 데이터 비율을 동적으로 조정하여 데이터 사용 효율성을 향상시키는 Dynamic Batch Loading

(Dynamic Batch Loading)

을 제안했습니다. Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

연구에 따르면 가지치기 모델은 처음부터 훈련한 동일한 크기의 모델에 비해 초기 성능이 낮지만 지속적인 사전 훈련을 통해 빠르게 개선되어 결국 능가할 수 있습니다.

🎜이는 강력한 기본 모델 분기에서 가지치기가 가능함을 보여줍니다. 이는 지속적인 사전 훈련을 위한 더 나은 초기화 조건을 제공할 수 있습니다. 🎜종이의 저자는 계속해서 업데이트하고 와서 자르고 자르고, 프린스턴 박사 과정 학생들입니다. 조교수

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.Chen Dan琦

.

Xia Mengzhou는 푸단대학교에서 학사 학위를, CMU에서 석사 학위를 받았습니다. Gao Tianyu는 Tsinghua University를 졸업한 학부생입니다. 그는 2019년 Tsinghua Special Prize를 수상했습니다.둘 다 Chen Danqi의 학생이고 Chen Danqi는 현재 Princeton University의 조교수이자 Princeton Natural 회원입니다. 언어 처리 그룹 공동 리더 Chen Danqi는 최근 개인 홈페이지에 연구 방향을 업데이트했습니다. "이 기간은 주로 대규모 모델 개발에 중점을 두고 있으며 연구 주제는 다음과 같습니다. "진위성, 적응성, 해석 가능성 및 신뢰성을 향상시키기 위해 검색이 차세대 모델에서 어떻게 중요한 역할을 할 수 있는지. 대규모 모델의 저렴한 교육 및 배포, 향상된 교육 방법, 데이터 관리, 모델 압축 및 다운스트림 작업 적응 최적화. 현재 대형 모델의 기능과 한계에 대한 이해를 경험적으로나 이론적으로 향상시키는 작업에도 관심이 있습니다.

Sheared-Llama는 이미 Hugging Face에서 만나보실 수 있습니다

오픈소스 라이브러리를 계속 업데이트할 예정이라고 하더군요

    더 큰 모델이 나오면 하나씩 잘라서 계속해서 고성능 소형 모델 출시 .
  • 한 가지 더
지금 큰 모델들은 정말 너무 곱슬이라고 말씀드리고 싶습니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.Mengzhou Xia는 방금 논문을 작성할 때 SOTA 기술이 사용되었다고 정정을 발표했지만 논문이 완성된 후 최신 Stable-LM-3B 기술을 능가했습니다

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

논문 주소: https: / /arxiv.org/abs/2310.06694

껴안는 얼굴: https://huggingface.co/princeton-nlp

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

프로젝트 홈페이지 링크: https://xiamengzhou.github.io/seared-llama/

위 내용은 Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 '알파카 털깎기' 열풍을 일으켰습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제