Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 '알파카 털깎기' 열풍을 일으켰습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 '알파카 털깎기' 열풍을 일으켰습니다.

王林

Oct 12, 2023 pm 02:29 PM

ai기차

SOTA를 얻기 위해 3%의 계산량과 5%의 비용만 사용하여 1B-3B 규모의 오픈소스 대형 모델을 장악하고 있습니다.

이 결과는 프린스턴 팀의 Chen Danqi에서 나온 것이며 LLM-Shearing대형 모델 가지치기 방법이라고 합니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

Alpaca LLaMA 2 7B를 기반으로 1.3B 및 3B 가지치기 Sheared-LLama 모델은 방향 구조 가지치기를 통해 얻어집니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

다운스트림 작업 평가에서 동일한 규모의 이전 모델을 능가하려면 다시 작성해야 합니다

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

제1저자인 Xia Mengzhou는 "사전 훈련보다 훨씬 비용 효율적입니다. 기스로부터."

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

또한 이 논문에서는 정리된 Sheared-LLaMA 출력의 예를 제공하여 1.3B와 2.7B의 크기에도 불구하고 이미 일관되고 풍부한 응답을 생성할 수 있음을 보여줍니다.

"반도체 산업 분석가의 역할 수행"이라는 동일한 작업에 대해 버전 2.7B의 답변 구조가 더욱 명확해졌습니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

팀에서는 현재 Llama 2 7B 버전만 가지치기 실험에 사용되었지만 방법 을 다른 모델 아키텍처 로 확장할 수 있으며 모든 규모로 확장

할 수도 있다고 밝혔습니다.

가지치기 후의 추가 이점은 지속적인 사전 학습을 위해 고품질 데이터 세트를 선택할 수 있다는 것입니다. Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

일부 개발자는 불과 6개월 전만 해도 거의 모든 사람들이 65B 미만의 모델에는 실용적인 용도가 없다고 생각했다고 말했습니다.

이대로라면 1B-3B 모델도 지금은 아니더라도 조만간 큰 가치를 지니게 될 것이라고 확신합니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

가지치기를 제한된 최적화로 처리LLM-전단, 특히 대규모 모델을 지정된 대상 구조로 가지치기하는 일종의 방향 구조 가지치기

입니다.

기존 가지치기 방법은 일부 구조가 삭제되어 표현력에 영향을 미치기 때문에 모델 성능 저하를 일으킬 수 있습니다.

가지치기를 제한된 최적화 문제로 취급하여 새로운 방법을 제안합니다. 가지치기 마스크 행렬을 학습하여 지정된 구조와 일치하는 하위 네트워크를 검색하고 성능 극대화를 목표로 합니다 Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

다음으로 가지치기 모델을 계속해서 사전 훈련하고 성능 손실이 발생한 정도까지 가지치기를 복원합니다.

이 단계에서 팀은 가지치기된 모델과 처음부터 훈련된 모델이 데이터 세트마다 손실 감소율이 다르기 때문에 데이터 사용 효율성이 낮은 문제가 있음을 발견했습니다. 이를 위해 팀은 다양한 도메인 데이터에 대한 모델의 손실 감소율에 따라 각 도메인의 데이터 비율을 동적으로 조정하여 데이터 사용 효율성을 향상시키는 Dynamic Batch Loading

(Dynamic Batch Loading)

을 제안했습니다. Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

연구에 따르면 가지치기 모델은 처음부터 훈련한 동일한 크기의 모델에 비해 초기 성능이 낮지만 지속적인 사전 훈련을 통해 빠르게 개선되어 결국 능가할 수 있습니다.

🎜이는 강력한 기본 모델 분기에서 가지치기가 가능함을 보여줍니다. 이는 지속적인 사전 훈련을 위한 더 나은 초기화 조건을 제공할 수 있습니다. 🎜종이의 저자는 계속해서 업데이트하고 와서 자르고 자르고, 프린스턴 박사 과정 학생들입니다. 조교수

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다. Chen Dan琦

.

Xia Mengzhou는 푸단대학교에서 학사 학위를, CMU에서 석사 학위를 받았습니다. Gao Tianyu는 Tsinghua University를 졸업한 학부생입니다. 그는 2019년 Tsinghua Special Prize를 수상했습니다.둘 다 Chen Danqi의 학생이고 Chen Danqi는 현재 Princeton University의 조교수이자 Princeton Natural 회원입니다. 언어 처리 그룹 공동 리더 Chen Danqi는 최근 개인 홈페이지에 연구 방향을 업데이트했습니다. "이 기간은 주로 대규모 모델 개발에 중점을 두고 있으며 연구 주제는 다음과 같습니다. "진위성, 적응성, 해석 가능성 및 신뢰성을 향상시키기 위해 검색이 차세대 모델에서 어떻게 중요한 역할을 할 수 있는지. 대규모 모델의 저렴한 교육 및 배포, 향상된 교육 방법, 데이터 관리, 모델 압축 및 다운스트림 작업 적응 최적화. 현재 대형 모델의 기능과 한계에 대한 이해를 경험적으로나 이론적으로 향상시키는 작업에도 관심이 있습니다.

Sheared-Llama는 이미 Hugging Face에서 만나보실 수 있습니다

오픈소스 라이브러리를 계속 업데이트할 예정이라고 하더군요

한 가지 더

지금 큰 모델들은 정말 너무 곱슬이라고 말씀드리고 싶습니다.

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다. Mengzhou Xia는 방금 논문을 작성할 때 SOTA 기술이 사용되었다고 정정을 발표했지만 논문이 완성된 후 최신 Stable-LM-3B 기술을 능가했습니다

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

논문 주소: https: / /arxiv.org/abs/2310.06694

껴안는 얼굴: https://huggingface.co/princeton-nlp

Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 알파카 털깎기 열풍을 일으켰습니다.

프로젝트 홈페이지 링크: https://xiamengzhou.github.io/seared-llama/

위 내용은 Chen Danqi 팀의 혁신적인 작업: 5% 비용으로 SOTA를 획득하여 '알파카 털깎기' 열풍을 일으켰습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

LLM에서 도구 호출Apr 14, 2025 am 11:28 AM

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 있습니다.

ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법Apr 14, 2025 am 11:27 AM

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

AI에 대한 UN 입력 : 우승자, 패자 및 기회Apr 14, 2025 am 11:25 AM

UNCTAD의 사무 총장 인 Rebeca Grynspan은“역사는 기술 진보가 경제 성장을 유발하거나 공평한 소득 분배를 보장하거나 포용적인 인간 발전을 촉진하지는 않습니다.

생성 AI를 통한 협상 기술 학습Apr 14, 2025 am 11:23 AM

쉽게 생성 AI를 협상 교사 및 스파링 파트너로 사용하십시오. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 AI의 최신 Forbes 열 범위의 일부입니다.

Ted는 Openai, Google, 메타가 법정으로 공개됩니다.Apr 14, 2025 am 11:22 AM

밴쿠버에서 개최 된 TED2025 컨퍼런스는 어제 4 월 11 일 36 번째 판을 마무리했습니다. Sam Altman, Eric Schmidt 및 Palmer Luckey를 포함한 60 개 이상의 국가에서 80 명의 스피커를 선보였습니다. 테드의 주제 인“인류를 다시 상상했다”는 재단사가 만들어졌다

Joseph Stiglitz는 AI 독점권 속에서 임시 불평등을 경고합니다.Apr 14, 2025 am 11:21 AM

Joseph Stiglitz는 2001 년에 유명한 경제학자이자 노벨 경제학상을 수상했습니다. Stiglitz는 AI가 기존의 불평등과 통합 된 권력을 몇몇 지배적 인 기업의 손에 악화시킬 수 있으며 궁극적으로 경제를 훼손 할 수 있다고 주장합니다.

그래프 데이터베이스 란 무엇입니까?Apr 14, 2025 am 11:19 AM

그래프 데이터베이스 : 관계를 통한 데이터 관리 혁명 데이터가 확장되고 그 특성이 다양한 필드에서 발전함에 따라 그래프 데이터베이스는 상호 연결된 데이터를 관리하기위한 변환 솔루션으로 떠오르고 있습니다. 전통적인 것과는 달리

LLM 라우팅 : 전략, 기술 및 파이썬 구현Apr 14, 2025 am 11:14 AM

대형 언어 모델 (LLM) 라우팅 : 지능형 작업 분포를 통한 성능 최적화 LLM의 빠르게 진화하는 환경은 각각 독특한 강점과 약점을 가진 다양한 모델을 제시합니다. 일부는 Creative Content Gen에서 탁월합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.