Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!-일체 포함-php.cn

집

기술 주변기기

일체 포함

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 29, 2024 pm 10:01 PM

ai기차메모리 사용량

이것은 Microsoft와 중국 과학 아카데미 대학이 최근 연구에서 제시한 결론입니다.

모든 LLM은 1.58비트입니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

구체적으로 본 연구에서 제안한 방법은 BitNet b1.58이라고 하는데, 이는 대규모 언어 모델의 "루트" 매개변수에서 시작된다고 할 수 있습니다.

16비트 부동 소수점 숫자 형식의 기존 저장소 (예: FP16 또는 BF16) 가 삼항 , 즉 {-1, 0, 1}으로 변경되었습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

"1.58비트"는 각 매개변수가 1.58바이트의 저장 공간을 차지한다는 의미가 아니라, 각 매개변수가 1.58비트의 정보로 인코딩될 수 있다는 의미입니다.

이러한 변환 후 행렬의 계산에는 정수 추가만 포함됩니다. 따라서 대형 모델은 특정 정확도를 유지하면서 필요한 저장 공간과 컴퓨팅 리소스를 크게 줄일 수 있습니다.

예를 들어 BitNet b1.58은 모델 크기가 3B일 때 Llama와 비교하면 속도는 2.71배 증가한 반면 GPU 메모리 사용량은 원본의 거의 4분의 1에 불과합니다.

그리고 모델의 크기가 더 커지면(예: 70B)

속도 향상과 메모리 절약이 더욱 중요해집니다! 이 파괴적인 아이디어는 네티즌들에게 깊은 인상을 줬고, 이 논문은 신문에서도 높은 관심을 받았습니다. 오래된 농담:

1비트면 충분합니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

BitNet b1.58은 어떻게 구현됩니까? 계속해서 읽어보자.
모든 매개변수를 삼항으로 변환

이 연구는 실제로 이전에 발표된 논문을 기반으로 원래 팀이 수행한 최적화입니다. 즉, 원래 BitNet에 추가로 0 값이 추가됩니다. Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

전반적으로 BitNet b1.58은 여전히 BitNet 아키텍처

(변압기)

를 기반으로 하며 nn.Linear를 BitLinear로 대체합니다.

자세한 최적화를 위해 가장 먼저 언급한 "0을 더하는 것", 즉 Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다! Weight Quantization

(Weight Quantization)입니다.

BitNet b1.58 모델의 가중치는 삼항 값 {-1, 0, 1}으로 양자화됩니다. 이는 이진 시스템에서 각 가중치를 표현하기 위해 1.58비트를 사용하는 것과 같습니다. 이 정량화 방법은 모델의 메모리 공간을 줄이고 계산 프로세스를 단순화합니다.

둘째,

양자화 함수 설계

측면에서, 가중치를 -1, 0, +1로 제한하기 위해 연구자들은 절대 평균(absmean)이라는 양자화 함수를 사용했습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

이 함수는 먼저 가중치 행렬의 평균 절대값에 따라 크기를 조정한 다음 각 값을 가장 가까운 정수(-1, 0, +1)로 반올림합니다. 다음 단계는

활성화 양자화

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다! (활성화 양자화)

입니다.

활성화 값의 양자화는 BitNet의 구현과 동일하지만 활성화 값은 비선형 함수 이전의 [0, Qb] 범위로 스케일링되지 않습니다. 대신, 활성화는 영점 양자화를 제거하기 위해 [-Qb, Qb] 범위로 스케일링됩니다.

BitNet b1.58이 오픈 소스 커뮤니티와 호환되도록 하기 위해 연구팀은 RMSNorm, SwiGLU 등과 같은 LLaMA 모델의 구성 요소를 채택하여 주류 오픈 소스에 쉽게 통합될 수 있다는 점을 언급할 가치가 있습니다. 소스 소프트웨어.

마지막으로 실험적 성능 비교 측면에서 팀은 다양한 크기의 모델에서 BitNet b1.58과 FP16 LLaMA LLM을 비교했습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

결과에 따르면 BitNet b1.58은 3B 모델 크기의 완전 정밀도 LLaMA LLM과 일치하기 시작하면서 대기 시간, 메모리 사용량 및 처리량이 크게 향상되었습니다.

그리고 모델 크기가 커지면 이러한 성능 향상이 더욱 중요해집니다.

네티즌: 소비자급 GPU에서 1200억 개의 대형 모델을 실행할 수 있습니다

위에서 언급했듯이 이 연구의 독특한 방법은 인터넷에서 많은 열띤 토론을 불러일으켰습니다.

DeepLearning.scala 작성자 Yang Bo는 다음과 같이 말했습니다.

원래 BitNet과 비교할 때 BitNet b1.58의 가장 큰 특징은 0개의 매개변수를 허용한다는 것입니다. 양자화 함수를 조금만 수정하면 0개의 매개변수 비율을 조절할 수 있지 않을까 생각합니다. 0개 매개변수의 비율이 크면 가중치를 희소 형식으로 저장할 수 있으므로 각 매개변수가 차지하는 평균 비디오 메모리는 1비트보다 훨씬 작습니다. 이는 중량 수준 MoE와 동일합니다. 일반 MoE보다 더 우아한 것 같아요.

동시에 그는 BitNet의 단점도 제기했습니다.

BitNet의 가장 큰 단점은 추론 중에 메모리 오버헤드를 줄일 수 있지만 최적화 상태와 그래디언트가 여전히 부동 소수점 수를 사용하고 훈련이 여전히 매우 어렵다는 것입니다. 메모리 소모적입니다. BitNet이 훈련 중에 비디오 메모리를 절약하는 기술과 결합할 수 있다면 기존의 반정밀도 네트워크에 비해 동일한 컴퓨팅 성능과 비디오 메모리로 더 많은 매개변수를 지원할 수 있어 큰 장점이 될 것이라고 생각합니다.

최적화 상태의 그래픽 메모리 오버헤드를 절약하는 현재 방법은 오프로드입니다. 그래디언트의 메모리 사용량을 절약하는 방법은 ReLoRA일 수 있습니다. 그러나 ReLoRA 논문 실험에서는 10억 개의 매개변수를 갖는 모델만 사용했을 뿐, 수백억, 수천억 개의 매개변수를 갖는 모델로 일반화할 수 있다는 증거는 없다.

Δ이미지 출처: Zhihu, 허가를 받아 인용

그러나 일부 네티즌들은 다음과 같이 분석했습니다.

논문이 성립되면 24GB 소비자급 GPU에서 120B 대형 모델을 실행할 수 있습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

이 새로운 방법에 대해 어떻게 생각하시나요?

위 내용은 Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Apr 27, 2025 am 09:20 AM

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

드림위버 CS6

시각적 웹 개발 도구

WebStorm Mac 버전

유용한 JavaScript 개발 도구

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는