찾다
기술 주변기기일체 포함Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

이것은 Microsoft와 중국 과학 아카데미 대학이 최근 연구에서 제시한 결론입니다.

모든 LLM은 1.58비트입니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

구체적으로 본 연구에서 제안한 방법은 BitNet b1.58이라고 하는데, 이는 대규모 언어 모델의 "루트" 매개변수에서 시작된다고 할 수 있습니다.

16비트 부동 소수점 숫자 형식의 기존 저장소 (예: FP16 또는 BF16) 삼항 , 즉 {-1, 0, 1}으로 변경되었습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

"1.58비트"는 각 매개변수가 1.58바이트의 저장 공간을 차지한다는 의미가 아니라, 각 매개변수가 1.58비트의 정보로 인코딩될 수 있다는 의미입니다.

이러한 변환 후 행렬의 계산에는 정수 추가만 포함됩니다. 따라서 대형 모델은 특정 정확도를 유지하면서 필요한 저장 공간과 컴퓨팅 리소스를 크게 줄일 수 있습니다.

예를 들어 BitNet b1.58은 모델 크기가 3B일 때 Llama와 비교하면 속도는 2.71배 증가한 반면 GPU 메모리 사용량은 원본의 거의 4분의 1에 불과합니다.

그리고 모델의 크기가 더 커지면(예: 70B)

속도 향상과 메모리 절약이 더욱 중요해집니다! 이 파괴적인 아이디어는 네티즌들에게 깊은 인상을 줬고, 이 논문은 신문에서도 높은 관심을 받았습니다. 오래된 농담:

1비트면 충분합니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

BitNet b1.58은 어떻게 구현됩니까? 계속해서 읽어보자.

모든 매개변수를 삼항으로 변환

이 연구는 실제로 이전에 발표된 논문을 기반으로 원래 팀이 수행한 최적화입니다. 즉, 원래 BitNet에 추가로 0 값이 추가됩니다. Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

전반적으로 BitNet b1.58은 여전히 ​​BitNet 아키텍처

(변압기)

를 기반으로 하며 nn.Linear를 BitLinear로 대체합니다.

자세한 최적화를 위해 가장 먼저 언급한 "0을 더하는 것", 즉 Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!Weight Quantization

(Weight Quantization)입니다.

BitNet b1.58 모델의 가중치는 삼항 값 ​​{-1, 0, 1}으로 양자화됩니다. 이는 이진 시스템에서 각 가중치를 표현하기 위해 1.58비트를 사용하는 것과 같습니다. 이 정량화 방법은 모델의 메모리 공간을 줄이고 계산 프로세스를 단순화합니다.

둘째,

양자화 함수 설계

측면에서, 가중치를 -1, 0, +1로 제한하기 위해 연구자들은 절대 평균(absmean)이라는 양자화 함수를 사용했습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

이 함수는 먼저 가중치 행렬의 평균 절대값에 따라 크기를 조정한 다음 각 값을 가장 가까운 정수(-1, 0, +1)로 반올림합니다. 다음 단계는

활성화 양자화

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!(활성화 양자화)

입니다.

활성화 값의 양자화는 BitNet의 구현과 동일하지만 활성화 값은 비선형 함수 이전의 [0, Qb] 범위로 스케일링되지 않습니다. 대신, 활성화는 영점 양자화를 제거하기 위해 [-Qb, Qb] 범위로 스케일링됩니다.

BitNet b1.58이 오픈 소스 커뮤니티와 호환되도록 하기 위해 연구팀은 RMSNorm, SwiGLU 등과 같은 LLaMA 모델의 구성 요소를 채택하여 주류 오픈 소스에 쉽게 통합될 수 있다는 점을 언급할 가치가 있습니다. 소스 소프트웨어.

마지막으로 실험적 성능 비교 측면에서 팀은 다양한 크기의 모델에서 BitNet b1.58과 FP16 LLaMA LLM을 비교했습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

결과에 따르면 BitNet b1.58은 3B 모델 크기의 완전 정밀도 LLaMA LLM과 일치하기 시작하면서 대기 시간, 메모리 사용량 및 처리량이 크게 향상되었습니다.

그리고 모델 크기가 커지면 이러한 성능 향상이 더욱 중요해집니다.

네티즌: 소비자급 GPU에서 1200억 개의 대형 모델을 실행할 수 있습니다

위에서 언급했듯이 이 연구의 독특한 방법은 인터넷에서 많은 열띤 토론을 불러일으켰습니다.

DeepLearning.scala 작성자 Yang Bo는 다음과 같이 말했습니다.

원래 BitNet과 비교할 때 BitNet b1.58의 가장 큰 특징은 0개의 매개변수를 허용한다는 것입니다. 양자화 함수를 조금만 수정하면 0개의 매개변수 비율을 조절할 수 있지 않을까 생각합니다. 0개 매개변수의 비율이 크면 가중치를 희소 형식으로 저장할 수 있으므로 각 매개변수가 차지하는 평균 비디오 메모리는 1비트보다 훨씬 작습니다. 이는 중량 수준 MoE와 동일합니다. 일반 MoE보다 더 우아한 것 같아요.

동시에 그는 BitNet의 단점도 제기했습니다.

BitNet의 가장 큰 단점은 추론 중에 메모리 오버헤드를 줄일 수 있지만 최적화 상태와 그래디언트가 여전히 부동 소수점 수를 사용하고 훈련이 여전히 매우 어렵다는 것입니다. 메모리 소모적입니다. BitNet이 훈련 중에 비디오 메모리를 절약하는 기술과 결합할 수 있다면 기존의 반정밀도 네트워크에 비해 동일한 컴퓨팅 성능과 비디오 메모리로 더 많은 매개변수를 지원할 수 있어 큰 장점이 될 것이라고 생각합니다.

최적화 상태의 그래픽 메모리 오버헤드를 절약하는 현재 방법은 오프로드입니다. 그래디언트의 메모리 사용량을 절약하는 방법은 ReLoRA일 수 있습니다. 그러나 ReLoRA 논문 실험에서는 10억 개의 매개변수를 갖는 모델만 사용했을 뿐, 수백억, 수천억 개의 매개변수를 갖는 모델로 일반화할 수 있다는 증거는 없다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

Δ이미지 출처: Zhihu, 허가를 받아 인용

그러나 일부 네티즌들은 다음과 같이 분석했습니다.

논문이 성립되면 24GB 소비자급 GPU에서 120B 대형 모델을 실행할 수 있습니다.

Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!
Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!

이 새로운 방법에 대해 어떻게 생각하시나요?

위 내용은 Microsoft의 6페이지짜리 논문이 폭발합니다: 삼항 LLM, 정말 맛있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 ​​할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유Apr 12, 2025 am 11:41 AM

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.