>  기사  >  기술 주변기기  >  ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

WBOY
WBOY앞으로
2023-04-13 10:31:021074검색

2년 전 멜리우스넷이 나왔을 때, Heart of the Machine은 기술 기사를 게재했습니다. "처음으로 MobileNet을 능가하는 이진 신경망, -1과 + 1의 3년간의 험난한 여정​》에서는 BNN의 개발 역사를 검토했습니다. 당시 초기 BNN 작업인 XNOR-Net을 기반으로 설립된 XNOR.AI는 Apple에 인수되었습니다. 이 저전력, 고성능 바이너리 신경망 기술이 곧 광범위한 응용 가능성을 열어줄 것이라고 모두가 상상했습니다.

그러나 지난 2년간 기술 기밀을 엄격히 지키는 애플로부터 BNN 기술 적용에 대해 더 많은 정보를 얻기 어려웠고, 그 외 특별히 눈길을 끄는 적용 사례도 없었습니다. 학계든 산업계든. 한편, 단말 수가 급증하면서 엣지 AI 애플리케이션과 시장도 빠르게 성장하고 있다. 2030년까지 엣지 디바이스가 5000억~1250억 개 생산될 것으로 예상되고, 엣지 컴퓨팅 시장은 600억 달러 규모로 급등할 것으로 예상된다. 현재 널리 사용되는 응용 분야로는 AIoT, Metaverse 및 로봇 단말 장비 등이 있습니다. 관련 산업에서는 기술 구현을 가속화하고 있으며, 3차원 재구성, 비디오 압축, 실시간 분야에서의 AI 기술의 광범위한 적용 등 위 분야의 많은 핵심 기술 링크에 AI 기능이 내장되어 있습니다. 장면에 대한 로봇 인식. 이러한 배경에서 엣지 기반의 고에너지 효율, 저전력 AI 기술, 소프트웨어 툴, 하드웨어 가속에 대한 업계의 요구가 점점 더 시급해지고 있습니다.

현재 BNN 적용을 제한하는 두 가지 주요 병목 현상이 있습니다. 첫째, 기존 32비트 딥 러닝 모델과의 정확도 격차를 효과적으로 좁힐 수 없다는 점, 둘째, 다양한 하드웨어에서 고성능 알고리즘 구현이 부족하다는 점입니다. . 기계 학습 문서의 속도 향상은 사용 중인 GPU 또는 CPU로 해석되지 않는 경우가 많습니다. 두 번째 이유는 첫 번째 이유에서 발생할 수 있습니다. BNN은 만족스러운 정확도를 달성할 수 없으므로 시스템 및 하드웨어 가속 및 최적화 분야의 실무자로부터 광범위한 관심을 끌 수 없습니다. 기계 학습 알고리즘 커뮤니티는 자체적으로 고성능 하드웨어 코드를 개발할 수 없는 경우가 많습니다. 따라서 높은 정확성과 강력한 가속을 모두 달성하려면 BNN 애플리케이션이나 가속기는 의심할 여지 없이 이 두 가지 분야의 개발자의 협력이 필요합니다.

BNN이 계산상 및 메모리 효율적인 이유

예를 들어 Meta 추천 시스템 모델 DLRM은 32비트 부동 소수점 수를 사용하여 가중치와 활성화 매개변수를 저장하며 모델 크기는 약 2.2GB입니다. 정확도가 약간 감소한(

BNN의 두 번째 중요한 장점은 계산 방법이 매우 효율적이라는 것입니다. 변수를 나타내기 위해 1비트, 즉 두 가지 상태만 사용합니다. 이는 모든 연산이 비트 연산으로만 완료될 수 있음을 의미하며 AND 게이트, XOR 게이트 및 기타 연산을 사용하여 기존의 곱셈 및 덧셈 연산을 대체할 수 있습니다. 비트 연산은 회로의 기본 단위입니다. 회로 설계에 익숙한 학생은 곱셈 및 덧셈 계산 단위의 면적을 효과적으로 줄이고 오프칩 메모리 액세스를 줄이는 것이 전력 소비를 줄이는 가장 효과적인 방법이라는 것을 이해해야 합니다. BNN은 메모리와 계산 모두에 중점을 두고 있으며 모두 고유한 장점을 가지고 있습니다. WRPN[1]은 맞춤형 FPGA 및 ASIC에서 BNN이 전체 정밀도에 비해 1000배의 전력 절감을 달성할 수 있음을 보여줍니다. 최근 연구인 BoolNet[2]에서는 부동 소수점 연산을 거의 사용하지 않고 순수한 이진 정보 흐름을 유지할 수 있는 BNN 구조 설계를 시연했습니다. 이는 ASIC 시뮬레이션에서 뛰어난 전력 소비와 정확도 균형을 달성합니다.

80% 정확도를 가진 첫 번째 BNN은 어떤 모습일까요?

독일 Hasso Plattner 컴퓨터 시스템 공학 연구소의 Nianhui Guo 및 Haojin Yang과 같은 연구원들은 BNext 모델을 제안하여 ImageNet 데이터세트에서 80% 이상의 top1 분류 정확도를 달성한 최초의 BNN이 되었습니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

그림 1 ImageNet 기반 SOTA BNN 성능 비교

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

논문 주소: https://arxiv.org/pdf/2211.12933.pdf

저자는 먼저 현재 주류 BNN 모델과 32-BNN 모델의 최적화 친화성을 심층적으로 비교했습니다. 손실 환경 시각화를 기반으로 한 비트 모델(그림 2)은 BNN의 대략적인 손실 환경이 현재 연구 커뮤니티가 BNN의 성능 경계를 더 자세히 탐색하는 것을 방해하는 주요 이유 중 하나임을 나타냅니다.

이러한 가정을 바탕으로 저자는 BNN 모델의 최적화 친화성을 높이기 위해 새로운 구조 설계를 시도했으며, 더 부드러운 손실을 갖는 이진 신경망 아키텍처를 구성하여 고정밀 BNN 모델 최적화의 어려움을 줄였습니다. 풍경. 특히 저자는 모델 이진화가 순방향 전파에 사용할 수 있는 특징 패턴을 크게 제한하여 이진 컨볼루션이 제한된 특징 공간에서만 정보를 추출하고 처리하도록 강제한다는 점을 강조합니다. 이 제한된 피드포워드 전파 모드로 인해 최적화가 어려워질 수 있습니다. 두 가지 수준의 구조 설계를 통해 효과적으로 완화됩니다. (1) 이진 표현에 대한 모델의 적응성을 향상시키기 위해 유연한 연속 컨볼루션 기능 교정 모듈을 구성합니다. (2) 피드포워드 전파에서 기능 이진화로 인해 발생하는 정보 병목 현상을 완화하기 위해 효율적인 우회 구조를 탐색합니다. .

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

그림 2 대중적인 BNN 아키텍처에 대한 Loss Landscape 시각화 비교(2D 윤곽선 관점)

위의 분석을 바탕으로 저자는 이를 최초로 달성한 BNext를 제안했습니다. ImageNe 이미지 분류 작업 > 80% 정확도의 이진 신경망 아키텍처 구체적인 네트워크 아키텍처 설계는 그림 4에 나와 있습니다. 저자는 먼저 Info-RCP(Info-Recoupling) 모듈을 기반으로 기본 이진 처리 장치를 설계했습니다. 인접 컨볼루션 간의 정보 병목 현상 문제를 해결하기 위해 추가 Batch Normalization 계층과 PReLU 계층을 도입하여 이진 컨볼루션 출력 분포의 예비 교정 설계가 완료되었습니다. 그런 다음 저자는 역 잔차 구조와 Squeeze-And-Expand 분기 구조를 기반으로 2차 동적 분포 교정 설계를 구성했습니다. 그림 3에서 볼 수 있듯이 기존 Real2Binary 교정 구조와 비교하여 추가 역 잔차 구조는 이진 단위 입력과 출력 사이의 기능 격차를 완전히 고려하여 전적으로 입력 정보를 기반으로 하는 최적이 아닌 분포 교정을 방지합니다. 이 2단계 동적 분포 교정은 후속 인접 이진 컨벌루션 레이어에서 특징 추출의 어려움을 효과적으로 줄일 수 있습니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

그림 3 Convolution 모듈 설계 비교 차트

두 번째로 저자는 ELM-Attention(Element-wise Attention)과 결합된 향상된 바이너리 기본 블록 모듈을 제안합니다. 저자는 여러 개의 Info-RCP 모듈을 쌓아 기본 블록의 기본 구성을 완성했으며, 각 Info-RCP 모듈에 대한 추가적인 Batch Normalization 및 지속적인 잔여 연결을 도입하여 서로 다른 Info-RCP 모듈 간의 정보 병목 현상 문제를 더욱 완화했습니다. 바이패스 구조가 이진 모델 최적화에 미치는 영향 분석을 기반으로 저자는 요소별 행렬 곱셈 분기를 사용하여 각 기본 블록의 첫 번째 3x3 Info-RCP 모듈의 출력에 대한 분포 교정을 수행할 것을 제안합니다. . 추가 공역 주의 가중치 메커니즘은 Basic Block이 보다 유연한 메커니즘으로 전방 정보 융합 및 배포를 수행하는 데 도움이 되어 손실 환경 모델의 부드러움을 향상시킬 수 있습니다. 그림 2.e와 그림 2.f에서 볼 수 있듯이 제안된 모듈 설계는 모델 손실 환경의 부드러움을 크게 향상시킬 수 있습니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

그림 4 BNext 아키텍처 설계. "프로세서"는 Info-RCP 모듈을 나타내고, "BN"은 배치 정규화 레이어를 나타내고, "C"는 모델의 기본 너비를 나타내고, "N"과 "M"은 모델의 여러 단계에 대한 깊이 척도 매개변수를 나타냅니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

표 1 BNext 계열. "Q"는 입력 레이어, SEbranch 및 출력 레이어 양자화 설정을 나타냅니다.

저자는 위의 구조 설계를 인기 있는 MoboleNetv1 벤치마크 모델과 결합하고 모델 깊이와 너비의 비례 계수를 변경하여 복잡도가 다른 4개의 BNext 모델 시리즈(표 1)를 구성했습니다: BNex-Tiny, BNext-Small, BNext - 중간,B다음-대형.

상대적으로 거친 손실 환경으로 인해 현재 이진 모델 최적화는 일반적으로 광범위한 차선의 수렴을 제거하기 위해 지식 증류와 같은 방법에서 제공되는 보다 정밀한 감독 정보에 의존합니다. BNext의 저자는 처음으로 최적화 과정에서 교사 모델과 이진 학생 모델 사이의 예측 분포에 큰 차이가 있을 때 발생할 수 있는 영향을 고려했으며, 모델 정확도에만 기반한 교사 선택은 반격으로 이어질 것이라고 지적했습니다. - 직관적인 학생의 과적합 결과. 이 문제를 해결하기 위해 저자는 교사 모델의 출력 소프트 라벨의 효율성과 교사 모델 매개변수의 복잡성 간의 상관 관계를 고려하여 새로운 교사 선택 지표로 지식 복잡성(KC)을 제안합니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

그림 5와 같이 지식 복잡도를 바탕으로 저자는 ResNet, EfficientNet, ConvNext 등 인기 있는 완전정밀 모델 시리즈의 복잡도를 측정하고 순위를 매겼으며 BNext-T를 학생 모델로 결합했습니다. 기준의 유효성을 초기에 검증하고 순위 결과를 기반으로 후속 실험에서 지식 증류 모델을 선택하는 데 사용됩니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

그림 5 다양한 교사 선택에 따른 반직관적 과적합 효과 및 지식 복잡성의 영향

이를 바탕으로 논문 작성자는 강력한 교사 최적화 프로세스를 추가로 고려했습니다. Diversified Consecutive KD는 초기 예측 분포 격차로 인해 발생하는 최적화 문제를 해결하기 위해 제안되었습니다. 아래와 같이 저자는 강교사와 약교사 조합의 지식 통합 방법을 통해 최적화 과정에서 목적함수를 변조한다. 이를 바탕으로 미리 정의된 여러 후보 교사를 사용하여 훈련 과정에서 약한 교사를 균등하게 전환하고, 결합된 지식 복잡성을 커리큘럼 방식으로 약한 것에서 강한 것으로 안내하고, 예측 분포를 줄이는 지식 강화 전략이 추가로 도입됩니다. 차이로 인해 발생합니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

최적화 기술 측면에서 BNext 작성자는 최신 고정밀 모델 최적화에서 데이터 증대로 인해 얻을 수 있는 이점을 충분히 고려하고 이진 모델 최적화에서 기존의 인기 있는 데이터 증대 전략을 최초로 적용할 수 있는 방법을 제공합니다. 실험 결과는 기존 데이터 향상 방법이 이진 모델 최적화에 완전히 적합하지 않다는 것을 보여 주며, 이는 후속 연구에서 이진 모델 최적화에 특정한 데이터 향상 전략 설계에 대한 아이디어를 제공합니다.

제안한 아키텍처 설계 및 최적화 방법을 바탕으로 저자는 대규모 이미지 분류 작업 ImageNet-1k에 대한 방법 검증을 수행했습니다. 실험 결과는 그림 6에 나와 있습니다.

ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.

그림 6 ImageNet-1k 기반 SOTA BNN 방법 비교.

기존 방법과 비교하여 BNext-L은 ImageNet-1k에서 처음으로 이진 모델의 성능 한계를 80.57%로 끌어올려 대부분의 기존 방법에서 10% 이상의 정확도를 달성했습니다. Google의 PokeBNN과 비교하여 BNext-M은 유사한 매개변수로 0.7% 더 높습니다. 저자는 또한 PokeBNN의 최적화가 최대 8192의 Bacth 크기 및 720 Epoch의 TPU와 같은 더 높은 컴퓨팅 리소스에 의존한다는 점을 강조합니다. BNext-L은 기존 배치 크기 512로 512 Epoch만 반복했는데, 이는 BNext 구조 설계 및 최적화 방법의 효율성을 반영합니다. 동일한 벤치마크 모델을 기반으로 한 비교에서는 BNext-T와 BNext-18 모두 정확도가 크게 향상되었습니다. RegNetY-4G(80.0%)와 같은 완전 정밀도 모델과 비교하여 BNext-L은 제한된 매개변수 공간과 계산 복잡성만 사용하면서 일치하는 시각적 표현 학습 기능을 보여 주므로 에지 배포에 이상적입니다. 바이너리 모델의 특징 추출기는 풍부한 상상의 공간을 제공합니다.

다음은 무엇입니까?

B다음 저자와 공동 작업자는 GPU 하드웨어에서 이 고정밀 BNN 아키텍처의 운영 효율성을 적극적으로 구현하고 검증하고 있으며 향후 다른 더 넓은 하드웨어로 확장할 계획이라고 언급했습니다. 플랫폼의 미래. 그러나 편집자의 의견에 따르면 커뮤니티는 BNN에 대한 신뢰를 되찾았고 시스템 및 하드웨어 분야에서 더 많은 괴짜들의 관심을 끌었습니다. 아마도 이 작업의 더 중요한 의미는 BNN의 응용 잠재력에 대한 상상력을 재구성하는 것입니다. 장기적으로 점점 더 많은 애플리케이션이 클라우드 중심 컴퓨팅 패러다임에서 분산형 엣지 컴퓨팅으로 마이그레이션됨에 따라 향후 엄청난 수의 엣지 장치에는 보다 효율적인 AI 기술, 소프트웨어 프레임워크 및 하드웨어 컴퓨팅 플랫폼이 필요할 것입니다. 그러나 현재 가장 주류인 AI 모델과 컴퓨팅 아키텍처는 엣지 시나리오에 맞게 설계 및 최적화되지 않았습니다. 따라서 엣지 AI에 대한 답을 찾을 때까지 BNN은 기술적 과제와 엄청난 잠재력으로 가득 찬 중요한 선택이 될 것이라고 믿습니다.

위 내용은 ImageNet에서 80% 이상의 정확도를 갖춘 최초의 이진 신경망 BNext가 나왔습니다. -1과 +1의 5년 여정입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제