>  기사  >  기술 주변기기  >  빅모델 육성은 '에너지'에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 "효율적인 교육" 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

빅모델 육성은 '에너지'에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 "효율적인 교육" 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

WBOY
WBOY앞으로
2023-05-23 17:04:08700검색

딥 러닝 분야는 특히 컴퓨터 비전, 자연어 처리 및 음성과 같은 측면에서 상당한 발전을 이루었습니다. 빅데이터를 사용하여 훈련된 대규모 모델은 실제 응용, 산업 생산성 향상 및 사회 발전 전망에 큰 영향을 미칩니다. .

빅모델 육성은 에너지에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 효율적인 교육 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

그러나 대규모 모델을 훈련하려면 컴퓨팅 성능에 대한 사람들의 요구 사항이 계속 증가함에 따라 효율적인 훈련 방법을 모색하는 많은 연구가 있었지만 여전히 딥 러닝이 없습니다. 모델 가속 기술에 대한 포괄적인 검토.

최근 시드니 대학, 중국 과학 기술 대학 및 기타 기관의 연구자들은 대규모 딥 러닝 모델을 위한 효율적인 훈련 기술을 종합적으로 요약하고 훈련의 각 구성 요소 내 공통 메커니즘을 보여주는 리뷰를 발표했습니다. 프로세스 .

빅모델 육성은 에너지에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 효율적인 교육 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

논문 링크: https://arxiv.org/pdf/2304.03589.pdf

연구원들은 가장 기본적인 가중치 업데이트 공식을 고려하고 기본 구성 요소를 5가지 주요 측면으로 나눴습니다.

빅모델 육성은 에너지에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 효율적인 교육 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

1. 데이터 중심(데이터 중심), 데이터 세트 정규화, 데이터 샘플링 및 데이터 중심 강좌 학습 기술을 포함하여 샘플의 계산 복잡성

2, 모델 중심, 기본 모듈 가속화, 압축 훈련, 모델 초기화 및 모델 중심 과정 학습 기술을 포함하며, 매개변수 감소에 중점을 둡니다. 훈련 속도를 높이기 위한 계산

3. 학습률 선택, 대규모 배치 크기 사용, 효율적인 목적 함수 설계, 모델 가중 평균 기술 등을 포함하여 훈련 전략에 중점을 둡니다. 대규모 모델의 다양성을 향상합니다.

4,

하드웨어가 제한적일 때 사용되는 일부 가속 기술을 포함하는 예산 교육, 시스템 중심( 시스템 중심), 일부 효율적인 분산 프레임워크 및 오픈 소스 라이브러리를 포함하여 가속 구현을 위한 충분한 하드웨어 지원 제공 알고리즘.

효율적인 데이터 중심 교육최근 대규모 모델이 큰 발전을 이루면서 데이터 세트에 대한 요구 사항이 급격히 증가했습니다. 훈련 프로세스를 추진하고 탁월한 성능을 달성하기 위해 거대한 데이터 샘플이 사용됩니다. 따라서 데이터 중심 연구는 실제 가속화에 매우 중요합니다.

데이터 처리의 기본 기능은 데이터 라벨링 비용이 너무 비싸서 일부 개발 기관에서는 이를 감당할 수 없기 때문에 라벨링 비용을 늘리지 않고 데이터 샘플의 다양성을 효율적으로 늘리는 것입니다. 데이터 중심 분야 연구의 중요성과 동시에 데이터 처리도 데이터 샘플의 병렬 로딩 효율성을 높이는 데 중점을 두고 있습니다.

연구원들은 이러한 모든 효율적인 데이터 처리를 "데이터 중심" 접근 방식이라고 부르며, 이는 대규모 모델 학습 성능을 크게 향상시킬 수 있습니다.

이 기사에서는 다음 측면에서 기술을 검토하고 연구합니다.

데이터 정규화

데이터 정규화는 일련의 데이터 변환을 통해 향상되는 전처리 기술입니다. 원본 데이터 샘플의 다양성 추가 레이블 정보 없이도 특징 공간에서 훈련 샘플의 동등한 표현을 향상시킬 수 있습니다.

효율적인 데이터 정규화 방법은 훈련 과정에서 널리 사용되며 대규모 모델의 일반화 성능을 크게 향상시킬 수 있습니다.

데이터 샘플링

데이터 샘플링도 효과적인 방법입니다. 대규모 샘플 배치에서 하위 집합을 선택하여 그래디언트를 업데이트할 수 있다는 장점이 있습니다. 이러한 방식으로 현재 배치에서 중요하지 않거나 잘못된 샘플의 영향을 줄일 수 있습니다.

일반적으로 샘플링된 데이터가 더 중요하며 성능은 전체 배치 훈련을 사용하여 얻은 모델과 동일합니다. 샘플링이 없도록 훈련 프로세스와 함께 각 반복의 확률을 점진적으로 조정해야 합니다. 편견.

데이터 중심 커리큘럼 학습

커리큘럼 학습은 교육 프로세스의 다양한 단계에서 점진적인 교육 설정을 연구하여 전체 계산 비용을 줄입니다.

처음에는 낮은 품질의 데이터 세트를 사용한 교육만으로도 낮은 수준의 기능을 학습할 수 있으며, 고품질 데이터 세트(더 많은 향상 및 복잡한 전처리 방법)를 사용하면 점차적으로 복잡한 기능을 학습하는 데 도움이 되며, 사용하는 것과 동일한 정확도를 얻을 수 있습니다. 전체 훈련 세트.

모델 중심의 효율적인 학습

효율적인 모델 아키텍처를 설계하는 것은 항상 딥러닝 분야에서 가장 중요한 연구 중 하나입니다. 우수한 모델은 쉽게 분리된 상위 수준으로 투영할 수 있는 효율적인 특징 추출기이어야 합니다. 특징.

효율적이고 새로운 모델 아키텍처에 특별한 관심을 기울이는 다른 작업과 달리, 이 논문은 "모델 중심" 연구에서 공통 모듈의 동등한 대안에 더 많은 관심을 기울이고 비교 가능한 상황에서 더 비교 가능한 결과를 달성합니다. .

거의 모든 대규모 모델은 작은 모듈이나 레이어로 구성되므로 모델 조사는 대규모 모델의 효율적인 학습을 위한 지침을 제공할 수 있습니다. 연구자들은 주로 다음과 같은 측면에서 연구합니다.

Architecture 효율성

심층 모델의 매개변수 수가 급격히 증가하면 엄청난 계산 소모도 발생하므로 모델 아키텍처의 원래 버전 성능에 근접할 수 있는 효율적인 대안을 구현해야 합니다. 그 방향은 점차 학계의 주목을 끌게 되었는데, 이러한 대체는 단지 수치 계산의 근사치일 뿐만 아니라 심층 모델의 구조적 단순화와 융합도 포함합니다.

연구원들은 다양한 아키텍처를 기반으로 기존 가속 기술을 차별화하고 몇 가지 관찰과 결론을 제시합니다.

압축 훈련 효율성

압축은 항상 컴퓨팅 가속 분야의 연구 방향 중 하나였으며 디지털 신호 처리(멀티미디어 컴퓨팅/이미지 처리)에서 핵심 역할을 합니다.

기존 압축에는 양자화와 희소성의 두 가지 주요 분기가 포함됩니다. 이 기사에서는 딥 트레이닝에 대한 기존 성과와 기여를 자세히 설명합니다.

초기화 효율성

모델 매개변수의 초기화는 기존 이론적 분석과 실제 시나리오에서 매우 중요한 요소입니다.

잘못된 초기화 상태는 초기 훈련 단계에서 전체 훈련이 무너지고 정체되는 원인이 될 수도 있지만, 좋은 초기화 상태는 원활한 손실 범위 내에서 전체 수렴 속도를 높이는 데 도움이 됩니다. 이 글은 주로 A 모델 초기화에서 시작됩니다. 관점 연구 평가 및 알고리즘 설계.

모델 중심 커리큘럼 학습

모델 중심 관점에서 코스 학습은 일반적으로 소규모 모델이나 대규모 모델의 부분 매개변수에서 학습을 시작한 다음 점차적으로 전체 아키텍처로 복원하여 학습 프로세스를 가속화하는 데 더 큰 이점을 보여줍니다. 명백한 부정적인 영향을 미치는 기사에서는 훈련 과정에서 이 방법의 구현과 효율성을 검토합니다.

최적화를 중심으로 한 효율적인 학습

최적화 방법의 가속화 방식은 항상 기계 학습 분야에서 중요한 연구 방향이었으며, 최적의 조건을 달성하면서 복잡성을 줄이는 것이 학계에서 추구하는 목표였습니다.

최근 몇 년 동안 효율적이고 강력한 최적화 방법은 기계 학습에서 널리 사용되는 기본 최적화 프로그램으로서 심층 모델이 다양한 실제 응용 프로그램을 달성하는 데 성공적으로 도움을 주었습니다. 문제가 점점 복잡해지면 SGD가 로컬 최소값에 빠질 가능성이 높아지고 안정적으로 일반화할 수 없습니다.

이러한 어려움을 해결하기 위해 Adam과 그 변종은 업데이트에 적응성을 도입하도록 제안되었습니다. 이 접근 방식은 BERT, Transformer 및 ViT 모델과 같은 대규모 네트워크 훈련에서 좋은 결과를 얻었습니다.

설계된 옵티마이저 자체의 성능 외에도 가속 훈련 기술의 조합도 중요합니다.

최적화의 관점을 바탕으로 연구자들은 가속 훈련에 대한 현재의 생각을 다음과 같은 측면으로 요약했습니다.

학습률 학습률

학습률은 비볼록에서 중요한 요소입니다. 최적화 하이퍼파라미터는 현재 심층 네트워크 교육에서도 중요하며 Adam 및 그 변형과 같은 적응형 방법은 심층 모델에서 놀라운 발전을 성공적으로 달성했습니다.

빅모델 육성은 에너지에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 효율적인 교육 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

고차 기울기를 기반으로 학습률을 조정하는 일부 전략도 효과적으로 가속 훈련을 달성하며, 학습률 감쇠 구현도 훈련 과정의 성능에 영향을 미칩니다.

큰 배치 크기

더 큰 배치 크기를 사용하면 훈련 효율성이 효과적으로 향상되고 전체 샘플 크기가 고정될 때 에포크 훈련을 완료하는 데 필요한 반복 횟수가 직접적으로 줄어들 수 있습니다. 즉, 더 큰 배치 크기를 처리하는 것이 더 작은 배치 크기의 여러 샘플을 처리하는 것보다 비용이 적게 듭니다. 메모리 활용도가 향상되고 통신 병목 현상이 줄어들 수 있기 때문입니다.

효율적인 목표

가장 기본적인 ERM은 문제를 최소화하고 많은 작업을 실용적으로 만드는 데 핵심적인 역할을 합니다.

대규모 네트워크에 대한 연구가 심화됨에 따라 일부 연구에서는 최적화와 일반화 사이의 격차에 더 많은 관심을 기울이고 테스트 오류를 ​​줄이기 위한 효과적인 목표를 제안하며 일반화의 중요성을 다양한 관점에서 설명하고 훈련 효율성을 향상시킵니다. 이들 간의 공동 최적화는 테스트의 정확도를 크게 높일 수 있습니다.

평균 가중치

가중 평균은 모델의 일반성을 향상할 수 있는 실용적인 기술입니다. 왜냐하면 고정 또는 학습 가능한 계수 세트와 함께 과거 상태의 가중 평균을 고려하기 때문입니다. 훈련 과정의 속도를 크게 높입니다.

예산 기반 및 효율적인 교육

최근 몇 가지 노력은 더 적은 리소스로 딥 러닝 모델을 교육하고 가능한 한 더 높은 정확도를 달성하는 데 중점을 두었습니다.

이러한 유형의 문제는 예산이 책정된 훈련, 즉 최고 모델 성능을 달성하기 위해 주어진 예산(측정 가능한 비용의 한계) 하에서 훈련하는 것으로 정의됩니다.

실제 상황에 접근하기 위한 하드웨어 지원을 체계적으로 고려하기 위해 연구자들은 예산 훈련을 주어진 장치에서 제한된 시간 내에 훈련하는 것으로 정의합니다. 예를 들어 단일 저가 딥러닝 서버에서 하루 동안 훈련하여 최고의 성능 최고의 성능 모델.

빅모델 육성은 에너지에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 효율적인 교육 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

예산 내 교육에 대한 연구를 통해 모델 크기, 모델 구조, 학습률 일정을 결정하는 구성 및 기타 여러 조정 가능한 요소를 결정하는 구성을 포함하여 예산 내 교육을 위한 교육 레시피를 만드는 방법을 밝힐 수 있습니다. 이 기사에서는 사용 가능한 예산에 적합한 효율적인 훈련 기술을 결합할 뿐만 아니라 예산 훈련을 위한 몇 가지 고급 기술을 주로 검토합니다.

효율적인 시스템 중심 훈련

시스템 중심 연구는 설계된 알고리즘에 대한 구체적인 구현 방법을 제공하고, 진정으로 효율적인 훈련을 달성할 수 있는 하드웨어의 효과적이고 실용적인 실행을 연구하는 것입니다.

연구원들은 다중 노드 클러스터에서 CPU, GPU 등 범용 컴퓨팅 장치 구현에 중점을 두고 있으며, 하드웨어 관점에서 설계 알고리즘의 잠재적 충돌을 해결하는 것이 핵심 관심사입니다.

이 기사에서는 기존 프레임워크 및 타사 라이브러리의 하드웨어 구현 기술을 주로 검토합니다. 이러한 기술은 데이터 처리, 모델 및 최적화를 효과적으로 지원하고 모델 구축 및 효율성을 촉진하기 위한 일부 기존 오픈 소스 플랫폼을 소개합니다. 데이터 교육, 혼합 정밀도 교육, 분산 교육을 위한 견고한 프레임워크를 제공합니다.

시스템 중심 데이터 효율성

효율적인 데이터 처리와 데이터 병렬 처리는 시스템 구현에 있어 두 가지 중요한 고려 사항입니다.

데이터 양이 급격히 증가함에 따라 비효율적인 데이터 처리는 점차 훈련 효율성의 병목 현상이 되었습니다. 특히 다중 노드에 대한 대규모 훈련의 경우 더욱 하드웨어 친화적인 컴퓨팅 방법과 병렬화를 설계하면 훈련에 낭비되는 시간을 효과적으로 방지할 수 있습니다. .

시스템 중심 모델 효율성

모델 매개변수 수가 급격히 증가함에 따라 모델 관점에서 시스템 효율성은 스토리지 및 컴퓨팅 효율성이 하드웨어에 큰 문제를 가져오는 중요한 문제 중 하나가 되었습니다. 구현.

이 기사에서는 효율적인 배포 I/O를 달성하고 모델 병렬 처리의 간소화된 구현을 통해 실제 교육 속도를 높이는 방법을 주로 검토합니다.

시스템 중심 최적화 효율성

최적화 프로세스는 각 반복의 역전파 및 업데이트를 나타내며 훈련에서 가장 시간이 많이 걸리는 계산이므로 시스템을 기반으로 합니다. 센터 구현 최적화는 훈련의 효율성을 직접적으로 결정합니다.

시스템 최적화의 특성을 명확하게 해석하기 위해 이 기사에서는 다양한 계산 단계의 효율성에 중점을 두고 각 프로세스의 개선 사항을 검토합니다.

오픈 소스 프레임워크

효율적인 오픈 소스 프레임워크는 훈련을 촉진하고 접목 알고리즘 설계와 하드웨어 지원 사이의 가교 역할을 할 수 있습니다. 연구원들은 일련의 오픈 소스 프레임워크를 조사하고 장점과 단점을 분석했습니다. 각 디자인.

빅모델 육성은 에너지에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 효율적인 교육 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.

결론

연구원들은 그라데이션 업데이트 공식의 모든 구성 요소를 고려하여 딥 러닝 분야의 전체 교육 프로세스를 포괄하면서 대규모 딥 러닝 모델을 효과적으로 교육하기 위한 일반적인 교육 가속화 기술을 검토했습니다.

이 기사에서는 이러한 기술을 데이터 중심, 모델 중심, 최적화 중심, 예산 교육 및 시스템 중심의 5가지 주요 방향으로 요약하는 새로운 분류법도 제안합니다.

처음 4개 부분에서는 주로 알고리즘 설계 및 방법론 관점에서 종합적인 연구를 진행하고, "시스템 중심의 효율적 교육" 부분에서는 패러다임 혁신 및 하드웨어 지원 관점에서 실제 구현을 요약합니다.

이 기사에서는 각 부분에 해당하는 일반적으로 사용되거나 새로 개발된 기술, 각 기술의 장점과 장단점을 검토 및 요약하고, 포괄적인 기술 검토를 제공하기 전에 한계와 향후 유망 연구 방향에 대해 논의하고 지침을 제공합니다. 이 검토는 또한 효율적인 교육의 현재 혁신과 병목 현상을 제시합니다.

연구원들은 연구원들이 일반 교육 가속화를 효율적으로 달성하고 각 섹션의 마지막에 언급된 몇 가지 잠재적인 발전 외에도 효율적인 교육의 향후 개발에 의미 있고 유망한 영향을 제공할 수 있기를 희망합니다.

1. 효율적인 프로필 검색

효율적인 학습은 데이터 강화 조합, 모델 구조, 옵티마이저 설계 등의 관점에서 시작하여 모델에 약간의 진전이 있을 수 있습니다. 사전 구축되고 사용자 정의 가능한 프로필 검색 전략을 설계하는 과정에서 만들어졌습니다.

새로운 모델 아키텍처 및 압축 모드, 새로운 사전 훈련 작업, "모델 에지" 지식의 사용도 살펴볼 가치가 있습니다.

2. Adaptive Scheduler

강좌 학습, 학습률 및 배치 크기, 모델 복잡성 등 최적화 중심의 스케줄러를 사용하면 예산을 고려하여 더 나은 성능을 달성할 수 있습니다. 스케줄러는 남은 예산에 동적으로 적응하여 수동 설계 비용을 줄일 수 있습니다. 적응형 스케줄러를 사용하면 여러 지역 및 데이터에 걸쳐 있을 때와 같은 보다 일반적이고 실용적인 상황을 고려하면서 병렬성과 통신 방법을 탐색할 수 있습니다. 중앙화된 이기종 네트워크에서의 훈련.

위 내용은 빅모델 육성은 '에너지'에 주목! Tao Dacheng이 팀을 이끌고 있습니다. 모든 "효율적인 교육" 솔루션이 하나의 기사에 포함되어 있습니다. 하드웨어가 유일한 병목 현상이라고 말하지 마세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제