>기술 주변기기 >일체 포함 >배치 정규화와 레이어 정규화의 차이점

배치 정규화와 레이어 정규화의 차이점

WBOY
WBOY앞으로
2024-01-23 22:00:121244검색

배치 정규화와 레이어 정규화의 차이점

정규화는 신경망에서 그라디언트가 폭발하거나 사라지는 문제를 해결하는 데 자주 사용됩니다. 모든 값이 동일한 척도 또는 분포에 있도록 특성 값을 [0,1] 범위로 매핑하여 작동합니다. 간단히 말해서 정규화는 신경망에 대한 입력을 정규화하고 훈련 속도를 높입니다.

두 가지 유형의 정규화

정규화 기술에는 주로 두 가지 유형이 있습니다. 우리는 일반적으로 입력을 처리하기 위해 비선형 활성화 함수를 사용합니다. 그리고 특정 계층의 각 뉴런에 대해 평균과 단위 표준편차가 0이 되도록 사전 활성화할 수 있습니다. 이는 입력 특성의 미니 배치에 대해 평균 빼기 및 표준 편차 나누기를 수행하여 달성할 수 있습니다.

    그러나 모든 사전 활성화를 모든 배치에 대해 0과 단위 표준 편차로 강제하는 것은 너무 엄격할 수 있으므로 특정 변동 분포를 도입하면 네트워크 학습에 더 도움이 될 수 있습니다.
  • 이 문제를 해결하기 위해 배치 정규화에는 배율 인자 감마(γ)와 오프셋 베타(β)라는 두 가지 매개변수가 도입되는데, 둘 다 학습 가능한 매개변수입니다.
  • 배치 정규화에서는 배치 통계 사용에 주의해야 합니다. 배치 크기가 작으면 표본 평균과 표준 편차가 실제 분포를 나타내기에 충분하지 않아 네트워크가 의미 있는 내용을 학습하지 못하게 됩니다. 따라서 보다 정확한 통계를 얻기 위해서는 배치 크기를 충분히 크게 하여 모델의 성능과 학습을 향상시켜야 합니다.

레이어 정규화(Layer Normalization)

레이어 정규화는 연구원 Jimmy Lei Ba, Jamie Ryan Kiros 및 Geoffrey E. Hinton이 제안한 방법입니다. 이 방법의 핵심 아이디어는 특정 계층의 모든 뉴런에 대해 주어진 입력의 모든 특징에 대해 동일한 분포를 갖는 것입니다. 배치 정규화와 달리 레이어 정규화는 각 샘플의 특징 차원에 대해 정규화 작업을 수행합니다. 입력 특징에 대한 각 뉴런의 평균과 분산을 계산하여 이 레이어의 출력을 정규화합니다. 이 방법은 모델이 소규모 데이터 배치에 적응하고 모델의 일반화 능력을 향상시키는 데 도움이 될 수 있습니다. 레이어 정규화의 장점은 모든 기능을 정규화하기 위해 배치에 의존하지 않고 각 입력을 특정 레이어로 정규화하여 배치에 대한 의존성을 제거한다는 것입니다. 이로 인해 계층 정규화는 널리 사용되는 Transformer 및 RNN(Recurrent Neural Networks)과 같은 시퀀스 모델에 매우 적합합니다.

배치 정규화와 레이어 정규화의 주요 차이점

1. 배치 정규화는 각 기능을 미니 배치로 독립적으로 정규화합니다. 레이어 정규화는 모든 기능에 걸쳐 배치의 각 입력을 독립적으로 정규화합니다.

2. 배치 정규화는 배치 크기에 따라 달라지므로 작은 배치에는 효과적이지 않습니다. 레이어 정규화는 배치 크기에 독립적이므로 더 작은 크기의 배치에도 적용할 수 있습니다.

3. 배치 정규화에는 훈련 및 추론 중에 다른 처리가 필요합니다. 레이어 정규화는 특정 레이어의 입력 길이에 따라 수행되므로 훈련 및 추론 시 동일한 작업 세트를 사용할 수 있습니다.

위 내용은 배치 정규화와 레이어 정규화의 차이점의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제