정규화는 신경망에서 그라디언트가 폭발하거나 사라지는 문제를 해결하는 데 자주 사용됩니다. 모든 값이 동일한 척도 또는 분포에 있도록 특성 값을 [0,1] 범위로 매핑하여 작동합니다. 간단히 말해서 정규화는 신경망에 대한 입력을 정규화하고 훈련 속도를 높입니다.
정규화 기술에는 주로 두 가지 유형이 있습니다. 우리는 일반적으로 입력을 처리하기 위해 비선형 활성화 함수를 사용합니다. 그리고 특정 계층의 각 뉴런에 대해 평균과 단위 표준편차가 0이 되도록 사전 활성화할 수 있습니다. 이는 입력 특성의 미니 배치에 대해 평균 빼기 및 표준 편차 나누기를 수행하여 달성할 수 있습니다.
레이어 정규화(Layer Normalization)
레이어 정규화는 연구원 Jimmy Lei Ba, Jamie Ryan Kiros 및 Geoffrey E. Hinton이 제안한 방법입니다. 이 방법의 핵심 아이디어는 특정 계층의 모든 뉴런에 대해 주어진 입력의 모든 특징에 대해 동일한 분포를 갖는 것입니다. 배치 정규화와 달리 레이어 정규화는 각 샘플의 특징 차원에 대해 정규화 작업을 수행합니다. 입력 특징에 대한 각 뉴런의 평균과 분산을 계산하여 이 레이어의 출력을 정규화합니다. 이 방법은 모델이 소규모 데이터 배치에 적응하고 모델의 일반화 능력을 향상시키는 데 도움이 될 수 있습니다. 레이어 정규화의 장점은 모든 기능을 정규화하기 위해 배치에 의존하지 않고 각 입력을 특정 레이어로 정규화하여 배치에 대한 의존성을 제거한다는 것입니다. 이로 인해 계층 정규화는 널리 사용되는 Transformer 및 RNN(Recurrent Neural Networks)과 같은 시퀀스 모델에 매우 적합합니다.
배치 정규화와 레이어 정규화의 주요 차이점
1. 배치 정규화는 각 기능을 미니 배치로 독립적으로 정규화합니다. 레이어 정규화는 모든 기능에 걸쳐 배치의 각 입력을 독립적으로 정규화합니다.
2. 배치 정규화는 배치 크기에 따라 달라지므로 작은 배치에는 효과적이지 않습니다. 레이어 정규화는 배치 크기에 독립적이므로 더 작은 크기의 배치에도 적용할 수 있습니다.
3. 배치 정규화에는 훈련 및 추론 중에 다른 처리가 필요합니다. 레이어 정규화는 특정 레이어의 입력 길이에 따라 수행되므로 훈련 및 추론 시 동일한 작업 세트를 사용할 수 있습니다.
위 내용은 배치 정규화와 레이어 정규화의 차이점의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!