深度神经网络训练通常会面临诸如消失/爆炸梯度和内部协变量转移,减慢训练和阻碍学习的障碍。 归一化技术提供了解决方案,批次归一化(BN)特别突出。 BN可以加速收敛,提高稳定性并增强许多深度学习体系结构的概括。本教程解释了BN的机制,其数学基础和Tensorflow/keras实现。 机器学习中的
归一化标准化输入数据,使用最小 - 最大缩放,z得分归一化和对数转换的日志转换等方法。这可以减轻异常效应,改善收敛性并确保合理的特征比较。 归一化数据可确保对学习过程的同等特征贡献,从而防止大规模特征主导并导致次优模型性能。 它允许模型更有效地识别有意义的模式。深度学习培训挑战包括:
- 内部协变量偏移:激活分布在训练期间跨层的分布变化,妨碍适应和学习。
- 消失/爆炸梯度:梯度在反向传播过程中变得太小或太大,阻碍了有效的重量更新。 初始化敏感性:
- 初始权重影响训练;初始化差会导致收敛速度缓慢或失败。 批量归一化可以通过在每个小批量内进行归一化激活来解决这些问题,从而稳定训练并改善模型性能。
批量归一化在训练过程中,在微型批次中的一层激活归一化。它计算每个特征的激活的平均值和方差,然后使用这些统计数据进行归一化。 可学习的参数(γ和β)尺度并移动归一化激活,从而使模型可以学习最佳的激活分布。
来源:Yintai MA和Diego Klabjan。
通常在层的线性转换(例如,在完全连接的层中的矩阵乘法或卷积层中的卷积)和非线性激活函数(例如relu)之前应用
bn通过在每个迷你批次内进行归一化激活来解决内部协变量的转移,从而使对后续层的输入更加稳定。这使得可以更快地通过更高的学习率收敛并降低初始化敏感性。 它还正规化,通过减少对特定激活模式的依赖性来防止过度拟合。
>批准的数学:
>BN在训练和推理过程中以不同的方式运行。
训练:
- 归一化:
- 平均值(μb )和方差(σb 2 ),在微型批次中为每个特征计算出:>
激活(x i)已归一化:
>
(ε是数值稳定性的小常数)。
>- 缩放和变化:可学习的参数γ和β尺度和移位:
>推论:批量统计量被使用移动平均值(动量因子α)计算的运行统计(运行均值和方差)替代:
这些运行统计数据和学习的γ和β在推断期间用于归一化。
tensorflow实现:
实现注意事项:
import tensorflow as tf from tensorflow import keras # Load and preprocess MNIST data (as described in the original text) # ... # Define the model architecture model = keras.Sequential([ keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)), keras.layers.BatchNormalization(), keras.layers.Conv2D(64, (3, 3), activation='relu'), keras.layers.BatchNormalization(), keras.layers.MaxPooling2D((2, 2)), keras.layers.Flatten(), keras.layers.Dense(128, activation='relu'), keras.layers.BatchNormalization(), keras.layers.Dense(10, activation='softmax') ]) # Compile and train the model (as described in the original text) # ...
放置:线性变换和激活功能之前。
- 批量尺寸:
- 较大的批量尺寸提供更准确的批处理统计信息。
> 正则化: bn引入正则化效果。 - 限制和挑战:
- > bn的有效性降低了。
小批量尺寸: 可靠的批处理统计量较低。
计算开销:增加内存和训练时间。
- 缓解限制:
变体和扩展: 层归一化,组归一化,实例归一化,批次重归化和权重归一化提供替代方案或改进,具体取决于特定需求。结论
:批处理是一种有力的技术,可改善深度神经网络训练。 记住其优势,实施细节和限制,并考虑其项目在您的项目中的最佳性能。
>以上是批处理:理论和张量实现的详细内容。更多信息请关注PHP中文网其他相关文章!

自2008年以来,我一直倡导这辆共享乘车面包车,即后来被称为“ Robotjitney”,后来是“ Vansit”,这是城市运输的未来。 我预见这些车辆是21世纪的下一代过境解决方案Surpas

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

WebStorm Mac版
好用的JavaScript开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

SublimeText3 Linux新版
SublimeText3 Linux最新版