批处理：理论和张量实现-人工智能-PHP中文网

首页

科技周边

人工智能

批处理：理论和张量实现

Joseph Gordon-Levitt

Mar 06, 2025 am 11:00 AM

深度神经网络训练通常会面临诸如消失/爆炸梯度和内部协变量转移，减慢训练和阻碍学习的障碍。归一化技术提供了解决方案，批次归一化（BN）特别突出。 BN可以加速收敛，提高稳定性并增强许多深度学习体系结构的概括。本教程解释了BN的机制，其数学基础和Tensorflow/keras实现。机器学习中的

归一化标准化输入数据，使用最小 - 最大缩放，z得分归一化和对数转换的日志转换等方法。这可以减轻异常效应，改善收敛性并确保合理的特征比较。归一化数据可确保对学习过程的同等特征贡献，从而防止大规模特征主导并导致次优模型性能。它允许模型更有效地识别有意义的模式。

深度学习培训挑战包括：

内部协变量偏移：激活分布在训练期间跨层的分布变化，妨碍适应和学习。
消失/爆炸梯度：梯度在反向传播过程中变得太小或太大，阻碍了有效的重量更新。
初始权重影响训练；初始化差会导致收敛速度缓慢或失败。

批量归一化在训练过程中，在微型批次中的一层激活归一化。它计算每个特征的激活的平均值和方差，然后使用这些统计数据进行归一化。可学习的参数（γ和β）尺度并移动归一化激活，从而使模型可以学习最佳的激活分布。

Batch Normalization: Theory and TensorFlow Implementation 来源：Yintai MA和Diego Klabjan。通常在层的线性转换（例如，在完全连接的层中的矩阵乘法或卷积层中的卷积）和非线性激活函数（例如relu）之前应用

bn。关键组件是迷你批次统计（平均值和方差），标准化以及使用可学习参数的缩放/移动。

bn通过在每个迷你批次内进行归一化激活来解决内部协变量的转移，从而使对后续层的输入更加稳定。这使得可以更快地通过更高的学习率收敛并降低初始化敏感性。它还正规化，通过减少对特定激活模式的依赖性来防止过度拟合。

批准的数学：

>BN在训练和推理过程中以不同的方式运行。

训练：

平均值（μb ）和方差（σ_b2 ^{），在微型批次中为每个特征计算出：}>

Batch Normalization: Theory and TensorFlow Implementation

激活（x _i）已归一化：

Batch Normalization: Theory and TensorFlow Implementation

（ε是数值稳定性的小常数）。

缩放和变化：可学习的参数γ和β尺度和移位：

Batch Normalization: Theory and TensorFlow Implementation

>推论：批量统计量被使用移动平均值（动量因子α）计算的运行统计（运行均值和方差）替代：>

Batch Normalization: Theory and TensorFlow Implementation

Batch Normalization: Theory and TensorFlow Implementation 这些运行统计数据和学习的γ和β在推断期间用于归一化。

tensorflow实现：

实现注意事项：

import tensorflow as tf
from tensorflow import keras

# Load and preprocess MNIST data (as described in the original text)
# ...

# Define the model architecture
model = keras.Sequential([
    keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    keras.layers.BatchNormalization(),
    keras.layers.Conv2D(64, (3, 3), activation='relu'),
    keras.layers.BatchNormalization(),
    keras.layers.MaxPooling2D((2, 2)),
    keras.layers.Flatten(),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(10, activation='softmax')
])

# Compile and train the model (as described in the original text)
# ...

放置：线性变换和激活功能之前。>

较大的批量尺寸提供更准确的批处理统计信息。> 正则化： bn引入正则化效果。
限制和挑战：

> bn的有效性降低了。小批量尺寸：

可靠的批处理统计量较低。

计算开销：增加内存和训练时间。

缓解限制：变体和扩展：

：批处理是一种有力的技术，可改善深度神经网络训练。记住其优势，实施细节和限制，并考虑其项目在您的项目中的最佳性能。

以上是批处理：理论和张量实现的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石Apr 22, 2025 am 11:48 AM

自2008年以来，我一直倡导这辆共享乘车面包车，即后来被称为“ Robotjitney”，后来是“ Vansit”，这是城市运输的未来。我预见这些车辆是21世纪的下一代过境解决方案Surpas

Sam俱乐部在AI上押注以消除收据检查并增强零售Apr 22, 2025 am 11:29 AM

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上，使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

Nvidia的AI Omniverse在GTC 2025扩展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者，正在专注于提高其客户的可预测性。这涉及一致的产品交付，达到绩效期望以及

探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2：强大，高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝，随着Gemma 2的到来而扩展。此最新版本包括两种模型：270亿个参数VER

下一波《 Genai：与Kirk Borne博士的观点》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

这一领先的数据剧集以数据科学家，天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据，AI和机器学习的著名专家，为当前状态和未来的Traje提供了宝贵的见解

AI适合跑步者和运动员：我们取得了出色的进步Apr 22, 2025 am 11:12 AM

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息，这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。我将从每位贡献者的观点中概括出一个核心思想，以展示三个设计方面，这些方面是我们探索人工智能在体育运动中应用的重要组成部分。边缘设备和原始个人数据关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关，另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解，但他还