提升Pytorch关键点，改进优化器！-人工智能-PHP中文网

首页

科技周边

人工智能

提升Pytorch关键点，改进优化器！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 05, 2024 pm 01:22 PM

pytorch

嗨，我是小壮！

今儿咱们聊聊Pytorch中的优化器。

优化器的选择对深度学习模型的训练效果和速度有直接影响。不同的优化器适用于不同的问题，它们的性能差异可能导致模型更快、更稳定地收敛，或者在特定任务上表现更好。因此，在选择优化器时，需要根据具体问题的特点来进行权衡和决策。

因此，选择正确的优化器对于调优深度学习模型至关重要。优化器的选择不仅会显着影响模型的性能，还会影响训练过程的效率。

PyTorch提供了多种优化器，可用于训练神经网络并更新模型权重。这些优化器包括常见的SGD、Adam、RMSprop等，每个优化器都有其独特的特点和适用场景。选择合适的优化器可以加速模型收敛，提高训练效果。在使用优化器时，需要设置学习率、权重衰减等超参数，以及定义损失函数和模型参数。

突破Pytorch核心点，优化器！！

常见优化器

让我们首先罗列一些PyTorch中常用的优化器，并对其进行简单的介绍：

让我们一起来了解一下SGD（随机梯度下降）的工作原理吧。 SGD是一种常用的优化算法，用于求解机器学习模型的参数。它通过随机选择一小批样本来估计梯度，并使用梯度的负方向来更新参数。这样可以在迭代过程中逐渐优化模型的性能。 SGD的优势是计算效率高，尤其适用于

随机梯度下降是一种常用的优化算法，用于最小化损失函数。它通过计算权重相对于损失函数的梯度，并朝着梯度的负方向更新权重。这种算法在机器学习和深度学习中广泛应用。

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

(2) Adam

Adam是一种自适应学习率的优化算法，它结合了AdaGrad和RMSProp的思想。相比于传统的梯度下降算法，Adam能够为每个参数计算不同的学习率，从而更好地适应不同参数的特性。通过自适应调整学习率，Adam可以提高模型的收敛速度和性能。

optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

(3) Adagrad

Adagrad是一种自适应学习率的优化算法，根据参数的历史梯度调整学习率。但由于学习率逐渐减小，可能导致训练过早停止。

optimizer = torch.optim.Adagrad(model.parameters(), lr=learning_rate)

(4) RMSProp

RMSProp也是一种自适应学习率的算法，通过考虑梯度的滑动平均来调整学习率。

optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)

(5) Adadelta

Adadelta是一种自适应学习率的优化算法，是RMSProp的改进版本，通过考虑梯度的移动平均和参数的移动平均来动态调整学习率。

optimizer = torch.optim.Adadelta(model.parameters(), lr=learning_rate)

一个完整案例

在这里，咱们聊聊如何使用PyTorch训练一个简单的卷积神经网络（CNN）来进行手写数字识别。

这个案例使用的是MNIST数据集，并使用Matplotlib库绘制了损失曲线和准确率曲线。

import torchimport torch.nn as nnimport torch.optim as optimfrom torchvision import datasets, transformsfrom torch.utils.data import DataLoaderimport matplotlib.pyplot as plt# 设置随机种子torch.manual_seed(42)# 定义数据转换transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])# 下载和加载MNIST数据集train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False)# 定义简单的卷积神经网络模型class CNN(nn.Module):def __init__(self):super(CNN, self).__init__()self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)self.relu = nn.ReLU()self.pool = nn.MaxPool2d(kernel_size=2, stride=2)self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)self.fc1 = nn.Linear(64 * 7 * 7, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = self.conv1(x)x = self.relu(x)x = self.pool(x)x = self.conv2(x)x = self.relu(x)x = self.pool(x)x = x.view(-1, 64 * 7 * 7)x = self.fc1(x)x = self.relu(x)x = self.fc2(x)return x# 创建模型、损失函数和优化器model = CNN()criterion = nn.CrossEntropyLoss()optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练模型num_epochs = 5train_losses = []train_accuracies = []for epoch in range(num_epochs):model.train()total_loss = 0.0correct = 0total = 0for inputs, labels in train_loader:optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()total_loss += loss.item()_, predicted = torch.max(outputs.data, 1)total += labels.size(0)correct += (predicted == labels).sum().item()accuracy = correct / totaltrain_losses.append(total_loss / len(train_loader))train_accuracies.append(accuracy)print(f"Epoch {epoch+1}/{num_epochs}, Loss: {train_losses[-1]:.4f}, Accuracy: {accuracy:.4f}")# 绘制损失曲线和准确率曲线plt.figure(figsize=(10, 5))plt.subplot(1, 2, 1)plt.plot(train_losses, label='Training Loss')plt.title('Training Loss')plt.xlabel('Epoch')plt.ylabel('Loss')plt.legend()plt.subplot(1, 2, 2)plt.plot(train_accuracies, label='Training Accuracy')plt.title('Training Accuracy')plt.xlabel('Epoch')plt.ylabel('Accuracy')plt.legend()plt.tight_layout()plt.show()# 在测试集上评估模型model.eval()correct = 0total = 0with torch.no_grad():for inputs, labels in test_loader:outputs = model(inputs)_, predicted = torch.max(outputs.data, 1)total += labels.size(0)correct += (predicted == labels).sum().item()accuracy = correct / totalprint(f"Accuracy on test set: {accuracy * 100:.2f}%")

上述代码中，我们定义了一个简单的卷积神经网络（CNN），使用交叉熵损失和Adam优化器进行训练。

在训练过程中，我们记录了每个epoch的损失和准确率，并使用Matplotlib库绘制了损失曲线和准确率曲线。

突破Pytorch核心点，优化器！！

我是小壮，下期见！

以上是提升Pytorch关键点，改进优化器！的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

微软工作趋势指数2025显示工作场所容量应变Apr 24, 2025 am 11:19 AM

由于AI的快速整合而加剧了工作场所的迅速危机危机，要求战略转变以外的增量调整。 WTI的调查结果强调了这一点：68％的员工在工作量上挣扎，导致BUR

AI可以理解吗？中国房间的论点说不，但是对吗？Apr 24, 2025 am 11:18 AM

约翰·塞尔（John Searle）的中国房间论点：对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。想象一个人，对下巴一无所知

中国的'智能” AI助手回应微软召回的隐私缺陷Apr 24, 2025 am 11:17 AM

与西方同行相比，中国的科技巨头在AI开发方面的课程不同。他们不专注于技术基准和API集成，而是优先考虑“屏幕感知” AI助手 - AI T

Docker将熟悉的容器工作流程带到AI型号和MCP工具Apr 24, 2025 am 11:16 AM

MCP：赋能AI系统访问外部工具模型上下文协议（MCP）让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持，MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而，实施MCP服务器存在一些挑战，包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者：Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc