Pytorch 핵심 사항을 개선하고 옵티마이저를 개선해보세요!-일체 포함-php.cn

집

기술 주변기기

일체 포함

Pytorch 핵심 사항을 개선하고 옵티마이저를 개선해보세요!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 05, 2024 pm 01:22 PM

pytorch

안녕하세요 샤오좡이에요!

오늘은 Pytorch의 옵티마이저에 대해 이야기하겠습니다.

옵티마이저의 선택은 딥러닝 모델의 훈련 효과와 속도에 직접적인 영향을 미칩니다. 다양한 최적화 프로그램은 다양한 문제에 적합하며 성능 차이로 인해 모델이 더 빠르고 안정적으로 수렴되거나 특정 작업에서 더 나은 성능을 발휘할 수 있습니다. 따라서 옵티마이저를 선택할 때에는 특정 문제의 특성을 고려하여 절충과 결정을 내려야 합니다.

따라서 딥 러닝 모델을 튜닝하려면 올바른 최적화 프로그램을 선택하는 것이 중요합니다. 옵티마이저의 선택은 모델 성능뿐만 아니라 훈련 프로세스의 효율성에도 큰 영향을 미칩니다.

PyTorch는 신경망을 훈련하고 모델 가중치를 업데이트하는 데 사용할 수 있는 다양한 최적화 도구를 제공합니다. 이러한 최적화 프로그램에는 공통 SGD, Adam, RMSprop 등이 포함됩니다. 각 최적화 프로그램에는 고유한 특성과 적용 가능한 시나리오가 있습니다. 적절한 최적화 프로그램을 선택하면 모델 수렴을 가속화하고 훈련 결과를 향상시킬 수 있습니다. 옵티마이저를 사용할 때는 학습률, 가중치 감소 등의 하이퍼파라미터를 설정하고 손실 함수 및 모델 매개변수를 정의해야 합니다.

突破Pytorch核心点，优化器！！

공통 옵티마이저

먼저 PyTorch에서 일반적으로 사용되는 옵티마이저를 나열하고 이에 대해 간략하게 소개하겠습니다.

SGD(확률적 경사하강법)가 어떻게 작동하는지 이해해 보겠습니다. SGD는 기계 학습 모델의 매개 변수를 해결하는 데 일반적으로 사용되는 최적화 알고리즘입니다. 작은 배치의 샘플을 무작위로 선택하여 기울기를 추정하고 기울기의 음수 방향을 사용하여 매개변수를 업데이트합니다. 이를 통해 모델의 성능은 반복 프로세스 중에 점진적으로 최적화될 수 있습니다. SGD의 장점은 계산 효율성이 높다는 것입니다. 특히

에 적합합니다. 확률적 경사하강법(Stochastic Gradient Descent)은 손실 함수를 최소화하기 위해 일반적으로 사용되는 최적화 알고리즘입니다. 이는 손실 함수에 대한 가중치의 기울기를 계산하고 기울기의 음수 방향으로 가중치를 업데이트하는 방식으로 작동합니다. 이 알고리즘은 머신러닝과 딥러닝에 널리 사용됩니다.

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

(2) Adam

Adam은 AdaGrad와 RMSProp의 아이디어를 결합한 적응형 학습률 최적화 알고리즘입니다. 전통적인 경사하강법 알고리즘과 비교하여 Adam은 다양한 매개변수의 특성에 더 잘 적응하기 위해 각 매개변수에 대해 서로 다른 학습률을 계산할 수 있습니다. Adam은 학습 속도를 적응적으로 조정하여 모델의 수렴 속도와 성능을 향상시킬 수 있습니다.

optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

(3) Adagrad

Adagrad는 매개변수의 과거 기울기를 기반으로 학습률을 조정하는 적응형 학습률 최적화 알고리즘입니다. 그러나 학습률이 점차 감소함에 따라 훈련이 조기에 중단될 수 있습니다.

optimizer = torch.optim.Adagrad(model.parameters(), lr=learning_rate)

(4) RMSProp

RMSProp은 기울기의 슬라이딩 평균을 고려하여 학습률을 조정하는 적응형 학습률 알고리즘이기도 합니다.

optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)

(5) Adadelta

Adadelta는 적응형 학습률 최적화 알고리즘이자 RMSProp의 개선된 버전으로, 기울기의 이동 평균과 매개변수의 이동 평균을 고려하여 학습률을 동적으로 조정합니다.

optimizer = torch.optim.Adadelta(model.parameters(), lr=learning_rate)

전체 사례

여기서 PyTorch를 사용하여 필기 숫자 인식을 위한 간단한 CNN(컨볼루션 신경망)을 훈련하는 방법에 대해 이야기해 보겠습니다.

이 사례에서는 MNIST 데이터 세트를 사용하고 Matplotlib 라이브러리를 사용하여 손실 곡선과 정확도 곡선을 그립니다.

import torchimport torch.nn as nnimport torch.optim as optimfrom torchvision import datasets, transformsfrom torch.utils.data import DataLoaderimport matplotlib.pyplot as plt# 设置随机种子torch.manual_seed(42)# 定义数据转换transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])# 下载和加载MNIST数据集train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False)# 定义简单的卷积神经网络模型class CNN(nn.Module):def __init__(self):super(CNN, self).__init__()self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)self.relu = nn.ReLU()self.pool = nn.MaxPool2d(kernel_size=2, stride=2)self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)self.fc1 = nn.Linear(64 * 7 * 7, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = self.conv1(x)x = self.relu(x)x = self.pool(x)x = self.conv2(x)x = self.relu(x)x = self.pool(x)x = x.view(-1, 64 * 7 * 7)x = self.fc1(x)x = self.relu(x)x = self.fc2(x)return x# 创建模型、损失函数和优化器model = CNN()criterion = nn.CrossEntropyLoss()optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练模型num_epochs = 5train_losses = []train_accuracies = []for epoch in range(num_epochs):model.train()total_loss = 0.0correct = 0total = 0for inputs, labels in train_loader:optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()total_loss += loss.item()_, predicted = torch.max(outputs.data, 1)total += labels.size(0)correct += (predicted == labels).sum().item()accuracy = correct / totaltrain_losses.append(total_loss / len(train_loader))train_accuracies.append(accuracy)print(f"Epoch {epoch+1}/{num_epochs}, Loss: {train_losses[-1]:.4f}, Accuracy: {accuracy:.4f}")# 绘制损失曲线和准确率曲线plt.figure(figsize=(10, 5))plt.subplot(1, 2, 1)plt.plot(train_losses, label='Training Loss')plt.title('Training Loss')plt.xlabel('Epoch')plt.ylabel('Loss')plt.legend()plt.subplot(1, 2, 2)plt.plot(train_accuracies, label='Training Accuracy')plt.title('Training Accuracy')plt.xlabel('Epoch')plt.ylabel('Accuracy')plt.legend()plt.tight_layout()plt.show()# 在测试集上评估模型model.eval()correct = 0total = 0with torch.no_grad():for inputs, labels in test_loader:outputs = model(inputs)_, predicted = torch.max(outputs.data, 1)total += labels.size(0)correct += (predicted == labels).sum().item()accuracy = correct / totalprint(f"Accuracy on test set: {accuracy * 100:.2f}%")

위 코드에서는 교차 엔트로피 손실과 Adam 옵티마이저를 사용하여 훈련된 간단한 CNN(컨볼루션 신경망)을 정의합니다.

훈련 과정에서 각 에포크의 손실과 정확도를 기록하고 Matplotlib 라이브러리를 사용하여 손실 곡선과 정확도 곡선을 그렸습니다.

突破Pytorch核心点，优化器！！

샤오좡입니다, 다음에 만나요!

위 내용은 Pytorch 핵심 사항을 개선하고 옵티마이저를 개선해보세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

무지의 베일 뒤에 직장 AI를 만들어야합니다.Apr 29, 2025 am 11:15 AM

존 롤스 (John Rawls)의 1971 년 책 The Justice의 이론에서 그는 오늘날의 AI 디자인의 핵심으로 취해야 할 사고 실험을 제안하고 의사 결정 : 무지의 베일을 제안했다. 이 철학은 형평성을 이해하기위한 간단한 도구를 제공하며 리더 가이 이해를 사용하여 AI를 공평한 방식으로 설계하고 구현할 수있는 청사진을 제공합니다. 새로운 사회에 대한 규칙을 만들고 있다고 상상해보십시오. 그러나 전제가 있습니다.이 사회에서 어떤 역할을할지 미리 알 수 없습니다. 당신은 부자 또는 가난하거나 건강하거나 장애가있을 수 있으며 다수 또는 소수의 소수에 속할 수 있습니다. 이 "무지의 베일"하에 운영되면 규칙 제조업체가 스스로 이익을 얻는 결정을 내리지 못하게합니다. 반대로, 사람들은 대중을 공식화하도록 더 동기를 부여받을 것입니다

결정, 결정… 실용적인 적용 AI를위한 다음 단계Apr 29, 2025 am 11:14 AM

수많은 회사들이 로봇 프로세스 자동화 (RPA)를 전문으로하며, 반복적 인 작업과 같은 반복적 인 작업 (어디서나 자동화, 파란색 프리즘 등)를 제공하는 봇을 제공합니다. 한편, 프로세스 마이닝, 오케스트레이션 및 지능형 문서 처리 Speciali

에이전트가오고 있습니다 - AI 파트너 옆에서 우리가 할 일에 대해 더 많이Apr 29, 2025 am 11:13 AM

AI의 미래는 간단한 단어 예측과 대화 시뮬레이션을 넘어서고 있습니다. AI 에이전트는 새로운 행동 및 작업 완료가 가능합니다. 이러한 변화는 이미 Anthropic의 Claude와 같은 도구에서 분명합니다. AI 요원 : 연구 a

AI 중심의 미래에 리더를위한 통제보다 공감이 더 중요한 이유Apr 29, 2025 am 11:12 AM

빠른 기술 발전은 미래의 업무에 대한 미래 지향적 인 관점을 필요로합니다. AI가 단순한 생산성 향상을 초월하고 사회적 구조를 형성하기 시작하면 어떻게됩니까? Topher McDougal의 다가오는 책인 Gaia Wakes :

제품 분류를위한 AI : 기계가 세법을 마스터 할 수 있습니까?Apr 29, 2025 am 11:11 AM

조화 시스템 (HS)과 같은 시스템의 "HS 8471.30"과 같은 복잡한 코드를 포함하는 제품 분류는 국제 무역 및 국내 판매에 중요합니다. 이 코드는 올바른 세금 신청을 보장하여 모든 inv에 영향을 미칩니다

데이터 센터 요구가 기후 기술 반등을 일으킬 수 있습니까?Apr 29, 2025 am 11:10 AM

데이터 센터 및 기후 기술 투자의 에너지 소비의 미래 이 기사는 AI가 주도하는 데이터 센터의 에너지 소비 급증과 기후 변화에 미치는 영향을 탐구 하고이 과제를 해결하기 위해 혁신적인 솔루션 및 정책 권장 사항을 분석합니다. 에너지 수요의 과제 : 대규모 및 초대형 스케일 데이터 센터는 수십만 명의 일반 북미 가족의 합과 비슷한 대규모 전력을 소비하며, AI 초반 규모 센터는 이보다 수십 배 더 많은 힘을 소비합니다. 2024 년 첫 8 개월 동안 Microsoft, Meta, Google 및 Amazon은 AI 데이터 센터의 건설 및 운영에 약 1,250 억 달러를 투자했습니다 (JP Morgan, 2024) (표 1). 에너지 수요 증가는 도전이자 기회입니다. 카나리아 미디어에 따르면 다가오는 전기

AI와 할리우드의 다음 황금 시대Apr 29, 2025 am 11:09 AM

생성 AI는 영화 및 텔레비전 제작을 혁신하고 있습니다. Luma의 Ray 2 모델과 활주로의 Gen-4, Openai의 Sora, Google의 VEO 및 기타 새로운 모델은 전례없는 속도로 생성 된 비디오의 품질을 향상시키고 있습니다. 이 모델은 복잡한 특수 효과와 현실적인 장면을 쉽게 만들 수 있으며 짧은 비디오 클립과 카메라로 인식 된 모션 효과조차도 달성되었습니다. 이러한 도구의 조작과 일관성은 여전히 개선되어야하지만 진행 속도는 놀랍습니다. 생성 비디오는 독립적 인 매체가되고 있습니다. 일부 모델은 애니메이션 제작에 능숙하고 다른 모델은 라이브 액션 이미지에 능숙합니다. Adobe 's Firefly와 Moonvalley's MA가

chatgpt가 천천히 AI의 가장 큰 예-맨이되고 있습니까?Apr 29, 2025 am 11:08 AM

ChatGpt 사용자 경험 감소 : 모델 저하 또는 사용자 기대치입니까? 최근에, 많은 ChatGpt 유료 사용자가 성능 저하에 대해 불평하여 광범위한 관심을 끌었습니다. 사용자는 모델에 대한 느린 반응, 짧은 답변, 도움 부족 및 더 많은 환각을보고했습니다. 일부 사용자는 소셜 미디어에 대한 불만을 표명했으며 Chatgpt가“너무 아첨”이되었으며 중요한 피드백을 제공하기보다는 사용자보기를 확인하는 경향이 있습니다. 이는 사용자 경험에 영향을 줄뿐만 아니라 생산성 감소 및 컴퓨팅 리소스 낭비와 같은 회사 고객에게 실제 손실을 가져옵니다. 성능 저하의 증거 많은 사용자들이 ChatGpt 성능, 특히 GPT-4와 같은 이전 모델 (이번 달 말에 서비스에서 곧 중단 될 예정)에서 상당한 악화를보고했습니다. 이것

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.