집 >백엔드 개발 >파이썬 튜토리얼 >Python에서 매개변수를 구문 분석하는 세 가지 방법

Python에서 매개변수를 구문 분석하는 세 가지 방법

王林앞으로: 2023-05-12 11:13:131424검색

Python 解析参数的三种方法

가자!

머신러닝의 매개변수 조정 과정을 활용하여 연습하는 방법은 3가지가 있습니다. 첫 번째 옵션은 명령줄 구문 분석 전용으로 널리 사용되는 Python 모듈인 argparse를 사용하는 것입니다. 다른 하나는 모든 하이퍼파라미터를 넣을 수 있는 JSON 파일을 읽는 것입니다. 세 번째 옵션은 잘 알려지지 않은 YAML 파일을 사용하는 것입니다. 궁금해요, 시작해 보세요!

사전 조건

아래 코드에서는 매우 효율적인 통합 Python 개발 환경인 Visual Studio Code를 사용하겠습니다. 이 도구의 장점은 확장 기능을 설치하여 모든 프로그래밍 언어를 지원하고, 터미널을 통합하며, 수많은 Python 스크립트와 Jupyter 노트북을 동시에 사용할 수 있다는 것입니다.

https://www.kaggle.com/datasets/lakshmi25npathi/bike-sharing-dataset

Using argparse

Python 解析参数的三种方法

위 그림과 같이 우리는 작은 프로젝트를 구성하기 위한 표준 구조를 가지고 있습니다.

데이터 세트가 포함된 data라는 폴더
train.py 파일
하이퍼파라미터 지정을 위한 Options.py 파일

먼저, 데이터를 가져오는 기본 절차가 있는 train.py 파일을 만들 수 있습니다. , 훈련 데이터로 모델을 훈련하고 테스트 세트에서 평가합니다.

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error
from options import train_options
df = pd.read_csv('datahour.csv')
print(df.head())
opt = train_options()
X=df.drop(['instant','dteday','atemp','casual','registered','cnt'],axis=1).values
y =df['cnt'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
if opt.normalize == True:
 scaler = StandardScaler()
 X = scaler.fit_transform(X)
rf = RandomForestRegressor(n_estimators=opt.n_estimators,max_features=opt.max_features,max_depth=opt.max_depth)
model = rf.fit(X_train,y_train)
y_pred = model.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_pred, y_test))
mae = mean_absolute_error(y_pred, y_test)
print("rmse: ",rmse)
print("mae: ",mae)

코드에서는 options.py 파일에 포함된 train_options 함수도 가져옵니다. 후자의 파일은 train.py에서 고려되는 하이퍼파라미터를 변경할 수 있는 Python 파일입니다.

import argparse
def train_options():
 parser = argparse.ArgumentParser()
 parser.add_argument("--normalize", default=True, type=bool, help='maximum depth')
 parser.add_argument("--n_estimators", default=100, type=int, help='number of estimators')
 parser.add_argument("--max_features", default=6, type=int, help='maximum of features',)
 parser.add_argument("--max_depth", default=5, type=int,help='maximum depth')
 opt = parser.parse_args()
 return opt

이 예에서는 명령줄 인수를 구문 분석할 때 매우 널리 사용되는 argparse 라이브러리를 사용했습니다. 먼저 파서를 초기화한 다음 액세스하려는 매개변수를 추가할 수 있습니다.

코드 실행 예시는 다음과 같습니다.

python train.py

Python 解析参数的三种方法

하이퍼파라미터의 기본값을 변경하는 방법에는 두 가지가 있습니다. 첫 번째 옵션은 options.py 파일에 다른 기본값을 설정하는 것입니다. 또 다른 옵션은 명령줄에서 하이퍼파라미터 값을 전달하는 것입니다.

python train.py --n_estimators 200

변경하려는 하이퍼파라미터의 이름과 해당 값을 지정해야 합니다.

python train.py --n_estimators 200 --max_depth 7

JSON 파일 사용하기

Python 解析参数的三种方法

전과 마찬가지로 비슷한 파일 구조를 유지할 수 있습니다. 이 경우 options.py 파일을 JSON 파일로 바꿉니다. 즉, JSON 파일에 하이퍼파라미터의 값을 지정하고 이를 train.py 파일에 전달하려고 합니다. JSON 파일은 키-값 쌍을 활용하여 데이터를 저장하는 argparse 라이브러리에 대한 빠르고 직관적인 대안이 될 수 있습니다. 다음으로 나중에 다른 코드에 전달해야 하는 데이터가 포함된 options.json 파일을 만듭니다.

{
"normalize":true,
"n_estimators":100,
"max_features":6,
"max_depth":5
}

위에서 볼 수 있듯이 Python 사전과 매우 유사합니다. 그러나 사전과 달리 텍스트/문자열 형식의 데이터를 포함합니다. 또한 구문이 약간 다른 몇 가지 일반적인 데이터 유형이 있습니다. 예를 들어 부울 값은 false/true인 반면 Python은 False/True를 인식합니다. JSON에서 가능한 다른 값은 대괄호를 사용하여 Python 목록으로 표시되는 배열입니다.

Python에서 JSON 데이터 작업의 장점은 로드 메서드를 통해 Python 사전으로 변환할 수 있다는 것입니다.

f = open("options.json", "rb")
parameters = json.load(f)

특정 항목에 액세스하려면 대괄호 안에 해당 키 이름을 인용하면 됩니다:

if parameters["normalize"] == True:
 scaler = StandardScaler()
 X = scaler.fit_transform(X)
rf=RandomForestRegressor(n_estimators=parameters["n_estimators"],max_features=parameters["max_features"],max_depth=parameters["max_depth"],random_state=42)
model = rf.fit(X_train,y_train)
y_pred = model.predict(X_test)

YAML 파일 사용

Python 解析参数的三种方法

마지막 옵션은 YAML의 잠재력을 활용하는 것입니다. JSON 파일과 마찬가지로 Python 코드의 YAML 파일을 사전으로 읽어 하이퍼파라미터 값에 액세스합니다. YAML은 JSON 파일과 같이 괄호 대신 이중 공백 문자를 사용하여 계층 구조를 표현하는 사람이 읽을 수 있는 데이터 표현 언어입니다. 아래에서는 options.yaml 파일에 포함되는 내용을 보여줍니다.

normalize: True
n_estimators: 100
max_features: 6
max_depth: 5

train.py에서 options.yaml 파일을 엽니다. 이 파일은 항상 로드 메서드를 사용하여 Python 사전으로 변환되며 이번에는 yaml 라이브러리에서 가져옵니다.

import yaml
f = open('options.yaml','rb')
parameters = yaml.load(f, Loader=yaml.FullLoader)

전과 마찬가지로 사전에 필요한 구문을 사용하여 하이퍼파라미터의 값에 액세스할 수 있습니다.

최종 생각

프로필은 매우 빠르게 컴파일되는 반면, argparse는 추가하려는 각 인수에 대해 한 줄의 코드를 작성해야 합니다.

따라서 상황에 따라 가장 적합한 방법을 선택해야 합니다

예를 들어 매개변수에 주석을 추가해야 하는 경우 JSON은 주석을 허용하지 않기 때문에 적합하지 않지만 YAML과 argparse는 매우 적합할 수 있습니다.

위 내용은 Python에서 매개변수를 구문 분석하는 세 가지 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：Python 웹 크롤러를 사용하여 네트워크 데이터를 얻는 방법다음 기사：Python 웹 크롤러를 사용하여 네트워크 데이터를 얻는 방법