머신러닝은 빠르게 발전하는 분야로, 새로운 기술과 알고리즘이 끊임없이 등장하고 있습니다. 그러나 기계 학습 모델을 만들고 강화하는 것은 시간이 많이 걸리고 높은 수준의 전문 지식이 필요한 어려운 작업일 수 있습니다. autoML이라고도 하는 자동화된 기계 학습은 기능 엔지니어링, 초매개변수 조정, 모델 선택과 같은 지루한 작업 중 일부를 자동화하여 기계 학습 모델을 생성하고 최적화하는 프로세스를 단순화하는 것을 목표로 합니다.
auto-sklearn은 Python에서 가장 유명한 기계 학습 라이브러리 중 하나인 scikit-learn을 기반으로 구축된 강력한 오픈 소스 자동화 기계 학습 프레임워크입니다. 베이지안 최적화 및 메타 학습을 통해 특정 데이터 세트에서 잠재적인 기계 학습 파이프라인을 자동으로 검색하고 최상의 모델과 하이퍼 매개 변수를 자동으로 식별합니다. 이 튜토리얼에서는 설치, 데이터 가져오기, 데이터 준비, 모델 생성 및 훈련, 모델 효과 평가에 대한 지침을 포함하여 Python에서 Auto-sklearn의 사용법을 소개합니다. 초보자도 Auto-sklearn을 사용하여 강력한 기계 학습 모델을 빠르고 쉽게 만들 수 있습니다.
효율적인 오픈 소스 소프트웨어 프로그램인 Auto-sklearn을 사용하여 기계 학습 모델의 생성 및 지속적인 개선을 자동화합니다. 잘 알려진 기계 학습 프로그램인 scikit-learn을 기반으로 하는 베이지안 최적화 및 메타 학습을 사용하여 특정 데이터 세트에 대한 이상적인 모델과 하이퍼 매개 변수를 자동으로 찾습니다.
분류 및 회귀 문제를 위해 autosklearn에서 만든 애플리케이션 중 일부에만 자연어 처리, 이미지 분류 및 시계열 예측이 포함됩니다.
라이브러리는 기능 엔지니어링, 모델 선택, 데이터 준비 프로세스를 포함한 잠재적인 기계 학습 프로세스 모음을 검색하여 작동합니다. 베이지안 최적화를 사용하여 이 공간을 효율적으로 검색하고 메타 학습을 통해 이전 테스트에서 검색 효율성을 지속적으로 향상시킵니다.
또한 Auto-sklearn은 동적 앙상블 선택, 자동 모델 통합 및 활성 학습을 포함한 일련의 강력한 기능도 제공합니다. 또한 모델 개발, 테스트 및 교육을 위해 사용하기 쉬운 API를 제공합니다.
이제 Auto-sklearn을 사용하여 AutoML 코드를 더 자세히 살펴보겠습니다. 우리는 손으로 쓴 숫자 데이터세트인 scikit-learn의 Digits 데이터세트를 사용할 것입니다. 숫자 사진에서 숫자를 예측하는 것이 목표입니다. 코드는 다음과 같습니다 -
이 프로그램은 AutoML(자동 기계 학습)을 사용하여 Auto-sklearn 모듈 사용을 포함하여 MNIST 데이터 세트에서 필기 숫자를 분류합니다. 다음은 코드에 대한 간략한 개요입니다 −
autosklearn.classification 모듈에서 AutoSklearnClassifier 클래스를 가져옵니다. 이 클래스에는 사용할 AutoML 분류 모델이 포함되어 있습니다.
sklearn.datasets에서 load_digits 함수 가져오기: sklearn.datasets 패키지에서 MNIST 데이터세트의 load_digits 함수를 가져옵니다.
sklearn에서 모델을 선택하세요. MNIST 데이터 세트는 여기에서 가져온 sklearn.model 선택 모듈의 열차 테스트 분할 기능을 사용하여 훈련 세트와 테스트 세트로 구분됩니다.
MNIST 데이터 세트가 로드되고 입력 기능이 X에 저장되고 해당 레이블이 y에 저장됩니다. X, y = load_digits(return_X_y=True): MNIST 데이터세트를 로드합니다.
X 훈련 세트, 재현성을 보장하기 위해 시드를 1로 설정
.
먼저 pandas, numpy, sklearn, tpot 등 필수 라이브러리를 코드로 가져옵니다. Sklearn은 데이터 전처리, 모델 선택 및 평가와 같은 기계 학습 작업에 사용되고, Pandas는 데이터 조작에, NumPy는 수치 계산에 사용됩니다. AutoML 알고리즘을 구현하는 기본 라이브러리는 TPOT입니다.
그런 다음 pandas의 read_csv 함수를 사용하여 데이터 세트를 로드하고 입력 기능과 출력 레이블을 다른 변수에 별도로 저장합니다. 'y' 변수는 출력의 레이블을 보유하고 'X' 변수는 입력의 특징을 저장합니다.
데이터를 맞추고 기계 학습 모델을 생성하기 위해 코드는 먼저 데이터 세트를 로드한 다음 TPOTRegressor 클래스의 인스턴스를 만듭니다. TPOTSRegressor 클래스는 TPOTBase 클래스의 하위 클래스이며 유전 알고리즘을 사용하여 기능을 선택하고 하이퍼 매개변수를 조정합니다. TPOTRegressor 클래스는 회귀 문제를 처리하고 TPOTClassifier 클래스는 분류 문제를 처리합니다.
Sklearn의 훈련-테스트-분할 방법을 사용하여 데이터 세트를 훈련 세트와 테스트 세트로 분할합니다. 기계 학습에서는 데이터를 모델 피팅을 위한 훈련 세트와 모델 성능 평가를 위한 테스트 세트의 두 세트로 분할하는 것이 일반적인 관행입니다.
데이터가 분할되면 훈련 데이터를 기반으로 모델을 조정하는 TPOTRegressor 인스턴스의 맞춤 메서드가 호출됩니다. Fit 기술을 사용하면 유전 알고리즘을 사용하여 주어진 데이터에 대한 최적의 특징 하위 집합과 하이퍼 매개변수를 찾습니다. 그러면 가장 좋은 모델이 반환됩니다.
그런 다음 코드는 채점 방법을 사용하여 테스트 세트에서 모델 성능을 평가하여 모델의 정확성을 결정합니다. 정확도 점수는 모델이 데이터에 얼마나 잘 맞는지를 나타내며, 값이 1에 가까울수록 더 잘 맞는다는 것을 나타냅니다.
그런 다음 내보내기 기능을 사용하여 테스트 세트의 정확도 점수와 함께 최상의 모델을 Python 파일로 내보냅니다.
요약하자면 Auto-sklearn은 기계 학습 모델을 생성하고 개선하는 프로세스를 단순화하는 강력한 라이브러리입니다. 주어진 데이터세트에 가장 적합한 모델과 하이퍼파라미터를 자동으로 찾아 시간과 노력을 절약합니다. 이 튜토리얼에서는 설치, 데이터 가져오기, 데이터 준비, 모델 생성 및 훈련, 모델 성능 평가에 대한 지침을 포함하여 Python에서 Auto-sklearn을 사용하는 방법을 설명합니다. 초보자라도 Auto-sklearn을 사용하여 강력한 기계 학습 모델을 빠르고 쉽게 만들 수 있습니다.
위 내용은 자동 기계 학습 Python과 동등한 코드 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!