>백엔드 개발 >파이썬 튜토리얼 >Python을 사용하여 데이터 세트에서 데이터 교육 및 테스트를 분할하는 방법 알아보기

Python을 사용하여 데이터 세트에서 데이터 교육 및 테스트를 분할하는 방법 알아보기

DDD
DDD원래의
2024-10-30 10:57:02896검색

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

요약

이 글에서는 데이터 세트를 훈련 데이터와 테스트 데이터로 나누고 이 분할을 .pkl 파일에 저장하는 방법을 설명합니다. 이는 기계 학습 모델을 체계적으로 훈련하고 평가하는 데 필수적입니다. 이 프로세스에서는 sklearn 및 pickle 라이브러리를 사용하므로 향후 프로젝트에서 처리된 데이터를 재사용할 수 있습니다. 이 문서는 데이터 전처리에 대한 일련의 튜토리얼 중 다음 단계입니다.

다루는 주요 주제:

  • Google Colab에서 노트 준비
  • 데이터 세트를 훈련 데이터와 테스트 데이터로 분할
  • 나누기용 Python 코드에 대한 자세한 설명
  • 피클을 사용하여 분할을 .pkl 파일로 저장
  • 나중에 사용할 수 있도록 처리된 데이터를 저장하는 이점

중요: 이 기사를 따르려면 먼저 아래 기사를 제안된 순서대로 읽어보세요. 각 기사는 다음 기사를 이해하는 데 필요한 기초를 제공하므로 지금까지의 전체 워크플로를 이해할 수 있습니다.

1조: 기계 학습 적용: 분류 모델로 시작하기 가이드

2조: 머신러닝의 분류 탐구: 변수 유형

3조: Google Colab 살펴보기: 머신러닝 모델 코딩을 위한 동맹

4조: Google Colab에서 Python을 사용하여 데이터 탐색: Adult.csv 데이터세트를 사용한 실용 가이드

5조: LabelEncoder 및 OneHotEncoder를 사용한 예측자 및 클래스 분할과 범주형 속성 처리의 이해

6조: 데이터 확장: 효율적인 모델의 기초

소개

이 기사에서는 데이터 세트를 학습 및 테스트로 나누고 이 분할을 .pkl 파일에 저장하는 방법을 알아봅니다. 이 프로세스는 모델을 훈련하는 데 사용할 데이터와 성능을 평가하는 데 사용할 데이터를 명확하게 구분하는 데 필수적입니다.

Google Colab에서 프로세스 시작

먼저 이 노트 링크에 ​​접속하여 파일 > 드라이브에 사본을 저장하세요. 각 튜토리얼이 새 노트북을 생성하고 이 기사에 제시된 필수 코드만 추가하므로 새 게시물이 나올 때마다 데이터세트(adult.csv)를 다시 로드해야 한다는 점을 기억하세요. 지금까지 생성된 모든 코드. 노트북 사본은 Google Drive의 Colab Notebooks 폴더에 저장되어 프로세스를 체계적이고 지속적으로 유지합니다.

데이터 세트를 훈련과 테스트로 분할하는 이유는 무엇입니까?

데이터세트를 분할하는 것은 모든 머신러닝 프로젝트의 기본 단계입니다. 이를 통해 모델이 데이터의 일부로부터 '학습'(훈련)한 다음 이전에 볼 수 없었던 새로운 데이터에 대해 평가(테스트)할 수 있기 때문입니다. 이 연습은 모델의 일반화를 측정하는 데 필수적입니다. 모니터링을 용이하게 하기 위해 다음 변수를 사용합니다.

  • X_adult_treinamento: 예측 변수 훈련
  • X_adult_teste: 예측 변수 테스트
  • y_adult_treinamento: 훈련 목표 변수
  • y_adult_teste: 테스트 대상 변수

데이터 세트를 분할하는 Python 코드

다음은 학습 데이터와 테스트 데이터를 분할하는 Python 코드입니다.

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

아래 그림은 이전 코드와 실행 후 출력을 보여줍니다.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

코드 설명:

train_test_split: 데이터세트를 분할하는 sklearn 라이브러리의 함수
test_size=0.2: 데이터의 20%가 테스트용으로 예약되고 나머지 80%는 교육용으로 예약됨을 나타냅니다.
random_state=0: 분할이 항상 동일하도록 보장하여 각 실행에 대해 일관된 결과를 생성합니다.
shape: 분할 후 데이터의 형태를 확인하여 분할이 올바르게 발생했는지 확인합니다.

분할을 .pkl 파일로 저장

작업을 더 쉽게 하고 다양한 실행 간의 일관성을 보장하기 위해 학습 및 테스트 변수를 .pkl 파일에 저장합니다. 이를 통해 다시 분할할 필요 없이 필요할 때마다 데이터를 재사용할 수 있습니다.

pickle을 사용하여 변수를 저장하는 코드:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

노트북에 있는 Adult.pkl 파일을 보시려면 아래 그림과 같이 왼쪽 폴더 아이콘을 클릭하시면 됩니다.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

코드 설명:

pickle: 객체 직렬화에 사용되는 Python 라이브러리로, 복잡한 변수를 파일에 저장할 수 있습니다.
dump: 변수를 Adult.pkl이라는 파일에 저장합니다. 나중에 이 파일을 읽어 훈련과 테스트로 구분된 데이터 세트를 로드하고 워크플로우를 최적화할 것입니다.

결론

이 기사에서는 데이터 세트를 훈련 데이터와 테스트 데이터로 분할하고 .pkl 파일에 저장하는 방법을 배웠습니다. 이 프로세스는 기계 학습 프로젝트의 기본이며 체계적이고 효율적인 구조를 보장합니다. 다음 글에서는 Naive Bayes 알고리즘을 시작으로 Adult.pkl 파일을 활용하여 모델을 생성하여 계속 개발하는 방법을 다루겠습니다.

내가 추천하는 책

1. 데이터 과학자를 위한 실용 통계
2. 파이썬을 이용한 컴퓨팅 입문
3. 2041년: 인공지능이 향후 수십 년 동안 당신의 삶을 어떻게 변화시킬 것인가
4. 파이썬 집중강좌
5. 알고리즘 이해. 프로그래머와 호기심 많은 사람들을 위한 그림 가이드
6. 인공지능 - 이카푸
7. 인공 지능 소개 - 비기술적 접근 - Tom Taulli

새로운 킨들

저는 올해 출시된 새로운 Kindle에 대해 자세히 분석하여 디지털 리더를 위한 주요 혁신과 이점을 강조했습니다. 다음 링크에서 전문을 확인하세요: 디지털 독서의 매혹적인 세계: Kindle의 장점.

아마존 프라임

Amazon Prime에 가입하면 수천 편의 영화, 시리즈, 음악에 대한 무제한 액세스는 물론 빠른 배송으로 수백만 개의 제품에 대한 무료 배송을 포함한 일련의 이점을 얻을 수 있습니다. 또한 회원은 프라임 비디오, 프라임 뮤직, 프라임 리딩과 같은 서비스에 대한 독점 제안, 프로모션 조기 이용 및 혜택을 누릴 수 있어 쇼핑과 엔터테인먼트 경험이 훨씬 더 편리하고 풍부해집니다.

관심이 있으시면 인공지능과 컴퓨터 프로그래밍을 지속적으로 홍보하는 데 도움이 되는 AMAZON PRIME 링크를 이용하세요.

위 내용은 Python을 사용하여 데이터 세트에서 데이터 교육 및 테스트를 분할하는 방법 알아보기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.