ホームページ >バックエンド開発 >Python チュートリアル >Python を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶ

Python を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶ

DDD
DDDオリジナル
2024-10-30 10:57:02910ブラウズ

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

まとめ

この記事では、データセットをトレーニング データとテスト データに分割し、この分割を .pkl ファイルに保存する方法について説明します。これは、機械学習モデルを組織的にトレーニングおよび評価するために不可欠です。このプロセスでは sklearn ライブラリと pickle ライブラリを使用するため、処理されたデータを将来のプロジェクトで再利用できます。この記事は、データ前処理に関する一連のチュートリアルの次のステップです。

取り上げる主なトピック:

  • Google Colab でノートブックを準備
  • データセットをトレーニング データとテスト データに分割する
  • 除算のPythonコードの詳細説明
  • pickle を使用して分割を .pkl ファイルに保存する
  • 将来の使用のために処理済みデータを保存する利点

重要: この記事を進めるには、まず以下の記事を推奨される順序でお読みください。各記事は次の記事を理解するために必要な基礎を提供し、ここまでのワークフロー全体を確実に理解できます。

記事 1: 機械学習の適用: 分類モデルとして始めるためのガイド

記事 2: 機械学習における分類の探索: 変数のタイプ

記事 3: Google Colab の探索: 機械学習モデルのコーディングの味方

記事 4: Google Colab で Python を使用してデータを探索する: Adult.csv データセットを使用した実践ガイド

記事 5: LabelEncoder と OneHotEncoder を使用したプレディクター、クラス分割、カテゴリ属性の処理をわかりやすく説明する

第 6 条: データ スケーリング: 効率的なモデルの基礎

導入

この記事では、データセットをトレーニングとテストに分割する方法と、この分割を .pkl ファイルに保存する方法を学びます。このプロセスは、モデルのトレーニングに使用されるデータとそのパフォーマンスの評価に使用されるデータを明確に分離するために不可欠です。

Google Colab でプロセスを開始する

まず、このノートブックのリンクにアクセスし、ファイル > を選択します。 ドライブにコピーを保存。各チュートリアルでは新しいノートブックが作成され、この記事で紹介されている必要なコードのみが追加されますが、ノートブックにはこれまでに生成されたすべてのコード。ノートブックのコピーは Google ドライブの Colab Notebooks フォルダー内に保存され、プロセスが整理され継続的に行われます。

データセットをトレーニングとテストに分割するのはなぜでしょうか?

データセットの分割は、モデルがデータの一部から「学習」し (トレーニング)、これまでに見たことのない新しいデータで評価できるようにする (テスト) ため、あらゆる機械学習プロジェクトの基本的なステップです。この実践は、モデルの一般化を測定するために不可欠です。監視を容易にするために、次の変数を使用します:

  • X_social_treinamento: 予測子変数のトレーニング
  • X_social_teste: 予測子変数をテストします
  • y_social_treinamento: トレーニング対象変数
  • y_social_teste: テスト対象変数

データセットを分割するための Python コード

以下は、トレーニング データとテスト データの分割を実行する Python コードです。

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

下の図は、前のコードと実行後の出力を示しています。

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

コードの説明:

train_test_split: データセットを分割する sklearn ライブラリの関数。
test_size=0.2: データの 20% がテスト用に予約され、残りの 80% がトレーニング用に予約されることを示します。
random_state=0: 除算が常に同じであることを保証し、実行ごとに一貫した結果を生成します。
shape: 分割後のデータの形状をチェックして、分割が正しく行われたことを確認します。

分割を .pkl ファイルに保存する

作業を容易にし、異なる実行間の一貫性を確保するために、トレーニング変数とテスト変数を .pkl ファイルに保存します。これにより、分割を再度行うことなく、必要なときにいつでもデータを再利用できるようになります。

pickle を使用して変数を保存するコード:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

ノートブック上の Adult.pkl ファイルを表示するには、下の図に示すように、左側にあるフォルダー アイコンをクリックするだけです。

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

コードの説明:

pickle: オブジェクトをシリアル化するために使用される Python ライブラリ。これにより、複雑な変数をファイルに保存できます。
dump: 変数を Adult.pkl というファイルに保存します。このファイルは今後読み取られて、トレーニングとテストに分割されたデータセットを読み込み、ワークフローを最適化します。

結論

この記事では、データセットをトレーニング データとテスト データに分割し、.pkl ファイルに保存する方法を学びました。このプロセスは機械学習プロジェクトの基本であり、組織的かつ効率的な構造を確保します。次の記事では、Naive Bayes アルゴリズムから始めて、開発を続けるために Adult.pkl ファイルを使用したモデルの作成について説明します。

私がお勧めする本

1.データサイエンティストのための実践的な統計
2. Python を使用したコンピューティングの概要
3. 2041年: 人工知能は今後数十年であなたの生活をどう変える
4. Python集中コース
5. アルゴリズムを理解する。プログラマーや興味のある人のための図解ガイド
6. 人工知能 - Kai-Fu Lee
7. 人工知能入門 - 非技術的なアプローチ - Tom Taulli

新しい Kindle

私は今年発売された新しい Kindle を詳細に分析し、主な革新性とデジタル読者にとっての利点を強調しました。次のリンクで全文を確認してください: デジタル読書の魅力的な世界: Kindle を持つ利点.

アマゾンプライム

Amazon プライムに参加すると、何千もの映画、シリーズ、音楽への無制限のアクセスや、何百万もの商品の送料無料、短納期など、一連の利点が得られます。メンバーはまた、Prime Video、Prime Music、Prime Reading などのサービスで限定オファー、プロモーションや特典への早期アクセスを享受し、ショッピングやエンターテイメントの体験をさらに便利で豊かなものにします。

ご興味がございましたら、次のリンクをご利用ください: AMAZON PRIME は、人工知能とコンピューター プログラミングの推進を継続するのに役立ちます。

以上がPython を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。