ホームページ >バックエンド開発 >Python チュートリアル >Python を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶ
この記事では、データセットをトレーニング データとテスト データに分割し、この分割を .pkl ファイルに保存する方法について説明します。これは、機械学習モデルを組織的にトレーニングおよび評価するために不可欠です。このプロセスでは sklearn ライブラリと pickle ライブラリを使用するため、処理されたデータを将来のプロジェクトで再利用できます。この記事は、データ前処理に関する一連のチュートリアルの次のステップです。
重要: この記事を進めるには、まず以下の記事を推奨される順序でお読みください。各記事は次の記事を理解するために必要な基礎を提供し、ここまでのワークフロー全体を確実に理解できます。
記事 1: 機械学習の適用: 分類モデルとして始めるためのガイド
記事 2: 機械学習における分類の探索: 変数のタイプ
記事 3: Google Colab の探索: 機械学習モデルのコーディングの味方
記事 4: Google Colab で Python を使用してデータを探索する: Adult.csv データセットを使用した実践ガイド
記事 5: LabelEncoder と OneHotEncoder を使用したプレディクター、クラス分割、カテゴリ属性の処理をわかりやすく説明する
第 6 条: データ スケーリング: 効率的なモデルの基礎
この記事では、データセットをトレーニングとテストに分割する方法と、この分割を .pkl ファイルに保存する方法を学びます。このプロセスは、モデルのトレーニングに使用されるデータとそのパフォーマンスの評価に使用されるデータを明確に分離するために不可欠です。
まず、このノートブックのリンクにアクセスし、ファイル > を選択します。 ドライブにコピーを保存。各チュートリアルでは新しいノートブックが作成され、この記事で紹介されている必要なコードのみが追加されますが、ノートブックにはこれまでに生成されたすべてのコード。ノートブックのコピーは Google ドライブの Colab Notebooks フォルダー内に保存され、プロセスが整理され継続的に行われます。
データセットの分割は、モデルがデータの一部から「学習」し (トレーニング)、これまでに見たことのない新しいデータで評価できるようにする (テスト) ため、あらゆる機械学習プロジェクトの基本的なステップです。この実践は、モデルの一般化を測定するために不可欠です。監視を容易にするために、次の変数を使用します:
以下は、トレーニング データとテスト データの分割を実行する Python コードです。
from sklearn.model_selection import train_test_split X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0) # Dados para o treinamento X_adult_treinamento.shape, y_adult_treinamento.shape # Dados para o teste X_adult_teste.shape, y_adult_teste.shape
下の図は、前のコードと実行後の出力を示しています。
train_test_split: データセットを分割する sklearn ライブラリの関数。
test_size=0.2: データの 20% がテスト用に予約され、残りの 80% がトレーニング用に予約されることを示します。
random_state=0: 除算が常に同じであることを保証し、実行ごとに一貫した結果を生成します。
shape: 分割後のデータの形状をチェックして、分割が正しく行われたことを確認します。
作業を容易にし、異なる実行間の一貫性を確保するために、トレーニング変数とテスト変数を .pkl ファイルに保存します。これにより、分割を再度行うことなく、必要なときにいつでもデータを再利用できるようになります。
pickle を使用して変数を保存するコード:
import pickle with open('adult.pkl', mode='wb') as fl: pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)
ノートブック上の Adult.pkl ファイルを表示するには、下の図に示すように、左側にあるフォルダー アイコンをクリックするだけです。
pickle: オブジェクトをシリアル化するために使用される Python ライブラリ。これにより、複雑な変数をファイルに保存できます。
dump: 変数を Adult.pkl というファイルに保存します。このファイルは今後読み取られて、トレーニングとテストに分割されたデータセットを読み込み、ワークフローを最適化します。
この記事では、データセットをトレーニング データとテスト データに分割し、.pkl ファイルに保存する方法を学びました。このプロセスは機械学習プロジェクトの基本であり、組織的かつ効率的な構造を確保します。次の記事では、Naive Bayes アルゴリズムから始めて、開発を続けるために Adult.pkl ファイルを使用したモデルの作成について説明します。
1.データサイエンティストのための実践的な統計
2. Python を使用したコンピューティングの概要
3. 2041年: 人工知能は今後数十年であなたの生活をどう変える
4. Python集中コース
5. アルゴリズムを理解する。プログラマーや興味のある人のための図解ガイド
6. 人工知能 - Kai-Fu Lee
7. 人工知能入門 - 非技術的なアプローチ - Tom Taulli
私は今年発売された新しい Kindle を詳細に分析し、主な革新性とデジタル読者にとっての利点を強調しました。次のリンクで全文を確認してください: デジタル読書の魅力的な世界: Kindle を持つ利点.
Amazon プライムに参加すると、何千もの映画、シリーズ、音楽への無制限のアクセスや、何百万もの商品の送料無料、短納期など、一連の利点が得られます。メンバーはまた、Prime Video、Prime Music、Prime Reading などのサービスで限定オファー、プロモーションや特典への早期アクセスを享受し、ショッピングやエンターテイメントの体験をさらに便利で豊かなものにします。
ご興味がございましたら、次のリンクをご利用ください: AMAZON PRIME は、人工知能とコンピューター プログラミングの推進を継続するのに役立ちます。
以上がPython を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。