顧客離れを予測するためのデシジョンツリー分類子の例-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

顧客離れを予測するためのデシジョンツリー分類子の例

Linda Hamilton

Dec 10, 2024 pm 01:30 PM

Decision Tree Classifier Example to Predict Customer Churn

顧客離れを予測するためのデシジョンツリー分類子の例

概要

このプロジェクトでは、デシジョンツリー分類子を使用して顧客の離脱 (顧客がサービスを離れるかどうか) を予測する方法を示します。このデータセットには、顧客が離脱するかどうかを予測することを目的として、年齢、月額料金、カスタマーサービスへの通話などの機能が含まれています。

モデルは Scikit-learn のデシジョンツリー分類器を使用してトレーニングされ、コードはデシジョンツリーを視覚化して、モデルがどのように意思決定を行っているかをよりよく理解します。

使用されている技術

Python 3.x: モデルの構築に使用される主な言語。
Pandas: データ操作とデータセットの処理用。
Matplotlib: データ視覚化 (デシジョンツリーのプロット) 用。
Scikit-learn: モデルのトレーニングと評価を含む機械学習用。

手順の説明

1. 必要なライブラリをインポートします

import pandas as pd
import matplotlib.pyplot as plt
import warnings
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn import tree

パンダ (pd):
- これは、データ操作と DataFrame 形式へのデータのロードに使用されます。 DataFrame を使用すると、テーブル (行と列) のような構造化データを整理および操作できます。
Matplotlib (plt):
- これは、データを視覚化するために使用されるプロットライブラリです。ここでは、デシジョンツリーをグラフィカルにプロットするために使用されており、ツリーの各ノードで意思決定がどのように行われるかを理解するのに役立ちます。
警告 (警告):
- 警告モジュールは、警告を抑制または処理するために使用されます。このコードでは、出力をクリーンで読みやすい状態に保つために、不要な警告を無視しています。
Scikit-learn ライブラリ:
- train_test_split: この関数は、データセットをトレーニングとテストのサブセットに分割します。トレーニングデータはモデルの適合に使用され、テストデータはパフォーマンスの評価に使用されます。
- DecisionTreeClassifier: これは、データを分類し、顧客離れを予測するために使用されるモデルです。デシジョンツリーは、特徴に基づいて意思決定のツリー状モデルを作成することで機能します。
- accuracy_score: この関数は、予測値とターゲット変数 (チャーン) の実際の値を比較することによって、モデルの精度を計算します。
- tree: このモジュールには、トレーニング後のデシジョンツリーを視覚化するための関数が含まれています。

2. 警告の抑制

import pandas as pd
import matplotlib.pyplot as plt
import warnings
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn import tree

この行は、Python にすべての警告を無視するように指示します。これは、モデルを実行していて、警告 (非推奨の関数に関する警告など) によって出力が煩雑になることを望まない場合に役立ちます。

3. 合成データセットの作成

warnings.filterwarnings("ignore")

ここでは、プロジェクトの 合成データセット を作成します。このデータセットは、年齢、月次料金、CustomerServiceCalls、およびターゲット変数 Churn (顧客が解約したかどうか) などの機能を使用して、通信会社の顧客情報をシミュレートします。
- CustomerID: 各顧客の一意の識別子。
- 年齢: お客様の年齢
- MonthlyCharge: 顧客の毎月の請求書。
- CustomerServiceCalls: 顧客がカスタマーサービスに電話した回数。
- 解約: 顧客が解約したかどうか (はい/いいえ)。
Pandas DataFrame: データは、2 次元のラベル付きデータ構造である DataFrame (df) として構造化されており、データの操作と分析が容易になります。

4. データを特徴とターゲット変数に分割する

import pandas as pd
import matplotlib.pyplot as plt
import warnings
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn import tree

特徴 (X): ターゲットを予測するために使用される独立変数。この場合、Age、MonthlyCharge、CustomerServiceCalls が含まれます。
ターゲット変数 (y): 従属変数。予測しようとしている値です。ここでは、顧客が離脱するかどうかを示す Churn 列です。

5. データをトレーニングセットとテストセットに分割する

warnings.filterwarnings("ignore")

train_test_split は、データセットを 2 つの部分、トレーニングセット (モデルのトレーニングに使用される) と テストセット (モデルの評価に使用される) に分割します。
- test_size=0.3: データの 30% がテスト用に確保され、残りの 70% がトレーニングに使用されます。
- random_state=42 は、乱数生成器のシードを固定することで結果の再現性を保証します。

6. デシジョンツリーモデルのトレーニング

data = {
    'CustomerID': range(1, 101),  # Unique ID for each customer
    'Age': [20, 25, 30, 35, 40, 45, 50, 55, 60, 65]*10,  # Age of customers
    'MonthlyCharge': [50, 60, 70, 80, 90, 100, 110, 120, 130, 140]*10,  # Monthly bill amount
    'CustomerServiceCalls': [1, 2, 3, 4, 0, 1, 2, 3, 4, 0]*10,  # Number of customer service calls
    'Churn': ['No', 'No', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'No', 'Yes']*10  # Churn status
}

df = pd.DataFrame(data)
print(df.head())

DecisionTreeClassifier() はデシジョンツリーモデルを初期化します。
clf.fit(X_train, y_train) は、トレーニングデータを使用してモデルをトレーニングします。モデルは、X_train 特徴からパターンを学習して、y_train ターゲット変数を予測します。

7. 予測を立てる

X = df[['Age', 'MonthlyCharge', 'CustomerServiceCalls']]  # Features
y = df['Churn']  # Target Variable

clf.predict(X_test): モデルがトレーニングされた後、テストセット (X_test) で予測を行うために使用されます。これらの予測値は y_pred に保存され、実際の値 (y_test) と比較してモデルを評価します。

8. モデルの評価

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

accuracy_score(y_test, y_pred) は、予測されたチャーンラベル (y_pred) とテストセットの実際のチャーンラベル (y_test) を比較することにより、モデルの精度を計算します。
精度は、どれだけの予測が正しかったかを示す尺度です。評価用に印刷されます。

9. デシジョンツリーの視覚化

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

tree.plot_tree(clf,filled=True): トレーニングされたデシジョンツリーモデルを視覚化します。 filled=True 引数は、クラスラベル (チャーン/チャーンなし) に基づいてノードを色付けします。
feature_names: ツリーに表示する機能 (独立変数) の名前を指定します。
class_names: ターゲット変数 (Churn) のクラスラベルを指定します。
plt.show(): ツリーの視覚化を表示します。

コードの実行

リポジトリのクローンを作成するか、スクリプトをダウンロードします。
依存関係をインストールします。

import pandas as pd
import matplotlib.pyplot as plt
import warnings
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn import tree

Python スクリプトまたは Jupyter ノートブックを実行してモデルをトレーニングし、デシジョンツリーを視覚化します。

以上が顧客離れを予測するためのデシジョンツリー分類子の例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は？Apr 01, 2025 pm 05:09 PM

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

HTMLを解析するために美しいスープを使用するにはどうすればよいですか？Mar 10, 2025 pm 06:54 PM

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find（）、find_all（）、select（）、およびget_text（）などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案（SEL

Pythonオブジェクトのシリアル化と脱介入：パート1Mar 08, 2025 am 09:39 AM

Pythonオブジェクトのシリアル化と脱介入は、非自明のプログラムの重要な側面です。 Pythonファイルに何かを保存すると、構成ファイルを読み取る場合、またはHTTPリクエストに応答する場合、オブジェクトシリアル化と脱滑り化を行います。ある意味では、シリアル化と脱派化は、世界で最も退屈なものです。これらすべての形式とプロトコルを気にするのは誰ですか？ Pythonオブジェクトを維持またはストリーミングし、後で完全に取得したいと考えています。これは、概念レベルで世界を見るのに最適な方法です。ただし、実用的なレベルでは、選択したシリアル化スキーム、形式、またはプロトコルは、プログラムの速度、セキュリティ、メンテナンスの自由、およびその他の側面を決定する場合があります。

TensorflowまたはPytorchで深い学習を実行する方法は？Mar 10, 2025 pm 06:52 PM

この記事では、深い学習のためにTensorflowとPytorchを比較しています。関連する手順、データの準備、モデルの構築、トレーニング、評価、展開について詳しく説明しています。特に計算グラップに関して、フレームワーク間の重要な違い

Pythonの数学モジュール：統計Mar 09, 2025 am 11:40 AM

Pythonの統計モジュールは、強力なデータ統計分析機能を提供して、生物統計やビジネス分析などのデータの全体的な特性を迅速に理解できるようにします。データポイントを1つずつ見る代わりに、平均や分散などの統計を見て、無視される可能性のある元のデータの傾向と機能を発見し、大きなデータセットをより簡単かつ効果的に比較してください。このチュートリアルでは、平均を計算し、データセットの分散の程度を測定する方法を説明します。特に明記しない限り、このモジュールのすべての関数は、単に平均を合計するのではなく、平均（）関数の計算をサポートします。浮動小数点数も使用できます。ランダムをインポートしますインポート統計 fractiから

美しいスープでPythonでWebページを削る：検索とDOMの変更Mar 08, 2025 am 10:36 AM

このチュートリアルは、単純なツリーナビゲーションを超えたDOM操作に焦点を当てた、美しいスープの以前の紹介に基づいています。 HTML構造を変更するための効率的な検索方法と技術を探ります。 1つの一般的なDOM検索方法はExです

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。

Pythonでコマンドラインインターフェイス（CLI）を作成する方法は？Mar 10, 2025 pm 06:48 PM

この記事では、コマンドラインインターフェイス（CLI）の構築に関するPython開発者をガイドします。 Typer、Click、Argparseなどのライブラリを使用して、入力/出力の処理を強調し、CLIの使いやすさを改善するためのユーザーフレンドリーな設計パターンを促進することを詳述しています。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。