顧客離れを予測するためのデシジョン ツリー分類子の例
概要
このプロジェクトでは、デシジョン ツリー分類子を使用して顧客の離脱 (顧客がサービスを離れるかどうか) を予測する方法を示します。このデータセットには、顧客が離脱するかどうかを予測することを目的として、年齢、月額料金、カスタマー サービスへの通話などの機能が含まれています。
モデルは Scikit-learn のデシジョン ツリー分類器を使用してトレーニングされ、コードはデシジョン ツリーを視覚化して、モデルがどのように意思決定を行っているかをよりよく理解します。
使用されている技術
- Python 3.x: モデルの構築に使用される主な言語。
- Pandas: データ操作とデータセットの処理用。
- Matplotlib: データ視覚化 (デシジョン ツリーのプロット) 用。
- Scikit-learn: モデルのトレーニングと評価を含む機械学習用。
手順の説明
1. 必要なライブラリをインポートします
import pandas as pd import matplotlib.pyplot as plt import warnings from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn import tree
-
パンダ (pd):
- これは、データ操作と DataFrame 形式へのデータのロードに使用されます。 DataFrame を使用すると、テーブル (行と列) のような構造化データを整理および操作できます。
-
Matplotlib (plt):
- これは、データを視覚化するために使用されるプロット ライブラリです。ここでは、デシジョン ツリーをグラフィカルにプロットするために使用されており、ツリーの各ノードで意思決定がどのように行われるかを理解するのに役立ちます。
-
警告 (警告):
- 警告モジュールは、警告を抑制または処理するために使用されます。このコードでは、出力をクリーンで読みやすい状態に保つために、不要な警告を無視しています。
-
Scikit-learn ライブラリ:
- train_test_split: この関数は、データセットをトレーニングとテストのサブセットに分割します。トレーニング データはモデルの適合に使用され、テスト データはパフォーマンスの評価に使用されます。
- DecisionTreeClassifier: これは、データを分類し、顧客離れを予測するために使用されるモデルです。デシジョン ツリーは、特徴に基づいて意思決定のツリー状モデルを作成することで機能します。
- accuracy_score: この関数は、予測値とターゲット変数 (チャーン) の実際の値を比較することによって、モデルの精度を計算します。
- tree: このモジュールには、トレーニング後のデシジョン ツリーを視覚化するための関数が含まれています。
2. 警告の抑制
import pandas as pd import matplotlib.pyplot as plt import warnings from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn import tree
- この行は、Python にすべての警告を無視するように指示します。これは、モデルを実行していて、警告 (非推奨の関数に関する警告など) によって出力が煩雑になることを望まない場合に役立ちます。
3. 合成データセットの作成
warnings.filterwarnings("ignore")
-
ここでは、プロジェクトの 合成データセット を作成します。このデータセットは、年齢、月次料金、CustomerServiceCalls、およびターゲット変数 Churn (顧客が解約したかどうか) などの機能を使用して、通信会社の顧客情報をシミュレートします。
- CustomerID: 各顧客の一意の識別子。
- 年齢: お客様の年齢
- MonthlyCharge: 顧客の毎月の請求書。
- CustomerServiceCalls: 顧客がカスタマー サービスに電話した回数。
- 解約: 顧客が解約したかどうか (はい/いいえ)。
Pandas DataFrame: データは、2 次元のラベル付きデータ構造である DataFrame (df) として構造化されており、データの操作と分析が容易になります。
4. データを特徴とターゲット変数に分割する
import pandas as pd import matplotlib.pyplot as plt import warnings from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn import tree
- 特徴 (X): ターゲットを予測するために使用される独立変数。この場合、Age、MonthlyCharge、CustomerServiceCalls が含まれます。
- ターゲット変数 (y): 従属変数。予測しようとしている値です。ここでは、顧客が離脱するかどうかを示す Churn 列です。
5. データをトレーニング セットとテスト セットに分割する
warnings.filterwarnings("ignore")
-
train_test_split は、データセットを 2 つの部分、トレーニング セット (モデルのトレーニングに使用される) と テスト セット (モデルの評価に使用される) に分割します。
- test_size=0.3: データの 30% がテスト用に確保され、残りの 70% がトレーニングに使用されます。
- random_state=42 は、乱数生成器のシードを固定することで結果の再現性を保証します。
6. デシジョン ツリー モデルのトレーニング
data = { 'CustomerID': range(1, 101), # Unique ID for each customer 'Age': [20, 25, 30, 35, 40, 45, 50, 55, 60, 65]*10, # Age of customers 'MonthlyCharge': [50, 60, 70, 80, 90, 100, 110, 120, 130, 140]*10, # Monthly bill amount 'CustomerServiceCalls': [1, 2, 3, 4, 0, 1, 2, 3, 4, 0]*10, # Number of customer service calls 'Churn': ['No', 'No', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'No', 'Yes']*10 # Churn status } df = pd.DataFrame(data) print(df.head())
- DecisionTreeClassifier() はデシジョン ツリー モデルを初期化します。
- clf.fit(X_train, y_train) は、トレーニング データを使用してモデルをトレーニングします。モデルは、X_train 特徴からパターンを学習して、y_train ターゲット変数を予測します。
7. 予測を立てる
X = df[['Age', 'MonthlyCharge', 'CustomerServiceCalls']] # Features y = df['Churn'] # Target Variable
- clf.predict(X_test): モデルがトレーニングされた後、テスト セット (X_test) で予測を行うために使用されます。これらの予測値は y_pred に保存され、実際の値 (y_test) と比較してモデルを評価します。
8. モデルの評価
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
- accuracy_score(y_test, y_pred) は、予測されたチャーン ラベル (y_pred) とテスト セットの実際のチャーン ラベル (y_test) を比較することにより、モデルの精度を計算します。
- 精度は、どれだけの予測が正しかったかを示す尺度です。評価用に印刷されます。
9. デシジョンツリーの視覚化
clf = DecisionTreeClassifier() clf.fit(X_train, y_train)
- tree.plot_tree(clf,filled=True): トレーニングされたデシジョン ツリー モデルを視覚化します。 filled=True 引数は、クラス ラベル (チャーン/チャーンなし) に基づいてノードを色付けします。
- feature_names: ツリーに表示する機能 (独立変数) の名前を指定します。
- class_names: ターゲット変数 (Churn) のクラス ラベルを指定します。
- plt.show(): ツリーの視覚化を表示します。
コードの実行
- リポジトリのクローンを作成するか、スクリプトをダウンロードします。
- 依存関係をインストールします。
import pandas as pd import matplotlib.pyplot as plt import warnings from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn import tree
- Python スクリプトまたは Jupyter ノートブックを実行してモデルをトレーニングし、デシジョン ツリーを視覚化します。
以上が顧客離れを予測するためのデシジョン ツリー分類子の例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find()、find_all()、select()、およびget_text()などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案(SEL

Pythonオブジェクトのシリアル化と脱介入は、非自明のプログラムの重要な側面です。 Pythonファイルに何かを保存すると、構成ファイルを読み取る場合、またはHTTPリクエストに応答する場合、オブジェクトシリアル化と脱滑り化を行います。 ある意味では、シリアル化と脱派化は、世界で最も退屈なものです。これらすべての形式とプロトコルを気にするのは誰ですか? Pythonオブジェクトを維持またはストリーミングし、後で完全に取得したいと考えています。 これは、概念レベルで世界を見るのに最適な方法です。ただし、実用的なレベルでは、選択したシリアル化スキーム、形式、またはプロトコルは、プログラムの速度、セキュリティ、メンテナンスの自由、およびその他の側面を決定する場合があります。

この記事では、深い学習のためにTensorflowとPytorchを比較しています。 関連する手順、データの準備、モデルの構築、トレーニング、評価、展開について詳しく説明しています。 特に計算グラップに関して、フレームワーク間の重要な違い

Pythonの統計モジュールは、強力なデータ統計分析機能を提供して、生物統計やビジネス分析などのデータの全体的な特性を迅速に理解できるようにします。データポイントを1つずつ見る代わりに、平均や分散などの統計を見て、無視される可能性のある元のデータの傾向と機能を発見し、大きなデータセットをより簡単かつ効果的に比較してください。 このチュートリアルでは、平均を計算し、データセットの分散の程度を測定する方法を説明します。特に明記しない限り、このモジュールのすべての関数は、単に平均を合計するのではなく、平均()関数の計算をサポートします。 浮動小数点数も使用できます。 ランダムをインポートします インポート統計 fractiから

このチュートリアルは、単純なツリーナビゲーションを超えたDOM操作に焦点を当てた、美しいスープの以前の紹介に基づいています。 HTML構造を変更するための効率的な検索方法と技術を探ります。 1つの一般的なDOM検索方法はExです

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。

この記事では、コマンドラインインターフェイス(CLI)の構築に関するPython開発者をガイドします。 Typer、Click、Argparseなどのライブラリを使用して、入力/出力の処理を強調し、CLIの使いやすさを改善するためのユーザーフレンドリーな設計パターンを促進することを詳述しています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

Dreamweaver Mac版
ビジュアル Web 開発ツール

ホットトピック



