ramalan kerugian pelanggan syarikat telekomunikasi
Sumber data:
set data kehilangan pelanggan kaggle telekom
Perpustakaan kod github:
Telco Customer Churn -Github
Gambaran keseluruhan projek
Projek ini menggunakan teknologi pembelajaran mesin untuk meramalkan kehilangan pelanggan dalam syarikat telekomunikasi. Matlamat utama adalah untuk mengenal pasti model yang boleh menyebabkan pelanggan membatalkan perkhidmatan tersebut, membolehkan syarikat melaksanakan strategi pengekalan pelanggan yang aktif sebelum pelanggan menghentikan perkhidmatan.
Projek ini memberi tumpuan kepada penunjuk kadar penarikan balik.
Analisis Data Exploratory (EDA)
Dalam proses EDA, kami meneroka model kepekatan data untuk memahami faktor -faktor yang berkaitan dengan kehilangan pelanggan. Penemuan utama termasuk:
Kontrak bulanan dan kontrak panjang: kemungkinan kehilangan pelanggan kontrak bulanan lebih cenderung, yang menunjukkan bahawa kontrak panjang mungkin lebih kondusif untuk meningkatkan kesetiaan pelanggan.
Perkhidmatan nilai -nilai:
Kadar kehilangan pelanggan perkhidmatan yang dilanggan (seperti keselamatan dalam talian atau sokongan teknikal) sering rendah.
Penggunaan pelanggan masa dan yuran bulanan: - Pelanggan dengan penggunaan yang lebih lama menunjukkan kesetiaan yang lebih tinggi;
Padam lajur TotalCharges:
Oleh kerana lajur TotalCharges berkaitan dengan ketinggian masa penggunaan, ia boleh menjejaskan kestabilan model, jadi padamnya. -
Pemilihan Teknikal -
Mengapa memilih algoritma SVM?
- Sebab -sebab memilih mesin vektor sokongan (SVM) adalah seperti berikut:
Mengendalikan kecekapan set data kecil:
Untuk set data kira -kira 7,000 baris, SVM dapat menangkap mod kompleks dengan berkesan tanpa sebarang pemasangan.
Pilihan fungsi nuklear yang fleksibel:
dengan menggabungkan nukleus nuklear linear dan RBF, SVM dapat mengenal pasti hubungan linearity dan bukan linear melalui GridSearchCV.
Klasifikasi binari:
SVM sangat sesuai untuk masalah dua, matlamatnya adalah untuk meramalkan kehilangan pelanggan (ya atau tidak).
Langkah Pra -Processing:
MinMaxScaler: - model seperti SVM sensitif terhadap perbezaan skala. Permohonan untuk memancarkan pembolehubah berangka antara 0 dan 1.
kod (Onehotencoder):
Tukar pembolehubah klasifikasi ke pembolehubah maya. Ini memastikan bahawa kategori dinyatakan dengan betul dalam format yang dapat difahami oleh model. -
Segmentasi dan Pengesahan Data:
-
Set data dibahagikan kepada set latihan 70% dan set ujian 30%.
Gunakan pengesahan 50 % OFF untuk mengesahkan untuk memastikan kestabilan keputusan.
Proses Pembelajaran Mesin
-
Langkah -langkah adalah seperti berikut:
- Bahagian Set Data: berasingan kerana pembolehubah (kehilangan) dan pembolehubah bebas untuk memastikan segmentasi data yang betul bagi set latihan dan set ujian.
Pelarasan Super -Reuse SVM: - Dioptimumkan dengan GridSearchCV untuk pengoptimuman, pelarasan:
<:> C:
Parameter regularization, mengawal keseimbangan antara margin dan kesilapan. -
Fungsi teras: Menilai nukleus linear dan nukleus RBF.
-
Indeks Penilaian Model:
Gunakan model penilaian penunjuk berikut:
Kadar ketepatan: - Peratusan ramalan yang betul.
kadar ingat:
perkadaran kehilangan pelanggan (contoh sebenar). -
Ketepatan: Peratusan pelanggan kerugian yang diiktiraf dengan betul.
- Skor F1: Kesesuaian ketepatan dan kadar penarikan balik.
roc AUC: - Petunjuk pemodelan kategori keupayaan yang berlainan.
-
Hasil
-
Analisis Keputusan:
Walaupun ketepatannya sangat tinggi, tumpuan utama adalah pada kadar penarikan balik, mencapai 56%. Ini bermakna mengenal pasti kebanyakan pelanggan yang mungkin hilang, untuk mengambil langkah intervensi positif.
Pada masa akan datang, arah penambahbaikan
指标 |
值 |
准确率 |
80.81% |
召回率 |
56.09% |
精确率 |
74.35% |
F1 分数 |
63.95% |
ROC AUC |
85.42% |
Data luaran bersepadu:
Gunakan maklum balas kepuasan pelanggan (seperti NPS atau balasan tinjauan) dataset yang kaya.
termasuk petunjuk ekonomi atau serantau untuk mengenal pasti mod tertentu.
Cuba model lain:
ujian XGBOOST atau LightGBM dan model lain yang boleh mengendalikan interaksi kompleks dengan baik.
- pelaksanaan kepentingan ciri -ciri untuk mengoptimumkan pemilihan yang berubah -ubah.
- Automasi:
-
Membangunkan proses masa sebenar, dan gunakan model kemas kini data dengan kemas kini biasa.
Mengintegrasikan model ke dalam sistem CRM untuk mencapai langkah tempahan pelanggan automatik. -
Subdivisi Pelanggan: -
- Fokus kerja tempahan pelanggan difokuskan pada segmen pasaran pelanggan tinggi atau tinggi.
Reka bentuk strategi penahan pelanggan yang diperibadikan mengikut ciri -ciri pasaran.
-
eda.ipynb:
meneroka analisis data dan pendapat utama. -
pre_processing.py: data pra -proses dan skrip penukaran.
- ml_application.py:
Latihan pembelajaran mesin, pengesahan dan eksport hasil. -
config_template.py:
Pembolehubah persekitaran (data set data).
Maklumat Perhubungan:
Jika anda mempunyai sebarang pertanyaan atau peluang kerjasama, sila hubungi LinkedIn pada bila -bila masa.
Atas ialah kandungan terperinci Ramalan Churn - Syarikat Telco. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!