Maison >développement back-end >Tutoriel Python >Des données aux stratégies : comment les statistiques peuvent conduire à des décisions marketing fiables
Les
statistiques sont un outil puissant qui nous permet d'aborder des problèmes complexes et de répondre aux questions qui se posent lors de l'observation de données ou de modèles pour la première fois. Un exemple pourrait être l’analyse de la personnalité des clients d’un supermarché. Des questions comme Ce groupe est-il vraiment différent des autres ? Dans quelle mesure ? Dois-je me concentrer davantage sur ce groupe pour améliorer leur expérience et mes ventes ?Ils sont essentiels pour prendre de bonnes décisions.
Bien que les visualisations puissent nous aider à comprendre rapidement les données, elles ne sont pas toujours fiables à 100 %. Nous avons pu observer des différences nettes entre les groupes, mais ces différences peuvent ne pas être statistiquement significatives.
C'est là que les statistiques entrent en jeu : non seulement elles nous aident à analyser les données plus en profondeur, mais elles nous donnent la confiance nécessaire pour valider nos hypothèses. En tant que data scientists ou professionnels décisionnels, nous devons être conscients que une analyse incorrecte peut conduire à de mauvaises décisions, entraînant une perte de temps et d'argent. Par conséquent, il est crucial que nos conclusions soient bien fondées et étayées par des preuves statistiques.
La vraie satisfaction vient lorsque nous voyons les résultats de notre analyse se refléter dans des changements efficaces au sein de l'entreprise, des améliorations de l'expérience client et, finalement, un impact positif sur les ventes et les opérations. C'est un sentiment incroyable d'avoir fait partie de ce processus !
Pour vous aider à développer cette compétence que nous développerons dans cet article dans Analyse de la personnalité des clients des supermarchés, nous utiliserons le jeu de données Kaggle Analyse de la personnalité des clients : https://www.kaggle.com/datasets/ imakash3011/analyse-de-personnalité-client
Dans cette analyse, nous explorerons le comportement des clients d'un supermarché dans le but d'extraire des informations précieuses à partir des données. Nous chercherons à répondre aux questions suivantes :
Bien que cette analyse puisse être approfondie beaucoup plus loin, nous nous concentrerons sur la réponse à ces trois questions, car elles offrent un grand pouvoir explicatif. Tout au long de l'article, nous vous montrerons comment nous pouvons répondre à ces questions et comment, grâce à la même approche, nous pourrions répondre à bien d'autres questions.
Dans cet article, nous explorerons les analyses statistiques telles que le test Kolmogorov-Smirnov, le test Levene, et comment savoir quand appliquer l'ANOVA ou Kruskal -Wallis. Ces noms vous semblent peut-être inconnus, mais ne vous inquiétez pas, je vais les expliquer de manière simple pour que vous les compreniez sans complications.
Nous importons les bibliothèques Python nécessaires.
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
Maintenant, nous pouvons choisir deux façons de télécharger le fichier .csv, nous récupérons directement le fichier ou nous pouvons obtenir le lien kaggle, directement sur le bouton de téléchargement.
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
Pour avoir une meilleure idée de l'ensemble de données que nous allons analyser, j'indiquerai la signification de chaque colonne.
Colonnes :
Personnes :
Produits :
Promotion :
Lieu :
Oui, il y a beaucoup de colonnes, cependant ici nous n'en utiliserons que quelques-unes, pour ne pas trop étendre, dans tous les cas vous pouvez appliquer les mêmes étapes pour les autres colonnes.
Maintenant, nous allons vérifier que nous n'avons pas de données nulles
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
Nous pouvons remarquer que nous avons 24 données nulles dans la colonne Revenu, cependant cette colonne ne sera pas utilisée dans cette analyse donc nous n'en ferons rien, au cas où vous souhaiteriez l'utiliser, vous devez vérifier effectuer l'une de ces deux options :
Nous conserverons les colonnes qui nous intéressent, comme l'éducation, les enfants, l'état civil, le montant des dépenses par catégorie de produits, entre autres.
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
Nous calculons la dépense totale en additionnant les dépenses de toutes les catégories de produits.
'marketing_campaign.csv'
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!