Maison >développement back-end >Tutoriel Python >Des données aux stratégies : comment les statistiques peuvent conduire à des décisions marketing fiables

Des données aux stratégies : comment les statistiques peuvent conduire à des décisions marketing fiables

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-12-05 04:25:11367parcourir

Les

statistiques sont un outil puissant qui nous permet d'aborder des problèmes complexes et de répondre aux questions qui se posent lors de l'observation de données ou de modèles pour la première fois. Un exemple pourrait être l’analyse de la personnalité des clients d’un supermarché. Des questions comme Ce groupe est-il vraiment différent des autres ? Dans quelle mesure ? Dois-je me concentrer davantage sur ce groupe pour améliorer leur expérience et mes ventes ?Ils sont essentiels pour prendre de bonnes décisions.

Bien que les visualisations puissent nous aider à comprendre rapidement les données, elles ne sont pas toujours fiables à 100 %. Nous avons pu observer des différences nettes entre les groupes, mais ces différences peuvent ne pas être statistiquement significatives.

C'est là que les statistiques entrent en jeu : non seulement elles nous aident à analyser les données plus en profondeur, mais elles nous donnent la confiance nécessaire pour valider nos hypothèses. En tant que data scientists ou professionnels décisionnels, nous devons être conscients que une analyse incorrecte peut conduire à de mauvaises décisions, entraînant une perte de temps et d'argent. Par conséquent, il est crucial que nos conclusions soient bien fondées et étayées par des preuves statistiques.

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

La vraie satisfaction vient lorsque nous voyons les résultats de notre analyse se refléter dans des changements efficaces au sein de l'entreprise, des améliorations de l'expérience client et, finalement, un impact positif sur les ventes et les opérations. C'est un sentiment incroyable d'avoir fait partie de ce processus !


Pour vous aider à développer cette compétence que nous développerons dans cet article dans Analyse de la personnalité des clients des supermarchés, nous utiliserons le jeu de données Kaggle Analyse de la personnalité des clients : https://www.kaggle.com/datasets/ imakash3011/analyse-de-personnalité-client

Dans cette analyse, nous explorerons le comportement des clients d'un supermarché dans le but d'extraire des informations précieuses à partir des données. Nous chercherons à répondre aux questions suivantes :

  • Y a-t-il une différence significative dans les dépenses totales par Éducation ?
  • Y a-t-il une différence significative dans les dépenses totales selon le Nombre d'enfants ?
  • Y a-t-il une différence significative dans les dépenses totales selon État civil ?

Bien que cette analyse puisse être approfondie beaucoup plus loin, nous nous concentrerons sur la réponse à ces trois questions, car elles offrent un grand pouvoir explicatif. Tout au long de l'article, nous vous montrerons comment nous pouvons répondre à ces questions et comment, grâce à la même approche, nous pourrions répondre à bien d'autres questions.

Dans cet article, nous explorerons les analyses statistiques telles que le test Kolmogorov-Smirnov, le test Levene, et comment savoir quand appliquer l'ANOVA ou Kruskal -Wallis. Ces noms vous semblent peut-être inconnus, mais ne vous inquiétez pas, je vais les expliquer de manière simple pour que vous les compreniez sans complications.

Ensuite, je vais vous montrer le code Python et les étapes à suivre pour effectuer efficacement ces analyses statistiques.

1. Pour commencer

Nous importons les bibliothèques Python nécessaires.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

Maintenant, nous pouvons choisir deux façons de télécharger le fichier .csv, nous récupérons directement le fichier ou nous pouvons obtenir le lien kaggle, directement sur le bouton de téléchargement.

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os
#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)
#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo
ID Year_Birth Education Marital_Status Income Kidhome Teenhome Dt_Customer Recency MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts MntGoldProds NumDealsPurchases NumWebPurchases NumCatalogPurchases NumStorePurchases NumWebVisitsMonth AcceptedCmp3 AcceptedCmp4 AcceptedCmp5 AcceptedCmp1 AcceptedCmp2 Complain Z_CostContact Z_Revenue Response
0 5524 1957 Graduation Single 58138.0 0 0 04-09-2012 58 635 88 546 172 88 88 3 8 10 4 7 0 0 0 0 0 0 3 11 1
1 2174 1954 Graduation Single 46344.0 1 1 08-03-2014 38 11 1 6 2 1 6 2 1 1 2 5 0 0 0 0 0 0 3 11 0
2 4141 1965 Graduation Together 71613.0 0 0 21-08-2013 26 426 49 127 111 21 42 1 8 2 10 4 0 0 0 0 0 0 3 11 0

Pour avoir une meilleure idée de l'ensemble de données que nous allons analyser, j'indiquerai la signification de chaque colonne.

Colonnes :

  • Personnes :

    • ID : identifiant unique du client
    • Année_Birth :année de naissance du client.
    • Éducation : niveau d'éducation du client.
    • Marital_Status : état civil du client
    • Revenu :revenu annuel du foyer du client
    • Kidhome : Nombre d'enfants au domicile du client
    • Teenhome : Nombre d'adolescents au domicile du client
    • Dt_Client :Date d'inscription du client dans l'entreprise
    • Récence : nombre de jours depuis le dernier achat du client.
    • Réclamation : 1 si le client s'est plaint au cours des 2 dernières années, 0 sinon
  • Produits :

    • MntWines : Montant dépensé en vin au cours des 2 dernières années.
    • MntFruits : Montant dépensé en fruits au cours des 2 dernières années.
    • MntMeatProducts : Montant dépensé en viande au cours des 2 dernières années.
    • MntFishProducts : montant dépensé en poisson au cours des 2 dernières années.
    • MntSweetProducts : montant dépensé en sucreries au cours des 2 dernières années.
    • MntGoldProds : montant dépensé en or au cours des 2 dernières années.
  • Promotion :

    • NumDealsPurchases : Nombre d'achats effectués avec une réduction.
    • AcceptedCmp1 : 1 si le client a accepté l'offre lors de la première campagne, 0 sinon.
    • AcceptedCmp2 : 1 si le client a accepté l'offre lors de la deuxième campagne, 0 sinon.
    • AcceptedCmp3 : 1 si le client a accepté l'offre lors de la troisième campagne, 0 sinon.
    • AcceptedCmp4 : 1 si le client a accepté l'offre lors de la quatrième campagne, 0 sinon.
    • AcceptedCmp5 : 1 si le client a accepté l'offre lors de la cinquième campagne, 0 sinon.
    • Réponse : 1 si le client a accepté l'offre lors de la dernière campagne, 0 sinon
  • Lieu :

    • NumWebPurchases : Nombre d'achats effectués via le site Web de l'entreprise.
    • NumCatalogPurchases : Nombre d'achats effectués via un catalogue.
    • NumStorePurchases : Nombre d'achats effectués directement en magasin.
    • NumWebVisitsMonth : Nombre de visites sur le site Web de l'entreprise au cours du mois dernier.

Oui, il y a beaucoup de colonnes, cependant ici nous n'en utiliserons que quelques-unes, pour ne pas trop étendre, dans tous les cas vous pouvez appliquer les mêmes étapes pour les autres colonnes.

Maintenant, nous allons vérifier que nous n'avons pas de données nulles

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os
#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

Nous pouvons remarquer que nous avons 24 données nulles dans la colonne Revenu, cependant cette colonne ne sera pas utilisée dans cette analyse donc nous n'en ferons rien, au cas où vous souhaiteriez l'utiliser, vous devez vérifier effectuer l'une de ces deux options :

  • Imputez les données manquantes si elles ne représentent pas plus de 5% des données totales (recommandation).
  • Supprimer les données nulles.

2. Configurez l'ensemble de données pour l'analyse

Nous conserverons les colonnes qui nous intéressent, comme l'éducation, les enfants, l'état civil, le montant des dépenses par catégorie de produits, entre autres.

#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo

Nous calculons la dépense totale en additionnant les dépenses de toutes les catégories de produits.

'marketing_campaign.csv'

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn