Utilisez Python pour explorer l'ensemble du processus d'un produit Taobao, extraire et analyser les données du produit, et enfin tirer des conclusions.
Contenu du projet
Dans ce cas, la catégorie de produit est sélectionnée : canapé.
Quantité : 100 pages, 4400 articles au total.
Conditions de filtrage : Tmall, volume des ventes de haut en bas, prix supérieur à 500 yuans.
Objectif du projet
Réaliser une analyse textuelle des titres de produits et une visualisation des nuages de mots
Analyse statistique des ventes correspondant à différents mots-clés
Répartition des prix des produits Analyse de la situation
Analyse de la répartition des ventes de biens
Répartition moyenne des ventes de biens dans différentes gammes de prix
Analyse de l'impact des prix des matières premières sur les ventes
Produit de base Analyse des prix de l'impact sur les ventes
Répartition de la quantité de produits dans différentes provinces ou villes
Répartition moyenne des ventes de produits dans différentes provinces
Remarque : ce projet utilise uniquement ce qui précède analyse comme exemple de base.
Étapes du projet
Collecte de données : Python explore les données des produits Taobao
Nettoyer et traiter les données
Analyse de texte : segmentation de mots jieba, visualisation wordcloud
Visualisation de l'histogramme des données : barh
Visualisation de l'histogramme des données : hist
Visualisation du nuage de points de données : scatter
Visualisation de l'analyse de régression des données : regplot
Outils et modules
Outils : Anaconda's Spyder, l'outil d'édition de code dans ce cas.
Modules : requêtes, nouvelles tentatives, manquant, jieba, matplotlib, wordcloud, imread, seaborn, etc.
Données d'exploration
Parce que Taobao est anti-crawler, bien qu'il utilise le multi-threading et modifie les paramètres d'en-tête, il ne peut toujours pas garantir une exploration à 100% à chaque fois, j'ai donc ajouté une exploration en boucle , explorer les pages infructueuses à chaque fois en boucle jusqu'à ce que toutes les pages soient explorées avec succès.
Remarque : la page produit Taobao est au format JSON et des expressions régulières sont utilisées pour l'analyse ici.
Le code est le suivant :
Nettoyage et traitement des données
Cette étape de nettoyage et de traitement des données peut également être réalisée dans Excel puis lisez les données.
Le code est le suivant :
Remarque : selon les exigences, dans ce cas uniquement item_loc, raw_title , view_price sont pris en compte. Les quatre colonnes de données de view_sales analysent principalement la région, le titre, le prix et le volume des ventes.
Le code est le suivant :
Exploration et analyse de données
Effectuer une analyse de texte sur le titre de la colonne raw_title
Utiliser la segmentation des mots bégayants Pour installer le module, pip install jieba :
Filtrer les éléments (str) de chaque liste dans title_s (liste au format liste) et supprimer les mots inutiles . Autrement dit, tous les mots de la liste des mots vides sont supprimés :
Parce que le nombre de chaque mot est compté ci-dessous, par souci de précision, voici chaque liste filtrée. L'élément des données title_clean est dédupliqué, c'est-à-dire que chaque titre est divisé en mots uniques.
En observant les mots dans la table word_count, nous avons constaté que le dictionnaire par défaut de Jieba ne peut pas répondre aux besoins.
Certains mots (tels que amovibles, non amovibles, etc.) ont été coupés. Ici, de nouveaux mots sont ajoutés au dictionnaire en fonction des besoins (vous pouvez également ajouter ou supprimer directement dans le dict du dictionnaire. txt, puis chargez le dict txt modifié).
La visualisation Word Cloud nécessite l'installation du module Wordcloud.
Il existe deux façons d'installer les modules :
pip install wordcloud
Télécharger les packages à installer : nom du package d'installation pip
Remarque : veuillez télécharger le logiciel Le package est placé dans le chemin d'installation de Python.
Le code est le suivant :
Conclusion de l'analyse :
Compte produits combinés et complets pour une grande proportion élevée.
Du point de vue du matériau du canapé : les canapés en tissu représentent une proportion élevée, plus que les canapés en cuir.
En regardant les styles de canapés : le style simple est le plus populaire, suivi du style nordique. D'autres styles sont classés par ordre : américain, chinois, japonais, français, etc.
En termes de types d'appartements : les petits appartements représentent la proportion la plus élevée, suivis des grands et petits appartements, et les grands appartements en représentent la moindre.
Analyse statistique de la somme des ventes correspondant aux différents mots-clés
Explication : Par exemple, avec le mot "simple", la somme des ventes des produits contenant le mot "simple" dans le le titre du produit sera compté. C'est-à-dire trouver la somme des ventes de produits avec un style « simple ».
Le code est le suivant :
Visualisez les données dans les colonnes word et w_s_sum dans la table df_word_sum. (Dans cet exemple, les 30 mots les plus vendus sont utilisés pour le dessin)
Comme le montre le graphique :
Produits combinés Le volume de ventes le plus élevé.
Du point de vue de la catégorie : les ventes de canapés en tissu sont très élevées, dépassant de loin celles des canapés en cuir.
Du point de vue du type d'appartement : le volume des ventes de canapés est le plus élevé dans les petits appartements, suivi par les grands et les petits appartements, et les ventes dans les grands appartements sont les moins importantes.
En termes de style : le style simple a le volume de ventes le plus élevé, suivi du style nordique, suivi du style chinois, du style américain, du style japonais, etc.
Les canapés amovibles et lavables ainsi que les canapés d'angle ont un volume de ventes considérable et sont également très appréciés des consommateurs.
Analyse de la répartition des prix des matières premières
L'analyse a révélé que certaines valeurs sont trop grandes Afin de rendre l'effet de visualisation plus intuitif, nous combinons ici nos propres conditions de produits et sélectionnons des matières premières. avec un prix inférieur à 20 000.
Le code est le suivant :
Comme on peut le voir sur le graphique :
La quantité de marchandises est généralement affichée avec le prix. Dans la situation d'échelle descendante, plus le prix est élevé, moins il y a de marchandises en vente.
Il y a principalement des produits à bas prix, avec la plupart des produits dont le prix est compris entre 500 et 1 500, suivis de ceux entre 1 500 et 3 000, et moins de produits dont le prix est supérieur à 10 000.
Pour les produits dont le prix est supérieur à 10 000 yuans, il y a peu de différence dans le nombre de produits en vente.
Analyse de la répartition des ventes de marchandises
De même, afin de rendre la visualisation plus intuitive, nous choisissons ici le le volume des ventes doit être supérieur à 100 de marchandises.
Le code est le suivant :
Il ressort des graphiques et des données :
Seuls 3,4 % des produits ont des ventes supérieures à 100, parmi lesquels le les produits avec des ventes de 100 à 200 sont les plus élevés, et 200 à 300.
Ventes entre 100 et 500, le nombre de produits montre une tendance à la baisse avec les ventes, et la tendance est forte, avec pour la plupart des produits peu vendus.
Il existe très peu de produits avec plus de 500 ventes.
La répartition moyenne des ventes de produits dans différentes gammes de prix
Le code est le suivant :
D'après le graphique, on peut voir que :
Le volume moyen des ventes de produits dont les prix sont compris entre 1 331 et 1 680 yuans est le plus élevé, suivi par ceux dont les prix sont compris entre 951 et 1 331 yuans et ceux dont les prix sont supérieurs. 9684 yuans sont les plus bas.
La tendance générale est d'abord à l'augmentation puis à la diminution, mais le pic le plus élevé se situe à un stade de prix relativement bas.
Cela montre que la demande des consommateurs pour les canapés se situe davantage au stade des prix bas. Plus le prix est supérieur à 1 680 yuans, plus le volume moyen des ventes est faible.
Analyse de l'impact du prix du produit sur les ventes
Idem que ci-dessus, afin de rendre l'effet de visualisation plus intuitif, nous combinons ici nos propres conditions de produit et sélectionnons des produits avec un prix inférieur à 20 000.
Le code est le suivant :
Comme on peut le voir sur le graphique :
La tendance générale : à mesure que le prix des marchandises augmente, le volume de ses ventes diminue et les prix des matières premières ont un impact important sur son volume de ventes.
Le volume des ventes de quelques produits dont le prix est compris entre 500 et 2 500 est très élevé. Le volume des ventes de la plupart des produits dont le prix est compris entre 2 500 et 5 000 est faible, et quelques produits sont relativement élevés. les produits dont le prix est supérieur à 5 000 sont très bas. Il n'y a aucun produit avec des ventes exceptionnelles.
Analyse de l'impact des prix des matières premières sur les ventes
Le code est le suivant :
Comme le montre le graphique :
Tendance générale : la ligne d'ajustement de régression linéaire montre que les ventes de produits affichent une tendance à la hausse avec la croissance des prix.
La plupart des articles ont des prix bas et les ventes sont faibles.
Seuls quelques produits dont le prix est compris entre 0 et 20 000 ont des ventes élevées, seuls 3 produits dont le prix est compris entre 20 000 et 60 000 ont des ventes élevées, et un produit dont le prix est compris entre 60 000 et 100 000 a des ventes élevées, et c'est la plus grande valeur.
La répartition de la quantité de marchandises dans différentes provinces
Le code est le suivant :
Comme le montre le graphique :
Le Guangdong compte le plus de magasins, suivi de Shanghai et du Jiangsu, en particulier le nombre dans le Guangdong dépasse de loin celui du Jiangsu, du Zhejiang, de Shanghai et d'autres endroits, ce qui montre que dans le canapé. sous-catégorie, les magasins du Guangdong dominent.
Les chiffres dans le Jiangsu, le Zhejiang et Shanghai ne sont pas très différents et sont fondamentalement les mêmes.
La répartition moyenne des ventes de biens dans les différentes provinces
Le code est le suivant :
Carte thermique