ホームページ  >  記事  >  私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

-
-オリジナル
2018-03-07 16:07:583777ブラウズ

Python を使用して、淘宝商品のプロセス全体をクロールし、商品データをマイニングして分析し、最終的に結論を導き出します。

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

プロジェクトコンテンツ

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

この場合、製品カテゴリはソファが選択されています。

数量: 100 ページ、合計 4400 製品。

フィルター条件:天猫、販売量が多い順、価格が500元以上。

プロジェクトの目的

商品タイトルのテキスト分析とワードクラウドの視覚化

さまざまなキーワードに対応する売上の統計分析

商品の価格分布の分析

商品の売上分布の分析

さまざまなキーワードでの売上の分析価格帯 商品の平均売上分布

売上に対する商品価格の影響の分析

売上に対する商品価格の影響の分析

異なる州または都市における商品数量の分布

異なる州における商品の平均売上分布

注: このプロジェクトは、上記の分析を例として取り上げているだけです。

プロジェクトの手順

データ収集: Pythonが淘宝商品データをクロール

データをクリーンアップして処理

テキスト分析: jieba単語セグメンテーション、ワードクラウド視覚化

データヒストグラム視覚化: barh

データヒストグラム視覚化: hist

データ散乱プロットの視覚化:scatter

データ回帰分析の視覚化:regplot

ツールとモジュール

ツール:AnacondaのSpyder、この場合はコード編集ツールです。

モジュール: リクエスト、再試行、missingno、jieba、matplotlib、wordcloud、imread、seaborn など。

データのクロール

タオバオはアンチクローラーであるため、マルチスレッドを使用し、ヘッダーパラメーターを変更しますが、毎回100%のクロールを保証することはできません。そのため、ループクロールを追加しましたが、すべてのループクロールがクロールされませんでした。すべてのページが正常にクロールされるまで、成功したページをフェッチします。

注: 淘宝網の商品ページは JSON 形式であり、ここでの解析には正規表現が使用されます。

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

データのクリーニングと処理

データのクリーニングと処理は Excel で完了することもでき、その後データが読み込まれます。

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

説明: 要件に従って、この場合、主に地域を分析するために、データ item_loc、raw_title、view_price、および view_sales の 4 つの列のみが取得されます。タイトル、価格、販売量。

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

データマイニングと分析

raw_title 列 title でテキスト分析を実行

吃音単語セグメンターを使用し、モジュール pip install jieba をインストールします:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

on title_s (リスト形式のリスト) 各リスト要素 (str) をフィルターして不要な単語を削除します。つまり、ストップワード リスト内のすべての単語を削除します:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

各単語の数は以下でカウントする必要があるため、精度を高めるために、フィルタリングされたデータ title_clean 内の各リストの要素がここで重複排除されます。つまり、各タイトルはセグメント化された後に一意の単語を持ちます。

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

word_count テーブル内の単語を観察すると、jieba のデフォルトの辞書ではニーズを満たすことができないことがわかります。

一部の単語 (削除可能な単語、削除できない単語など) がカットされます。ここでは、必要に応じて新しい単語が辞書に追加されます (辞書 dict.txt に直接追加または削除してから読み込むこともできます)。変更された dict.txt)。

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

Wordcloud 視覚化には、Wordcloud モジュールがインストールされている必要があります。

モジュールをインストールするには 2 つの方法があります:

pip install wordcloud

ダウンロード パッケージのインストール: pip install パッケージ名

注: ダウンロードしたパッケージを Python インストール パスに配置します。

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

分析の結論:

結合された完全な製品が高い割合を占めます。

ソファの素材を見る:革製ソファよりも布製ソファの割合が高くなります。

ソファスタイルの観点から:シンプルスタイルが最も人気があり、次に北欧スタイル、その他のスタイルはアメリカン、中国、日本、フランスなどの順にランクされています。

アパートのタイプに関しては、小規模アパートの割合が最も高く、次に大規模アパートと小規模アパートが続き、大規模アパートの割合が最も低くなります。

さまざまなキーワードに対応する売上の合計の統計分析

説明: たとえば、「シンプル」という単語の場合、商品タイトルに「シンプル」という単語が含まれる商品の売上の合計を数えます。 「シンプル」な物販スタイル。

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

テーブル df_word_sum の word 列と w_s_sum 列のデータを視覚化します。 (この例では、上位 30 位のセールスワードが描画に使用されています)

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

グラフからわかるように、

組み合わせ商品の売上が最も高くなっています。

カテゴリーの観点から: 布製ソファの売上は非常に高く、革製ソファをはるかに上回っています。

アパートのタイプを見る: ソファの販売量は小規模アパートが最も多く、次に大規模アパートと小規模アパートが続き、大規模アパートの販売量が最も少ないです。

スタイルの面では、シンプルなスタイルが最も販売量が多く、次に北欧スタイル、次に中国スタイル、アメリカンスタイル、日本スタイルなどが続きます。

取り外し可能で洗えるコーナーソファはかなりの販売量があり、消費者の間でも非常に人気があります。

商品の価格分布の分析

分析の結果、一部の値が大きすぎることがわかりました。視覚化をより直感的にするために、ここでは独自の商品条件を組み合わせて、価格が 20,000 未満の商品を選択します。

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

グラフから見ることができます:

商品の数量は一般に、価格が高くなるほど、販売されている商品の数が減少する傾向を示します。 。

主に低価格の製品があり、価格が 500 ~ 1500 の製品が最も多く、次に 1500 ~ 3000 の製品があり、10,000 を超える製品はほとんどありません。

価格が10,000元以上の商品の場合、販売されている商品の数に大きな違いはありません。

製品の売上分布分析

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

同様に、視覚化をより直感的にするために、ここでは売上が100を超える製品を選択します。

コードは次のとおりです:

グラフとデータからわかります:

販売数量が 100 を超える製品は 3.4% のみを占め、そのうち販売数量が 100 ~ 200 の製品が最大です。次いで 200 ~ 300 人です。

売上高は100〜500で、製品数は売上高に伴って減少傾向を示しており、傾向は急峻であり、ほとんどが売れ行きの悪い製品です。

販売数量が500を超える製品はほとんどありません。

さまざまな価格帯の製品の平均売上分布

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

グラフからわかるように:

価格が 1331 ~ 1680 の製品の平均売上は次のとおりです。最高値、および 951 ~ 1331 の範囲 つまり、最低値は 9684 元を超えています。

全体的な傾向としては、まず上昇し、その後下落する傾向にありますが、最高値は比較的低価格の段階にあります。

これは、ソファに対する消費者の需要が低価格段階にあることを示しており、価格が1,680元を超えると、平均販売数量が少なくなります。

売上に対する製品価格の影響の分析

上記と同様に、視覚化効果をより直感的にするために、ここでは独自の製品条件を組み合わせて、価格が20,000未満の製品を選択します。

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

グラフから見ることができます:

全体的な傾向: 製品の価格が上昇するにつれて、その販売量は減少し、製品の価格は販売量に大きな影響を与えます。

価格が 500 から 2500 の間のいくつかの製品の売上は非常に高く、価格が 2500 から 5000 の製品のほとんどは売上が低く、いくつかの製品は比較的高い売上を示していますが、価格が 5000 を超える製品の売上はすべて非常に低いです。 、目立った売れ行きはございません。

商品価格が売上に与える影響の分析

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

グラフからわかるように:

全体的な傾向:線形回帰フィッティングラインから見ることができます価格の上昇傾向に応じて商品の売上が増加すること。

ほとんどの商品の価格は低めで、売上も低めです。

価格が 0 ~ 20,000 の少数の製品のみが高い売上を示し、価格が 20,000 ~ 60,000 の製品が 3 個のみ、価格が 60,000 ~ 100,000 の 1 つの製品が高い売上を示しています。最大値。

各省の商品数量の分布

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

グラフから見ることができます:

最も多く、次に上海、そして3番目が江蘇です。 、広東省の数は江蘇、浙江、上海をはるかに上回っており、ソファのサブカテゴリでは広東省の店舗が優勢であることが他の場所で示されています。

江蘇、浙江、上海の数字に大きな違いはなく、基本的に同じです。

各州の商品の平均売上分布

コードは次のとおりです:

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

サーマルマップ

私は Python を使用して 4,000 を超える淘宝商品データをクロールし、これらのルールを発見しました。 ! !

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。