ホームページ >バックエンド開発 >Python チュートリアル >データから戦略へ: 統計が信頼できるマーケティング上の意思決定をどのように推進できるか

データから戦略へ: 統計が信頼できるマーケティング上の意思決定をどのように推進できるか

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-12-05 04:25:11387ブラウズ

統計 は、複雑な問題に対処し、データやパターンを初めて観察するときに生じる疑問に答えることを可能にする強力なツールです。この例としては、スーパーマーケットでの顧客の性格分析が挙げられます。 このグループは他のグループとは本当に違うの?どこまで?彼らのエクスペリエンスと売上を向上させるために、このグループにもっと焦点を当てるべきでしょうか? 彼らは適切な決定を下すための鍵です。

視覚化はデータを迅速に理解するのに役立ちますが、常に 100% 信頼できるわけではありません。グループ間の明らかな違いは観察できましたが、それらの違いは統計的に有意ではない可能性があります。

ここで統計が役に立ちます。統計は、データをより深く分析するのに役立つだけでなく、仮説を検証する自信を与えてくれます。データサイエンティストまたは意思決定の専門家として、私たちは間違った分析が間違った決定につながり、時間とお金の損失につながる可能性があることを認識する必要があります。したがって、統計的証拠によって裏付けられた十分な根拠のある結論が重要です。

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

真の満足は、分析の結果が社内の効果的な変化、顧客エクスペリエンスの向上、そして最終的には販売と業務へのプラスの影響に反映されているのを見るときに得られます。 そのプロセスに参加できたことは信じられないほどの気分です!


この記事でスーパーマーケットの顧客の性格分析で開発するこのスキルを開発するのに役立つように、Kaggle データセット 顧客の性格分析 を使用します: https://www.kaggle.com/datasets / imakash3011/顧客性格分析

この分析では、データから貴重な情報を抽出することを目的として、スーパーマーケットの顧客の行動を調査します。私たちは次の質問に答えようとします:

  • 教育による総支出に大きな違いはありますか?
  • 子供の数によって総支出に大きな違いはありますか?
  • 婚姻状況によって総支出に大きな違いはありますか?

この分析はさらに拡張することもできますが、説明力が大きいため、これら 3 つの質問に答えることに焦点を当てます。この記事全体を通じて、これらの質問にどのように対処できるか、また、同じアプローチを通じてさらに多くの質問にどのように回答できるかを示します。

この記事では、Kolmogorov-Smirnov テスト、Levene テストなどの統計分析と、いつ ANOVA を適用するかを判断する方法について説明します。 クラスカル-ウォリス。これらの名前は聞きなれないかもしれませんが、複雑にせずに理解できるように簡単に説明しますので、ご安心ください。

次に、Python コードと、これらの統計分析を効果的に実行するための手順を示します。

1. はじめに

必要な Python ライブラリをインポートします。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

これで、.csv ファイルをアップロードする 2 つの方法を選択できるようになりました。ファイルを直接取得するか、ダウンロード ボタンから直接 kaggle リンクを取得することができます。

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os
#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)
#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo
ID Year_Birth Education Marital_Status Income Kidhome Teenhome Dt_Customer Recency MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts MntGoldProds NumDealsPurchases NumWebPurchases NumCatalogPurchases NumStorePurchases NumWebVisitsMonth AcceptedCmp3 AcceptedCmp4 AcceptedCmp5 AcceptedCmp1 AcceptedCmp2 Complain Z_CostContact Z_Revenue Response
0 5524 1957 Graduation Single 58138.0 0 0 04-09-2012 58 635 88 546 172 88 88 3 8 10 4 7 0 0 0 0 0 0 3 11 1
1 2174 1954 Graduation Single 46344.0 1 1 08-03-2014 38 11 1 6 2 1 6 2 1 1 2 5 0 0 0 0 0 0 3 11 0
2 4141 1965 Graduation Together 71613.0 0 0 21-08-2013 26 426 49 127 111 21 42 1 8 2 10 4 0 0 0 0 0 0 3 11 0

分析するデータセットをよりよく理解するために、各列の意味を示します。

列:

  • 人:

    • ID: クライアントの一意の識別子
    • Year_Birth: クライアントの誕生年。
    • 教育: クライアントの教育レベル。
    • Marital_Status: クライアントの婚姻状況
    • 収入:クライアント世帯の年収
    • Kidhome: クライアントの家の子供の数
    • Teenhome: クライアントの家にいるティーンエイジャーの数
    • Dt_Customer: 社内での顧客登録日
    • 最新性: 顧客が最後に購入してからの日数。
    • 苦情: 過去 2 年間に顧客から苦情があった場合は 1、それ以外の場合は 0
  • 製品:

    • MntWines: 過去 2 年間にワインに費やした金額。
    • MntFruits: 過去 2 年間にフルーツに費やした金額。
    • MntMeatProducts: 過去 2 年間に肉に費やされた金額。
    • MntFishProducts: 過去 2 年間に魚に費やされた金額。
    • MntSweetProducts: 過去 2 年間にお菓子に費やした金額。
    • MntGoldProds: 過去 2 年間にゴールドに費やされた金額。
  • プロモーション:

    • NumDealsPurchases: 割引で行われた購入数。
    • AcceptedCmp1: 顧客が最初のキャンペーンでオファーを受け入れた場合は 1、それ以外の場合は 0。
    • AcceptedCmp2: 顧客が 2 番目のキャンペーンでオファーを受け入れた場合は 1、それ以外の場合は 0。
    • AcceptedCmp3: 顧客が 3 番目のキャンペーンでオファーを受け入れた場合は 1、それ以外の場合は 0。
    • AcceptedCmp4: 顧客が 4 番目のキャンペーンでオファーを受け入れた場合は 1、それ以外の場合は 0。
    • AcceptedCmp5: 顧客が 5 番目のキャンペーンでオファーを受け入れた場合は 1、それ以外の場合は 0。
    • 応答: 顧客が最後のキャンペーンでオファーを受け入れた場合は 1、それ以外の場合は 0
  • 場所:

    • NumWebPurchases: 会社 Web サイトを通じて行われた購入数。
    • NumCatalogPurchases: カタログを通じて行われた購入数。
    • NumStorePurchases: 店舗で直接行われた購入数。
    • NumWebVisitsMonth: 先月の会社の Web サイトへの訪問数。

はい、多くの列がありますが、ここでは拡張しすぎないようにいくつかの列のみを使用します。いずれの場合も、他の列にも同じ手順を適用できます。

次に、null データがないことを確認します

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os
#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

収入列に 24 個の null データ があることがわかりますが、この列はこの分析では使用されないため、使用したい場合に備えて何も行いません。次の 2 つのオプションのいずれかを実行することを確認する必要があります:

  • 欠損データが全データの 5% を超えていない場合は、欠損データを補完します (推奨)。
  • null データを削除します。

2. 分析用にデータセットを構成する

教育、子供、婚姻状況、製品カテゴリごとの支出額など、関心のある列は保持されます。

#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo

すべての製品カテゴリの費用を加算して、合計費用を計算します。

'marketing_campaign.csv'

以上がデータから戦略へ: 統計が信頼できるマーケティング上の意思決定をどのように推進できるかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。