统计是一个强大的工具,使我们能够解决复杂的问题并回答第一次观察数据或模式时出现的问题。一个例子是分析超市顾客的个性。诸如这个群体真的与其他群体不同吗?到什么程度呢?我应该更多地关注这个群体以改善他们的体验和我的销售吗?他们是做出正确决策的关键。
虽然可视化可以帮助我们快速理解数据,但它们并不总是 100% 可靠。我们可以观察到各组之间存在明显差异,但这些差异可能不具有统计显着性。
这就是统计数据发挥作用的地方:它不仅帮助我们更深入地分析数据,而且让我们有信心验证我们的假设。作为数据科学家或决策专业人士,我们必须意识到不正确的分析可能会导致错误的决策,从而导致时间和金钱的损失。因此,我们的结论必须有根据、有统计证据支持,这一点至关重要。
当我们看到分析结果反映在公司内部的有效变革、客户体验的改善以及最终对销售和运营的积极影响时,真正的满意度就会出现。 参与这个过程的感觉真是难以置信!
为了帮助您发展这项技能,我们将在这篇文章中开发超市顾客的性格分析,我们将使用 Kaggle 数据集客户性格分析:https://www.kaggle.com/datasets/ imakash3011/客户个性分析
在此分析中,我们将探索超市顾客的行为,目的是从数据中提取有价值的信息。我们将寻求回答以下问题:
- 教育的总支出有显着差异吗?
- 儿童人数的总支出是否存在显着差异?
- 按婚姻状况划分的总支出有显着差异吗?
虽然这个分析可以进一步扩展,但我们将专注于回答这三个问题,因为它们提供了很强的解释力。在整篇文章中,我们将向您展示如何解决这些问题,以及如何通过相同的方法回答更多问题。
在本文中,我们将探讨统计分析,例如 Kolmogorov-Smirnov 检验、Levene 检验,以及如何知道何时应用 ANOVA 或克鲁斯卡尔-沃利斯。这些名字你可能会觉得陌生,但是不用担心,我会用简单的方式解释它们,以便你轻松理解它们。
接下来,我将向您展示 Python 代码以及有效执行这些统计分析所需遵循的步骤。
1. 入门
我们导入必要的 Python 库。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
现在我们可以选择两种方式上传.csv文件,直接获取文件或者我们可以在下载按钮上获取kaggle链接。
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
为了更好地了解我们将分析的数据集,我将指出每列的含义。
列:
-
人:
- ID:客户端的唯一标识符
- Year_Birth: 客户的出生年份。
- 教育: 客户的教育水平。
- Marital_Status: 客户的婚姻状况
- 收入:客户家庭的年收入
- Kidhome: 客户家中的儿童数量
- 青少年之家: 客户家中青少年的数量
- Dt_Customer:客户在公司注册日期
- 新近度: 自客户上次购买以来的天数。
- 投诉: 如果客户在过去 2 年内投诉过,则为 1,否则为 0
-
产品:
- MntWines:过去 2 年在葡萄酒上花费的金额。
- MntFruits: 过去 2 年在水果上花费的金额。
- MntMeatProducts: 过去 2 年在肉类上的花费。
- MntFishProducts: 过去 2 年在鱼上花费的金额。
- MntSweetProducts: 过去 2 年在糖果上花费的金额。
- MntGoldProds:过去 2 年在黄金上花费的金额。
-
促销:
- NumDealsPurchases: 折扣购买数量。
- AcceptedCmp1: 如果客户在第一个活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp2: 如果客户在第二次活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp3: 如果客户在第三次活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp4: 如果客户在第四次活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp5: 如果客户在第五次活动中接受了优惠,则为 1,否则为 0。
- 响应: 如果客户在上次活动中接受了优惠,则为 1,否则为 0
-
地点:
- NumWebPurchases: 通过公司网站进行的购买数量。
- NumCatalogPurchases: 通过目录进行的购买数量。
- NumStorePurchases: 直接在商店购买的数量。
- NumWebVisitsMonth: 上个月公司网站的访问次数。
是的,有很多列,但这里我们只使用其中的几列,以免扩展太多,无论如何您都可以对其他列应用相同的步骤。
现在,我们将验证我们没有空数据
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
我们可以注意到,收入列中有 24 个空数据,但是此列不会用于此分析,因此我们不会对其执行任何操作,以防您想使用它,您必须验证执行以下两个选项之一:
- 如果缺失数据不占总数据的 5% 以上,则对缺失数据进行插补(推荐)。
- 删除空数据。
2. 配置数据集进行分析
我们会保留我们感兴趣的栏目,例如教育、子女、婚姻状况、每个产品类别的支出金额等等。
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
我们通过添加所有产品类别的费用来计算总费用。
'marketing_campaign.csv'
以上是从数据到策略:统计数据如何推动值得信赖的营销决策的详细内容。更多信息请关注PHP中文网其他相关文章!

Python是解释型语言,但也包含编译过程。1)Python代码先编译成字节码。2)字节码由Python虚拟机解释执行。3)这种混合机制使Python既灵活又高效,但执行速度不如完全编译型语言。

useeAforloopWheniteratingOveraseQuenceOrforAspecificnumberoftimes; useAwhiLeLoopWhenconTinuingUntilAcIntiment.ForloopSareIdeAlforkNownsences,而WhileLeleLeleLeleLoopSituationSituationSituationsItuationSuationSituationswithUndEtermentersitations。

pythonloopscanleadtoerrorslikeinfiniteloops,modifyingListsDuringteritation,逐个偏置,零indexingissues,andnestedloopineflinefficiencies

forloopsareadvantageousforknowniterations and sequests,供应模拟性和可读性;而LileLoopSareIdealFordyNamicConcitionSandunknowniterations,提供ControloperRoverTermination.1)forloopsareperfectForeTectForeTerToratingOrtratingRiteratingOrtratingRitterlistlistslists,callings conspass,calplace,cal,ofstrings ofstrings,orstrings,orstrings,orstrings ofcces

pythonisehybridmodelofcompilationand interpretation:1)thepythoninterspretercompilesourcececodeintoplatform- interpententbybytecode.2)thepytythonvirtualmachine(pvm)thenexecuteCutestestestesteSteSteSteSteSteSthisByTecode,BelancingEaseofuseWithPerformance。

pythonisbothinterpretedAndCompiled.1)它的compiledTobyTecodeForportabilityAcrosplatforms.2)bytecodeisthenInterpreted,允许fordingfordforderynamictynamictymictymictymictyandrapiddefupment,尽管Ititmaybeslowerthananeflowerthanancompiledcompiledlanguages。

在您的知识之际,而foroopsareideal insinAdvance中,而WhileLoopSareBetterForsituations则youneedtoloopuntilaconditionismet

ForboopSareSusedwhenthentheneMberofiterationsiskNownInAdvance,而WhileLoopSareSareDestrationsDepportonAcondition.1)ForloopSareIdealForiteratingOverSequencesLikelistSorarrays.2)whileLeleLooleSuitableApeableableableableableableforscenarioscenarioswhereTheLeTheLeTheLeTeLoopContinusunuesuntilaspecificiccificcificCondond


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具