統計是一個強大的工具,使我們能夠解決複雜的問題並回答第一次觀察資料或模式時出現的問題。一個例子是分析超市顧客的個性。諸如這個群體真的與其他群體不同嗎?到什麼程度呢?我應該更多地關注這個群體以改善他們的體驗和我的銷售嗎? 他們是做出正確決策的關鍵。
雖然視覺化可以幫助我們快速理解數據,但它們並不總是 100% 可靠。我們可以觀察到各組之間有明顯差異,但這些差異可能不具有統計顯著性。
這就是統計數據發揮作用的地方:它不僅幫助我們更深入地分析數據,而且讓我們有信心驗證我們的假設。作為資料科學家或決策專業人士,我們必須意識到不正確的分析可能會導致錯誤的決策,從而導致時間和金錢的損失。因此,我們的結論必須有根據、有統計證據支持,這一點至關重要。
當我們看到分析結果反映在公司內部的有效變革、客戶體驗的改善以及最終對銷售和營運的正面影響時,真正的滿意度就會出現。 參與這個過程的感覺真是難以置信!
為了幫助您發展這項技能,我們將在這篇文章中開發超市顧客的性格分析,我們將使用Kaggle 資料集客戶性格分析:https://www.kaggle.com /datasets/ imakash3011/客戶個性分析
在此分析中,我們將探索超市顧客的行為,目的是從數據中提取有價值的資訊。我們將尋求回答以下問題:
- 教育的總支出有顯著差異嗎?
- 兒童人數的總支出是否有顯著差異?
- 依婚姻狀況劃分的總支出有顯著差異嗎?
雖然這個分析可以進一步擴展,但我們將專注於回答這三個問題,因為它們提供了很強的解釋力。在整篇文章中,我們將向您展示如何解決這些問題,以及如何透過相同的方法回答更多問題。
在本文中,我們將探討統計分析,例如Kolmogorov-Smirnov 檢定、Levene 檢驗,以及如何知道何時應用ANOVA 或克魯斯卡爾-沃利斯。這些名字你可能會覺得陌生,但是不用擔心,我會用簡單的方式解釋它們,讓你輕鬆理解它們。
接下來,我將向您展示 Python 程式碼以及有效執行這些統計分析所需遵循的步驟。
1. 入門
我們匯入必要的 Python 函式庫。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
現在我們可以選擇兩種方式上傳.csv文件,直接取得文件或我們可以在下載按鈕上取得kaggle連結。
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
為了更好地了解我們將分析的資料集,我將指出每列的含義。
列:
-
人:
- ID:客戶端的唯一識別碼
- Year_Birth: 客戶的出生年份。
- 教育: 客戶的教育程度。
- Marital_Status: 客戶的婚姻狀況
- 收入:客戶家庭的年收入
- Kidhome: 客戶家中的兒童數量
- 青少年之家: 客戶家中青少年的數量
- Dt_Customer:客戶在公司註冊日期
- 新近度: 自從顧客上次購買以來的天數。
- 投訴: 如果客戶在過去 2 年內投訴過,則為 1,否則為 0
-
產品:
- MntWines:過去 2 年在葡萄酒上花費的金額。
- MntFruits: 過去 2 年在水果上花費的金額。
- MntMeatProducts: 過去 2 年在肉類上的花費。
- MntFishProducts: 過去 2 年在魚上花費的金額。
- MntSweetProducts: 過去 2 年在糖果上花費的金額。
- MntGoldProds:過去 2 年在黃金上花費的金額。
-
促銷:
- NumDealsPurchases: 折扣購買數量。
- AcceptedCmp1: 如果客戶在第一個活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp2: 如果客戶在第二次活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp3: 如果客戶在第三次活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp4: 如果客戶在第四次活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp5: 如果客戶在第五次活動中接受了優惠,則為 1,否則為 0。
- 回應: 如果客戶在上次活動中接受了優惠,則為 1,否則為 0
-
地點:
- NumWebPurchases: 透過公司網站進行的購買數量。
- NumCatalogPurchases: 透過目錄進行的購買數量。
- NumStorePurchases: 直接在商店購買的數量。
- NumWebVisitsMonth: 上個月公司網站的造訪次數。
是的,有很多列,但這裡我們只使用其中的幾列,以免擴展太多,無論如何您都可以對其他列應用相同的步驟。
現在,我們將驗證我們沒有空資料
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
我們可以注意到,收入列中有24 個空資料,但是此列不會用於此分析,因此我們不會對其執行任何操作,以防您想使用它,您必須驗證執行以下兩個選項之一:
- 如果缺失資料不佔總資料的 5% 以上,則對缺失資料進行插補(建議)。
- 刪除空資料。
2. 配置資料集進行分析
我們會保留我們感興趣的欄目,例如教育、子女、婚姻狀況、每個產品類別的支出金額等等。
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
我們透過新增所有產品類別的費用來計算總費用。
'marketing_campaign.csv'
以上是從數據到策略:統計數據如何推動值得信賴的行銷決策的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Python是解釋型語言,但也包含編譯過程。 1)Python代碼先編譯成字節碼。 2)字節碼由Python虛擬機解釋執行。 3)這種混合機制使Python既靈活又高效,但執行速度不如完全編譯型語言。

UseeAforloopWheniteratingOveraseQuenceOrforAspecificnumberoftimes; useAwhiLeLoopWhenconTinuingUntilAcIntiment.forloopsareIdealForkNownsences,而WhileLeleLeleLeleLeleLoopSituationSituationsItuationsItuationSuationSituationswithUndEtermentersitations。

pythonloopscanleadtoerrorslikeinfiniteloops,modifyingListsDuringteritation,逐個偏置,零indexingissues,andnestedloopineflinefficiencies

forloopsareadvantageousforknowniterations and sequests,供應模擬性和可讀性;而LileLoopSareIdealFordyNamicConcitionSandunknowniterations,提供ControloperRoverTermination.1)forloopsareperfectForeTectForeTerToratingOrtratingRiteratingOrtratingRitterlistlistslists,callings conspass,calplace,cal,ofstrings ofstrings,orstrings,orstrings,orstrings ofcces

pythonisehybridmodeLofCompilation和interpretation:1)thepythoninterpretercompilesourcecececodeintoplatform- interpententbybytecode.2)thepythonvirtualmachine(pvm)thenexecutecutestestestestestesthisbytecode,ballancingEaseofuseEfuseWithPerformance。

pythonisbothinterpretedAndCompiled.1)它的compiledTobyTecodeForportabilityAcrosplatforms.2)bytecodeisthenInterpreted,允許fordingfordforderynamictynamictymictymictymictyandrapiddefupment,儘管Ititmaybeslowerthananeflowerthanancompiledcompiledlanguages。

在您的知識之際,而foroopsareideal insinAdvance中,而WhileLoopSareBetterForsituations則youneedtoloopuntilaconditionismet

ForboopSareSusedwhenthentheneMberofiterationsiskNownInAdvance,而WhileLoopSareSareDestrationsDepportonAcondition.1)ForloopSareIdealForiteratingOverSequencesLikelistSorarrays.2)whileLeleLooleSuitableApeableableableableableableforscenarioscenarioswhereTheLeTheLeTheLeTeLoopContinusunuesuntilaspecificiccificcificCondond


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver Mac版
視覺化網頁開發工具

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3漢化版
中文版,非常好用