如何使用pandas進行資料視覺化與探索性分析
導語:
在資料分析的過程中,視覺化與探索性分析是不可或缺的環節。 pandas是Python中一個非常強大的資料分析函式庫,除了具有資料處理功能外,還提供了一系列用於資料視覺化和探索性分析的工具。本文將介紹如何使用pandas進行資料視覺化和探索性分析,並給出具體的程式碼範例。
一、資料視覺化
1.折線圖
折線圖是一種常用的資料視覺化方法,可用於展示資料隨時間的變化趨勢。使用pandas繪製折線圖非常簡單,只需要呼叫DataFrame的plot方法即可。以下是一個範例程式碼:
import pandas as pd # 创建一个DataFrame data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'], '销售额': [100, 200, 150, 180]} df = pd.DataFrame(data) # 将日期列转换成日期类型 df['日期'] = pd.to_datetime(df['日期']) # 设置日期列为索引 df.set_index('日期', inplace=True) # 绘制折线图 df.plot()
2.長條圖
長條圖是一種常見的用於比較不同類別資料的視覺化方法。同樣地,使用pandas繪製長條圖也非常簡單,只需要呼叫DataFrame的plot方法,並設定kind參數為'bar'即可。以下是一個範例程式碼:
import pandas as pd # 创建一个DataFrame data = {'城市': ['北京', '上海', '广州', '深圳'], '人口': [2152, 2424, 1348, 1303]} df = pd.DataFrame(data) # 设置城市列为索引 df.set_index('城市', inplace=True) # 绘制柱状图 df.plot(kind='bar')
3.散佈圖
散佈圖常用於展示兩個數值變數之間的相關性。 pandas也提供了繪製散佈圖的功能。以下是一個範例程式碼:
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 绘制散点图 df.plot.scatter(x='身高', y='体重')
二、探索性分析
1.基本統計分析
pandas提供了一系列用於基本統計分析的方法,如mean、median、min、max等。以下是一個範例程式碼:
import pandas as pd # 创建一个DataFrame data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [18, 20, 22, 24], '身高': [170, 175, 180, 185]} df = pd.DataFrame(data) # 输出年龄的平均值、中位数、最小值、最大值等统计量 print('平均年龄:', df['年龄'].mean()) print('年龄中位数:', df['年龄'].median()) print('最小年龄:', df['年龄'].min()) print('最大年龄:', df['年龄'].max())
2.相關性分析
常用方法包括相關係數和協方差。以下是一個範例程式碼:
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 计算体重和身高的相关系数和协方差 print('相关系数:', df['体重'].corr(df['身高'])) print('协方差:', df['体重'].cov(df['身高']))
3.缺失值處理
pandas提供了一系列用於缺失值處理的方法,如isnull、fillna、dropna等。以下是一個範例程式碼:
import pandas as pd import numpy as np # 创建一个包含缺失值的DataFrame data = {'姓名': ['张三', '李四', np.nan, '赵六'], '年龄': [18, 20, np.nan, 24]} df = pd.DataFrame(data) # 判断哪些值是缺失值 print(df.isnull()) # 填充缺失值 df.fillna(0, inplace=True) # 删除包含缺失值的行 df.dropna(inplace=True)
本文介紹如何使用pandas進行資料視覺化和探索性分析,並給出了具體的程式碼範例。透過掌握這些技巧,可以更有彈性地處理數據、分析數據,並得出有意義的結論。
以上是使用pandas進行資料視覺化與探索性資料分析的技巧及方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!