首頁  >  文章  >  後端開發  >  使用pandas進行資料視覺化與探索性資料分析的技巧及方法

使用pandas進行資料視覺化與探索性資料分析的技巧及方法

WBOY
WBOY原創
2024-01-13 15:40:171362瀏覽

使用pandas進行資料視覺化與探索性資料分析的技巧及方法

如何使用pandas進行資料視覺化與探索性分析

導語:
在資料分析的過程中,視覺化與探索性分析是不可或缺的環節。 pandas是Python中一個非常強大的資料分析函式庫,除了具有資料處理功能外,還提供了一系列用於資料視覺化和探索性分析的工具。本文將介紹如何使用pandas進行資料視覺化和探索性分析,並給出具體的程式碼範例。

一、資料視覺化
1.折線圖
折線圖是一種常用的資料視覺化方法,可用於展示資料隨時間的變化趨勢。使用pandas繪製折線圖非常簡單,只需要呼叫DataFrame的plot方法即可。以下是一個範例程式碼:

import pandas as pd

# 创建一个DataFrame
data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'],
        '销售额': [100, 200, 150, 180]}
df = pd.DataFrame(data)

# 将日期列转换成日期类型
df['日期'] = pd.to_datetime(df['日期'])

# 设置日期列为索引
df.set_index('日期', inplace=True)

# 绘制折线图
df.plot()

2.長條圖
長條圖是一種常見的用於比較不同類別資料的視覺化方法。同樣地,使用pandas繪製長條圖也非常簡單,只需要呼叫DataFrame的plot方法,並設定kind參數為'bar'即可。以下是一個範例程式碼:

import pandas as pd

# 创建一个DataFrame
data = {'城市': ['北京', '上海', '广州', '深圳'],
        '人口': [2152, 2424, 1348, 1303]}
df = pd.DataFrame(data)

# 设置城市列为索引
df.set_index('城市', inplace=True)

# 绘制柱状图
df.plot(kind='bar')

3.散佈圖
散佈圖常用於展示兩個數值變數之間的相關性。 pandas也提供了繪製散佈圖的功能。以下是一個範例程式碼:

import pandas as pd

# 创建一个DataFrame
data = {'体重': [65, 75, 58, 80, 68],
        '身高': [175, 180, 160, 190, 170]}
df = pd.DataFrame(data)

# 绘制散点图
df.plot.scatter(x='身高', y='体重')

二、探索性分析
1.基本統計分析
pandas提供了一系列用於基本統計分析的方法,如mean、median、min、max等。以下是一個範例程式碼:

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [18, 20, 22, 24],
        '身高': [170, 175, 180, 185]}
df = pd.DataFrame(data)

# 输出年龄的平均值、中位数、最小值、最大值等统计量
print('平均年龄:', df['年龄'].mean())
print('年龄中位数:', df['年龄'].median())
print('最小年龄:', df['年龄'].min())
print('最大年龄:', df['年龄'].max())

2.相關性分析
常用方法包括相關係數和協方差。以下是一個範例程式碼:

import pandas as pd

# 创建一个DataFrame
data = {'体重': [65, 75, 58, 80, 68],
        '身高': [175, 180, 160, 190, 170]}
df = pd.DataFrame(data)

# 计算体重和身高的相关系数和协方差
print('相关系数:', df['体重'].corr(df['身高']))
print('协方差:', df['体重'].cov(df['身高']))

3.缺失值處理
pandas提供了一系列用於缺失值處理的方法,如isnull、fillna、dropna等。以下是一個範例程式碼:

import pandas as pd
import numpy as np

# 创建一个包含缺失值的DataFrame
data = {'姓名': ['张三', '李四', np.nan, '赵六'],
        '年龄': [18, 20, np.nan, 24]}
df = pd.DataFrame(data)

# 判断哪些值是缺失值
print(df.isnull())

# 填充缺失值
df.fillna(0, inplace=True)

# 删除包含缺失值的行
df.dropna(inplace=True)

本文介紹如何使用pandas進行資料視覺化和探索性分析,並給出了具體的程式碼範例。透過掌握這些技巧,可以更有彈性地處理數據、分析數據,並得出有意義的結論。

以上是使用pandas進行資料視覺化與探索性資料分析的技巧及方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn