搜尋
首頁後端開發Python教學Python 資料視覺化的三大步驟

1、首先,要知道我們用哪些函式庫來畫圖?

matplotlib

Python中最基本的作圖庫就是matplotlib,是一個最基礎的Python視覺化函式庫,一般都是從matplotlib手Python資料視覺化,然後開始做縱向與橫向拓展。

Seaborn

是一個基於matplotlib的高階視覺化效果庫,針對的點主要是資料探勘和機器學習中的變數特徵選取,seaborn可以用短小的程式碼去繪製描述更多維度資料的可視化效果圖。

其他函式庫還包括

Bokeh(是一個用於做瀏覽器端互動視覺化的函式庫,實現分析師與資料的互動);Mapbox(處理地理資料引擎更強的視覺化工具庫)等等。

本篇文章主要使用matplotlib進行案例分析

第一步:確定問題,選擇圖形

業務可能很複雜,但經過拆分,我們要找到我們想透過圖形表達什麼具體問題。分析思維的訓練可以學習《麥肯錫方法》和《金字塔原理》中的方法。

這是網路上的一張關於圖表類型選擇的總結。

Python 資料視覺化的三大步驟

在Python中,我們可以總結為以下四種基本視覺元素來展現圖形:

  • 點:scatter plot 二維數據,適用於簡單二維關係;
  • 線:line plot 二維數據,適用於時間序列;
  • 柱狀:bar plot 二維數據,適用於類別統計;
  • 顏色:heatmap 適用於展示第三個維度;

資料間存在分佈,構成,比較,聯繫以及變化趨勢等關係。對應不一樣的關係,選擇對應的圖形來展示。

第二步:轉換數據,應用函數

數據分析和建模方面的大量編程工作都是用在數據準備的基礎上的:加載、清理、轉換以及重塑。 我們視覺化步驟也需要將資料整理,轉換成我們需要的格式再套用視覺化方法完成作圖。

以下是一些常用的資料轉換方法:

  • #合併:merge,concat,combine_frist(類似資料庫中的全外連接)
  • 重塑: reshape;軸向旋轉:pivot(類似excel資料透視表)
  • 去重:drop_duplicates
  • 映射:map
  • #填充替換:fillna,replace
  • 重新命名軸索引:rename

將分類變數轉換'啞變數矩陣'的get_dummies函數以及在df中對某一列資料取限定值等等。

函數則根據第一步驟選擇好的圖形,去找Python中對應的函數。

第三步:參數設置,一目了然

原始圖形畫完後,我們可以根據需求修改顏色(color),線型(linestyle),標記(maker)或其他圖表裝飾項標題(Title),軸標籤(xlabel,ylabel),軸刻度(set_xticks),還有圖例(legend)等,讓圖形更直觀。

第三步是在第二步的基礎上,為了使圖形更加清晰明了,做的修飾工作。具體參數都可以在製圖函數中找到。

2、視覺化作圖基礎

Matplotlib作圖基礎

#导入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Figure和Subplot

matplotlib的圖形都位於Figure(畫布)中,Subplot建立影像空間。不能透過figure繪圖,必須用add_subplot建立一個或多個subplot。

figsize可以指定圖像尺寸。

#创建画布
fig = plt.figure()
<Figure size 432x288 with 0 Axes>
#创建subplot,221表示这是2行2列表格中的第1个图像。
ax1 = fig.add_subplot(221)
#但现在更习惯使用以下方法创建画布和图像,2,2表示这是一个2*2的画布,可以放置4个图像
fig , axes = plt.subplots(2,2,sharex=True,sharey=True)
#plt.subplot的sharex和sharey参数可以指定所有的subplot使用相同的x,y轴刻度。

Python 資料視覺化的三大步驟

利用Figure的subplots_adjust方法可以調整間距。

subplots_adjust(left=None,bottom=None,right=None,
top=None,wspace=None,hspace=None)

Python 資料視覺化的三大步驟

顏色color,標記marker,和線型linestyle

matplotlib的plot函數接受一組X和Y座標,還可以接受一個表示顏色和線型的字串縮寫:**'g--',表示顏色是綠色green,線型是'--'虛線。 **也可以使用參數明確的指定。

線型圖也可以加上一些標記(marker),來突顯資料點的位置。標記也可以放在格式字串中,但標記類型和線型必須放在顏色後面。

plt.plot(np.random.randn(30),color='g',
 linestyle='--',marker='o')
[<matplotlib.lines.Line2D at 0x8c919b0>]

刻度,標籤和圖例

plt的xlim、xticks和xtickslabels方法分別控制圖表的範圍和刻度位置和刻度標籤。

呼叫方法時不帶參數,則傳回目前的參數值;呼叫時帶參數,則設定參數值。

plt.plot(np.random.randn(30),color='g',
 linestyle='--',marker='o')
plt.xlim() #不带参数调用,显示当前参数;
#可将xlim替换为另外两个方法试试
(-1.4500000000000002, 30.45)

Python 資料視覺化的三大步驟

img

plt.plot(np.random.randn(30),color='g',
 linestyle='--',marker='o')
plt.xlim([0,15]) #横轴刻度变成0-15
(0, 15)

Python 資料視覺化的三大步驟

设置标题,轴标签,刻度以及刻度标签

fig = plt.figure();ax = fig.add_subplot(1,1,1)
ax.plot(np.random.randn(1000).cumsum())
ticks = ax.set_xticks([0,250,500,750,1000]) #设置刻度值
labels = ax.set_xticklabels(['one','two','three','four','five']) #设置刻度标签
ax.set_title('My first Plot') #设置标题
ax.set_xlabel('Stage') #设置轴标签
Text(0.5,0,'Stage')

Python 資料視覺化的三大步驟

添加图例

图例legend是另一种用于标识图标元素的重要工具。 可以在添加subplot的时候传入label参数。

fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111)
ax.plot(np.random.randn(1000).cumsum(),'k',label='one') #传入label参数,定义label名称
ax.plot(np.random.randn(1000).cumsum(),'k--',label='two')
ax.plot(np.random.randn(1000).cumsum(),'k.',label='three')
#图形创建完后,只需要调用legend参数将label调出来即可。
ax.legend(loc='best') 
#要求不是很严格的话,建议使用loc=‘best’参数来让它自己选择最佳位置

Python 資料視覺化的三大步驟

注解

除标准的图表对象之外,我们还可以自定义添加一些文字注解或者箭头。

注解可以通过text,arrow和annotate等函数进行添加。text函数可以将文本绘制在指定的x,y坐标位置,还可以进行自定义格式

plt.plot(np.random.randn(1000).cumsum())
plt.text(600,10,'test ',family='monospace',fontsize=10)
#中文注释在默认环境下并不能正常显示,需要修改配置文件,
# 使其支持中文字体。具体步骤请自行搜索。

保存图表到文件

利用plt.savefig可以将当前图表保存到文件。例如,要将图表保存为png文件,可以执行

文件类型是根据拓展名而定的。其他参数还有:

  • fname:含有文件路径的字符串,拓展名指定文件类型
  • dpi:分辨率,默认100 facecolor,edgcolor 图像的背景色,默认‘w’白色
  • format:显示设置文件格式('png','pdf','svg','ps','jpg'等)
  • bbox_inches:图表需要保留的部分。如果设置为“tight”,则将尝试剪除图像周围的空白部分
plt.savefig('./plot.jpg') #保存图像为plot名称的jpg格式图像
<Figure size 432x288 with 0 Axes>

3、Pandas中的绘图函数

Matplotlib作图

matplotlib是最基础的绘图函数,也是相对较低级的工具。 组装一张图表需要单独调用各个基础组件才行。Pandas中有许多基于matplotlib的高级绘图方法,原本需要多行代码才能搞定的图表,使用pandas只需要短短几行。

我们使用的就调用了pandas中的绘图包。

import matplotlib.pyplot as plt

线型图

Series和DataFrame都有一个用于生成各类图表的plot方法。 默认情况下,他们生成的是线型图。

s = pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))
s.plot() #Series对象的索引index会传给matplotlib用作绘制x轴。
<matplotlib.axes._subplots.AxesSubplot at 0xf553128>

Python 資料視覺化的三大步驟

df = pd.DataFrame(np.random.randn(10,4).cumsum(0),
columns=['A','B','C','D'])
df.plot() #plot会自动为不同变量改变颜色,并添加图例
<matplotlib.axes._subplots.AxesSubplot at 0xf4f9eb8>

Python 資料視覺化的三大步驟

Series.plot方法的参数

  • label:用于图表的标签
  • style:风格字符串,'g--'
  • alpha:图像的填充不透明度(0-1)
  • kind:图表类型(bar,line,hist,kde等)
  • xticks:设定x轴刻度值
  • yticks:设定y轴刻度值
  • xlim,ylim:设定轴界限,[0,10]
  • grid:显示轴网格线,默认关闭
  • rot:旋转刻度标签
  • use_index:将对象的索引用作刻度标签
  • logy:在Y轴上使用对数标尺

DataFrame.plot方法的参数

DataFrame除了Series中的参数外,还有一些独有的选项。

  • subplots:将各个DataFrame列绘制到单独的subplot中
  • sharex,sharey:共享x,y轴
  • figsize:控制图像大小
  • title:图像标题
  • legend:添加图例,默认显示
  • sort_columns:以字母顺序绘制各列,默认使用当前顺序

柱状图

在生成线型图的代码中加上kind=‘bar’或者kind=‘barh’,可以生成柱状图或水平柱状图。

fig,axes = plt.subplots(2,1)
data = pd.Series(np.random.rand(10),index=list('abcdefghij'))
data.plot(kind='bar',ax=axes[0],rot=0,alpha=0.3)
data.plot(kind='barh',ax=axes[1],grid=True)
<matplotlib.axes._subplots.AxesSubplot at 0xfe39898>

Python 資料視覺化的三大步驟

柱状图有一个非常实用的方法:

利用value_counts图形化显示Series或者DF中各值的出现频率。

比如df.value_counts().plot(kind='bar')

Python可视化的基础语法就到这里,其他图形的绘制方法大同小异。

重点是遵循三个步骤的思路来进行思考、选择、应用。多多练习可以更加熟练。


以上是Python 資料視覺化的三大步驟的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
您如何將元素附加到Python數組?您如何將元素附加到Python數組?Apr 30, 2025 am 12:19 AM

Inpython,YouAppendElementStoAlistusingTheAppend()方法。 1)useappend()forsingleelements:my_list.append(4).2)useextend()orextend()或= formultiplelements:my_list.extend.extend(emote_list)ormy_list = [4,5,6] .3)useInsert()forspefificpositions:my_list.insert(1,5).beaware

您如何調試與Shebang有關的問題?您如何調試與Shebang有關的問題?Apr 30, 2025 am 12:17 AM

調試shebang問題的方法包括:1.檢查shebang行確保是腳本首行且無前置空格;2.驗證解釋器路徑是否正確;3.直接調用解釋器運行腳本以隔離shebang問題;4.使用strace或truss跟踪系統調用;5.檢查環境變量對shebang的影響。

如何從python數組中刪除元素?如何從python數組中刪除元素?Apr 30, 2025 am 12:16 AM

pythonlistscanbemanipulationusseveralmethodstoremovelements:1)theremove()MethodRemovestHefirStocCurrenceOfAstePecificiedValue.2)thepop()thepop()methodRemovesandReturnturnturnturnsanaNelementAgivenIndex.3)

可以在Python列表中存儲哪些數據類型?可以在Python列表中存儲哪些數據類型?Apr 30, 2025 am 12:07 AM

pythonlistscanstoreanydatate型,包括素,弦,浮子,布爾人,其他列表和迪克尼亞式

在Python列表上可以執行哪些常見操作?在Python列表上可以執行哪些常見操作?Apr 30, 2025 am 12:01 AM

pythristssupportnumeroferations:1)addingElementSwithAppend(),Extend(),andInsert()。 2)emovingItemSusingRemove(),pop(),andclear(),and clear()。 3)訪問andModifyingandmodifyingwithIndexingandSlicing.4)

如何使用numpy創建多維數組?如何使用numpy創建多維數組?Apr 29, 2025 am 12:27 AM

使用NumPy創建多維數組可以通過以下步驟實現:1)使用numpy.array()函數創建數組,例如np.array([[1,2,3],[4,5,6]])創建2D數組;2)使用np.zeros(),np.ones(),np.random.random()等函數創建特定值填充的數組;3)理解數組的shape和size屬性,確保子數組長度一致,避免錯誤;4)使用np.reshape()函數改變數組形狀;5)注意內存使用,確保代碼清晰高效。

說明Numpy陣列中'廣播”的概念。說明Numpy陣列中'廣播”的概念。Apr 29, 2025 am 12:23 AM

播放innumpyisamethodtoperformoperationsonArraySofDifferentsHapesbyAutapityallate AligningThem.itSimplifififiesCode,增強可讀性,和Boostsperformance.Shere'shore'showitworks:1)較小的ArraySaraySaraysAraySaraySaraySaraySarePaddedDedWiteWithOnestOmatchDimentions.2)

說明如何在列表,Array.Array和用於數據存儲的Numpy數組之間進行選擇。說明如何在列表,Array.Array和用於數據存儲的Numpy數組之間進行選擇。Apr 29, 2025 am 12:20 AM

forpythondataTastorage,choselistsforflexibilityWithMixedDatatypes,array.ArrayFormeMory-effficityHomogeneousnumericalData,andnumpyArraysForAdvancedNumericalComputing.listsareversareversareversareversArversatilebutlessEbutlesseftlesseftlesseftlessforefforefforefforefforefforefforefforefforefforlargenumerdataSets; arrayoffray.array.array.array.array.array.ersersamiddreddregro

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!