Python数据分析库pandas基本操作方法_python-Python教程-PHP中文网

首页

后端开发

Python教程

Python数据分析库pandas基本操作方法_python

不言

Apr 08, 2018 am 11:35 AM

pandaspython数据分析

下面就为大家分享一篇Python数据分析库pandas基本操作方法，具有很好的参考价值，希望对大家有所帮助。一起过来看看吧

pandas是什么？

是它吗？

。。。。很显然pandas没有这个家伙那么可爱。。。。

我们来看看pandas的官网是怎么来定义自己的：

pandas is an open source, easy-to-use data structures and data analysis tools for the Python programming language.

很显然，pandas是python的一个非常强大的数据分析库！

让我们来学习一下它吧！

1.pandas序列

import numpy as np 
import pandas as pd 
 
s_data = pd.Series([1,3,5,7,np.NaN,9,11])#pandas中生产序列的函数，类似于我们平时说的数组 
print s_data

2.pandas数据结构DataFrame

import numpy as np 
import pandas as pd 
 
#以20170220为基点向后生产时间点 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
#DataFrame生成函数，行索引为时间点，列索引为ABCD 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
print 
print data.shape 
print 
print data.values

3.DataFrame的一些操作(1)

import numpy as np
import pandas as pd
#设计一个字典
d_data = {&#39;A&#39;:1,&#39;B&#39;:pd.Timestamp(&#39;20170220&#39;),&#39;C&#39;:range(4),&#39;D&#39;:np.arange(4)}
print d_data
#使用字典生成一个DataFrame
df_data = pd.DataFrame(d_data)
print df_data
#DataFrame中每一列的类型
print df_data.dtypes
#打印A列
print df_data.A
#打印B列
print df_data.B
#B列的类型
print type(df_data.B)

4.DataFrame的一些操作(2)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
print 
#输出DataFrame头部数据，默认为前5行 
print data.head() 
#输出输出DataFrame第一行数据 
print data.head(1) 
#输出DataFrame尾部数据，默认为后5行 
print data.tail() 
#输出输出DataFrame最后一行数据 
print data.tail(1) 
#输出行索引 
print data.index 
#输出列索引 
print data.columns 
#输出DataFrame数据值 
print data.values 
#输出DataFrame详细信息 
print data.describe()

5.DataFrame的一些操作(3)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
print 
#转置 
print data.T 
#输出维度信息 
print data.shape 
#转置后的维度信息 
print data.T.shape 
#将列索引排序 
print data.sort_index(axis = 1) 
#将列索引排序，降序排列 
print data.sort_index(axis = 1,ascending=False) 
#将行索引排序，降序排列 
print data.sort_index(axis = 0,ascending=False) 
#按照A列的值进行升序排列 
print data.sort_values(by=&#39;A&#39;)

6.DataFrame的一些操作(4)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
#输出A列 
print data.A 
#输出A列 
print data[&#39;A&#39;] 
#输出3,4行 
print data[2:4] 
#输出3，4行 
print data[&#39;20170222&#39;:&#39;20170223&#39;] 
#输出3,4行 
print data.loc[&#39;20170222&#39;:&#39;20170223&#39;] 
#输出3,4行 
print data.iloc[2:4] 
输出B,C两列 
print data.loc[:,[&#39;B&#39;,&#39;C&#39;]]

7.DataFrame的一些操作(5)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
#输出A列中大于0的行 
print data[data.A > 0] 
#输出大于0的数据，小于等于0的用NaN补位 
print data[data > 0] 
#拷贝data 
data2 = data.copy() 
print data2 
tag = [&#39;a&#39;] * 2 + [&#39;b&#39;] * 2 + [&#39;c&#39;] * 2 
#在data2中增加TAG列用tag赋值 
data2[&#39;TAG&#39;] = tag 
print data2 
#打印TAG列中为a,c的行 
print data2[data2.TAG.isin([&#39;a&#39;,&#39;c&#39;])]

8.DataFrame的一些操作(6)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
#将第一行第一列元素赋值为100 
data.iat[0,0] = 100 
print data 
#将A列元素用range(6)赋值 
data.A = range(6) 
print data 
#将B列元素赋值为200 
data.B = 200 
print data 
#将3,4列元素赋值为1000 
data.iloc[:,2:5] = 1000 
print data

9.DataFrame的一些操作(7)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods = 6) 
df = pd.DataFrame(np.random.randn(6,4) , index = dates , columns = list(&#39;ABCD&#39;)) 
print df 
#重定义索引，并添加E列 
dfl = df.reindex(index = dates[0:4],columns = list(df.columns)+[&#39;E&#39;]) 
print dfl 
#将E列中的2,3行赋值为2 
dfl.loc[dates[1:3],&#39;E&#39;] = 2 
print dfl 
#去掉存在NaN元素的行 
print dfl.dropna() 
#将NaN元素赋值为5 
print dfl.fillna(5) 
#判断每个元素是否为NaN 
print pd.isnull(dfl) 
#求列平均值 
print dfl.mean() 
#对每列进行累加 
print dfl.cumsum()

10.DataFrame的一些操作(8)

import numpy as np 
import pandas as pd 
dates = pd.date_range(&#39;20170220&#39;,periods = 6) 
df = pd.DataFrame(np.random.randn(6,4) , index = dates , columns = list(&#39;ABCD&#39;)) 
print df 
dfl = df.reindex(index = dates[0:4],columns = list(df.columns)+[&#39;E&#39;]) 
print dfl 
#针对行求平均值 
print dfl.mean(axis=1) 
#生成序列并向右平移两位 
s = pd.Series([1,3,5,np.nan,6,8],index = dates).shift(2) 
print s 
#df与s做减法运算 
print df.sub(s,axis = &#39;index&#39;) 
#每列进行累加运算 
print df.apply(np.cumsum) 
#每列的最大值减去最小值 
print df.apply(lambda x: x.max() - x.min())

11.DataFrame的一些操作(9)

import numpy as np 
import pandas as pd 
dates = pd.date_range(&#39;20170220&#39;,periods = 6) 
df = pd.DataFrame(np.random.randn(6,4) , index = dates , columns = list(&#39;ABCD&#39;)) 
print df 
#定义一个函数 
def _sum(x): 
 print(type(x)) 
 return x.sum() 
#apply函数可以接受一个函数作为参数 
print df.apply(_sum) 
s = pd.Series(np.random.randint(10,20,size = 15)) 
print s 
#统计序列中每个元素出现的次数 
print s.value_counts() 
#返回出现次数最多的元素 
print s.mode()

12.DataFrame的一些操作(10)

import numpy as np 
import pandas as pd 
 
df = pd.DataFrame(np.random.randn(10,4) , columns = list(&#39;ABCD&#39;)) 
print df 
#合并函数 
dfl = pd.concat([df.iloc[:3],df.iloc[3:7],df.iloc[7:]]) 
print dfl 
#判断两个DataFrame中元素是否相等 
print df == dfl

13.DataFrame的一些操作(11)

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(10,4) , columns = list(&#39;ABCD&#39;))
print df
left = pd.DataFrame({&#39;key&#39;:[&#39;foo&#39;,&#39;foo&#39;],&#39;lval&#39;:[1,2]})
right = pd.DataFrame({&#39;key&#39;:[&#39;foo&#39;,&#39;foo&#39;],&#39;rval&#39;:[4,5]})
print left
print right
#通过key来合并数据
print pd.merge(left,right,on=&#39;key&#39;)
s = pd.Series(np.random.randint(1,5,size = 4),index = list(&#39;ABCD&#39;))
print s
#通过序列添加一行
print df.append(s,ignore_index = True)

14.DataFrame的一些操作(12)

import numpy as np 
import pandas as pd 
df = pd.DataFrame({&#39;A&#39;: [&#39;foo&#39;,&#39;bar&#39;,&#39;foo&#39;,&#39;bar&#39;, 
       &#39;foo&#39;,&#39;bar&#39;,&#39;foo&#39;,&#39;bar&#39;], 
     &#39;B&#39;: [&#39;one&#39;,&#39;one&#39;,&#39;two&#39;,&#39;three&#39;, 
       &#39;two&#39;,&#39;two&#39;,&#39;one&#39;,&#39;three&#39;], 
     &#39;C&#39;: np.random.randn(8), 
     &#39;D&#39;: np.random.randn(8)}) 
print df 
print 
#根据A列的索引求和 
print df.groupby(&#39;A&#39;).sum() 
print 
#先根据A列的索引，在根据B列的索引求和 
print df.groupby([&#39;A&#39;,&#39;B&#39;]).sum() 
print 
#先根据B列的索引，在根据A列的索引求和 
print df.groupby([&#39;B&#39;,&#39;A&#39;]).sum()

15.DataFrame的一些操作(13)

import pandas as pd 
import numpy as np 
#zip函数可以打包成一个个tuple 
tuples = list(zip(*[[&#39;bar&#39;, &#39;bar&#39;, &#39;baz&#39;, &#39;baz&#39;, 
      &#39;foo&#39;, &#39;foo&#39;, &#39;qux&#39;, &#39;qux&#39;], 
     [&#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;, 
      &#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;]])) 
print tuples 
#生成一个多层索引 
index = pd.MultiIndex.from_tuples(tuples, names=[&#39;first&#39;, &#39;second&#39;]) 
print index 
print 
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=[&#39;A&#39;, &#39;B&#39;]) 
print df 
print 
#将列索引变成行索引 
print df.stack()

16.DataFrame的一些操作(14)

import pandas as pd 
import numpy as np 
 
tuples = list(zip(*[[&#39;bar&#39;, &#39;bar&#39;, &#39;baz&#39;, &#39;baz&#39;, 
      &#39;foo&#39;, &#39;foo&#39;, &#39;qux&#39;, &#39;qux&#39;], 
     [&#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;, 
      &#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;]])) 
index = pd.MultiIndex.from_tuples(tuples, names=[&#39;first&#39;, &#39;second&#39;]) 
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=[&#39;A&#39;, &#39;B&#39;]) 
print df 
print 
stacked = df.stack() 
print stacked 
#将行索引转换为列索引 
print stacked.unstack() 
#转换两次 
print stacked.unstack().unstack()

17.DataFrame的一些操作(15)

import pandas as pd 
import numpy as np 
df = pd.DataFrame({&#39;A&#39; : [&#39;one&#39;, &#39;one&#39;, &#39;two&#39;, &#39;three&#39;] * 3, 
     &#39;B&#39; : [&#39;A&#39;, &#39;B&#39;, &#39;C&#39;] * 4, 
     &#39;C&#39; : [&#39;foo&#39;, &#39;foo&#39;, &#39;foo&#39;, &#39;bar&#39;, &#39;bar&#39;, &#39;bar&#39;] * 2, 
     &#39;D&#39; : np.random.randn(12), 
     &#39;E&#39; : np.random.randn(12)}) 
print df 
#根据A，B索引为行，C的索引为列处理D的值 
print pd.pivot_table(df, values=&#39;D&#39;, index=[&#39;A&#39;, &#39;B&#39;], columns=[&#39;C&#39;]) 
#感觉A列等于one为索引，根据C列组合的平均值 
print df[df.A==&#39;one&#39;].groupby(&#39;C&#39;).mean()

18.时间序列(1)

import pandas as pd 
import numpy as np 
 
#创建一个以20170220为基准的以秒为单位的向前推进600个的时间序列 
rng = pd.date_range(&#39;20170220&#39;, periods=600, freq=&#39;s&#39;) 
print rng 
#以时间序列为索引的序列 
print pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

19.时间序列(2)

import pandas as pd 
import numpy as np 
 
rng = pd.date_range(&#39;20170220&#39;, periods=600, freq=&#39;s&#39;) 
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng) 
#重采样，以2分钟为单位进行加和采样 
print ts.resample(&#39;2Min&#39;, how=&#39;sum&#39;) 
#列出2011年1季度到2017年1季度 
rng1 = pd.period_range(&#39;2011Q1&#39;,&#39;2017Q1&#39;,freq=&#39;Q&#39;) 
print rng1 
#转换成时间戳形式 
print rng1.to_timestamp() 
#时间加减法 
print pd.Timestamp(&#39;20170220&#39;) - pd.Timestamp(&#39;20170112&#39;) 
print pd.Timestamp(&#39;20170220&#39;) + pd.Timedelta(days=12)

20.数据类别

import pandas as pd 
import numpy as np 
 
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":[&#39;a&#39;, &#39;b&#39;, &#39;b&#39;, &#39;a&#39;, &#39;a&#39;, &#39;e&#39;]}) 
print df 
#添加类别数据，以raw_grade的值为类别基础 
df["grade"] = df["raw_grade"].astype("category") 
print df 
#打印类别 
print df["grade"].cat.categories 
#更改类别 
df["grade"].cat.categories = ["very good", "good", "very bad"] 
print df 
#根据grade的值排序 
print df.sort_values(by=&#39;grade&#39;, ascending=True) 
#根据grade排序显示数量 
print df.groupby("grade").size()

21.数据可视化

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
 
ts = pd.Series(np.random.randn(1000), index=pd.date_range(&#39;20170220&#39;, periods=1000)) 
ts = ts.cumsum() 
print ts 
ts.plot() 
plt.show()

22.数据读写

import pandas as pd 
import numpy as np 
 
df = pd.DataFrame(np.random.randn(10, 4), columns=list(&#39;ABCD&#39;)) 
#数据保存，相对路径 
df.to_csv(&#39;data.csv&#39;) 
#数据读取 
print pd.read_csv(&#39;data.csv&#39;, index_col=0)

数据被保存到这个文件中：

打开看看：

相关推荐：

python解决pandas处理缺失值为空字符串的问题_python

实例讲解Python如何利用pandas查询数据

以上是Python数据分析库pandas基本操作方法_python的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python脚本可能无法在UNIX上执行的一些常见原因是什么？Apr 28, 2025 am 12:18 AM

Python脚本在Unix系统上无法运行的原因包括：1)权限不足，使用chmod xyour_script.py赋予执行权限；2)Shebang行错误或缺失，应使用#!/usr/bin/envpython；3)环境变量设置不当，可打印os.environ调试；4)使用错误的Python版本，可在Shebang行或命令行指定版本；5)依赖问题，使用虚拟环境隔离依赖；6)语法错误，使用python-mpy_compileyour_script.py检测。

举一个场景的示例，其中使用Python数组比使用列表更合适。Apr 28, 2025 am 12:15 AM

使用Python数组比列表更适合处理大量数值数据。1)数组更节省内存，2)数组对数值运算更快，3)数组强制类型一致性，4)数组与C语言数组兼容，但在灵活性和便捷性上不如列表。

在Python中使用列表与数组的性能含义是什么？Apr 28, 2025 am 12:10 AM

列表列表更好的forflexibility andmixDatatatypes，何时出色的Sumerical Computitation sand larged数据集。1）不可使用的列表xbilese xibility xibility xibility xibility xibility xibility xibility xibility xibility xibility xibles and comply offrequent elementChanges.2）

Numpy如何处理大型数组的内存管理？Apr 28, 2025 am 12:07 AM

numpymanagesmemoryforlargearraysefefticefticefipedlyuseviews，副本和内存模拟文件.1）viewsAllowSinglicingWithOutCopying，直接modifytheoriginalArray.2）copiesCanbecopy canbecreatedwitheDedwithTheceDwithThecevithThece（）methodervingdata.3）metservingdata.3）memore memore-mappingfileShessandAstaStaStstbassbassbassbassbassbassbassbassbassbassbb

哪个需要导入模块：列表或数组？Apr 28, 2025 am 12:06 AM

Listsinpythondonotrequireimportingamodule，helilearraysfomthearraymoduledoneedanimport.1）列表列表，列表，多功能和canholdMixedDatatatepes.2）arraysaremoremoremoremoremoremoremoremoremoremoremoremoremoremoremoremoremeremeremeremericdatabuteffeftlessdatabutlessdatabutlessfiblesible suriplyElsilesteletselementEltecteSemeTemeSemeSemeSemeTypysemeTypysemeTysemeTypysemeTypepe。

可以在Python数组中存储哪些数据类型？Apr 27, 2025 am 12:11 AM

pythonlistscanStoryDatatepe，ArrayModulearRaysStoreOneType，and numpyArraySareSareAraysareSareAraysareSareComputations.1）列出sareversArversAtileButlessMemory-Felide.2）arraymoduleareareMogeMogeNareSaremogeNormogeNoreSoustAta.3）

如果您尝试将错误的数据类型的值存储在Python数组中，该怎么办？Apr 27, 2025 am 12:10 AM

WhenyouattempttostoreavalueofthewrongdatatypeinaPythonarray,you'llencounteraTypeError.Thisisduetothearraymodule'sstricttypeenforcement,whichrequiresallelementstobeofthesametypeasspecifiedbythetypecode.Forperformancereasons,arraysaremoreefficientthanl

Python标准库的哪一部分是：列表或数组？Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

See all articles