浅析Python数据处理

不言原创: 2018-05-02 13:46:241894浏览

本篇文章给大家分享了关于Python数据处理的相关内容以及要点解释，对此知识点有兴趣的朋友可以参考学习下。

Numpy、Pandas是Python数据处理中经常用到的两个框架，都是采用C语言编写，所以运算速度快。Matplotlib是Python的的画图工具，可以把之前处理后的数据通过图像绘制出来。之前只是看过语法，没有系统学习总结过，本博文总结了这三个框架的API。

以下是这三个框架的的简单介绍和区别：

Numpy：经常用于数据生成和一些运算
Pandas：基于Numpy构建的，是Numpy的升级版本
Matplotlib：Python中强大的绘图工具

Numpy

Numpy快速入门教程可参考：Numpy tutorial

Numpy属性

ndarray.ndim：维度

ndarray.shape：行数和列数，例如(3, 5)

ndarray.size：元素的个数

ndarray.dtype：元素类型

Numpy创建

array(object, dtype=None)：使用Python的list或者tuple创建数据

zeors(shape, dtype=float)：创建全为0的数据

ones(shape, dtype=None)：创建全为1的数据

empty(shape, dtype=float)：创建没有初始化的数据

arange([start, ]stop, [step, ]dtype=None)：创建固定间隔的数据段

linspace(start, stop, num=50, dtype=None)：在给定的范围，均匀的创建数据

Numpy运算

加、减：a + b、a - b

乘：b*2、10*np.sin(a)

次方：b**2

判断：a5a74e8a09ef8be7981cbb6bb975da430 0]

Pandas处理丢失数据

删除丢失数据的行：df.dropna(how='any')

填充丢失数据：df.fillna(value=5)

数据值是否为NaN：pd.isna(df1)

Pandas合并数据

pd.concat([df1, df2, df3], axis=0)：合并df

pd.merge(left, right, on='key')：根据key字段合并

df.append(s, ignore_index=True)：添加数据

Pandas导入导出

df.to_csv(‘foo.csv')：保存到csv文件

pd.read_csv(‘foo.csv')：从csv文件读取

df.to_excel(‘foo.xlsx', sheet_name='Sheet1')：保存到excel文件

pd.read_excel(‘foo.xlsx', ‘Sheet1', index_col=None, na_values=[‘NA'])：从excel文件读取

Matplotlib

这里只介绍最简单的出图方式：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

浅析Python数据处理

相关文章