ホームページ >バックエンド開発 >Python チュートリアル >Numpy および Pandas Python ライブラリを使用するにはどうすればよいですか?

Numpy および Pandas Python ライブラリを使用するにはどうすればよいですか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-05-09 16:28:16899ブラウズ

1 Numpy の概要と応用

1-1Numpy とは

NumPy は非常に高速な数学ライブラリです。オープンソースの Python 科学計算ライブラリ。主に次のような配列および行列の計算に使用されます。

強力な N 次元配列オブジェクト ndarray ブロードキャスト関数 C/C/Fortran コードツールを統合する関数線形代数、フーリエ変換、乱数生成、その他の関数 1-2 Numpy を選択する理由

同じ数値計算タスクにおいて、ネイティブ Python コードを直接記述するよりも Numpy を使用する利点は次のとおりです。

コードはより簡潔です:

Numpy は配列と行列を粒度として直接計算し、多数の数学関数をサポートしますが、Python は for ループを使用してそれを実装する必要があります。一番下

より効率的なパフォーマンス:

Numpy の配列ストレージ効率と入出力計算パフォーマンスは、List またはネストされた List を使用する Python よりもはるかに優れています

注: Numpy のデータストレージは Python のネイティブ List とは異なります
さらに、Numpy のコードのほとんどは C 言語で実装されているため、Numpy は純粋な Python コードよりも効率的です

#関連する学習とコードは次のとおりです: Numpy、pandas、matplotlib を事前にインストールする必要があります

##Numpy ターミナルのインストールコマンド:
pip install numpyPandas ターミナルインストールコマンド:
pip install pandasMatplotlib ターミナルインストールコマンド:
pip install matplotlib

# #

# @Software : PyCharm
# Numpy是Python各种数据科学类库的基础库
# 比如：Pandas，Scipy，Scikit_Learn等
# Numpy应用：
&#39;&#39;&#39;
NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用， 这种组合广泛用于替代 MatLab，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学或者机器学习。
SciPy 是一个开源的 Python 算法库和数学工具包。
SciPy 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
Matplotlib 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面。它为利用通用的图形用户界面工具包，如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口（API）。

&#39;&#39;&#39;
# 安装 NumPy 最简单的方法就是使用 pip 工具：
# pip3 install --user numpy scipy matplotlib
# --user 选项可以设置只安装在当前的用户下，而不是写入到系统目录。
# 默认情况使用国外线路，国外太慢，我们使用清华的镜像就可以:
# pip install numpy scipy matplotlib -i.csv https://pypi.tuna.tsinghua.edu.cn/simple
# 这种pip安装是一种最简单、最轻量级的方法，当然，这里的前提是有Python包管理器
# 如若不行，可以安装Anaconda【目前应用较广泛】，这是一个开源的Python发行版
# 安装Anaconda地址：https://www.anaconda.com/
# 安装验证
# 测试是否安装成功
from numpy import *     # 导入 numpy 库
print(eye(4))           # 生成对角矩阵
# 查看版本：
import numpy as np
print(np.__version__)
# 实现2个数组的加法：
# 1-原生Python实现
def Py_sum(n):
    a = [i**2 for i in range(n)]
    b = [i**3 for i in range(n)]
    # 创建一个空列表，便于后续存储
    ab_sum = []
    for i in range(n):
        # 将a、b中对应的元素相加
        ab_sum.append(a[i]+b[i])
    return ab_sum
# 调用实现函数
print(Py_sum(10))
# 2-Numpy实现：
def np_sum(n):
    c = np.arange(n) ** 2
    d = np.arange(n) ** 3
    return c+d
print(np_sum(10))
# 易看出使用Numpy代码简洁且运行效率快
# 测试1000，10W，以及100W的运行时间
# 做绘图对比：
import pandas as pd
# 输入数据
py_times = [1.72*1000, 202*1000, 1.92*1000]
np_times = [18.8, 14.9*1000, 17.8*10000]

# 创建Pandas的DataFrame类型数据
ch_lxw = pd.DataFrame({
    &#39;py_times&#39;: py_times,
    &#39;np_times&#39;: np_times    # 可加逗号
})
print(ch_lxw)

import matplotlib.pyplot as plt
# 线性图
print(ch_lxw.plot())
# 柱状图
print(ch_lxw.plot.bar())
# 简易箱线图
print(ch_lxw.boxplot)

plt.show()

Numpy および Pandas Python ライブラリを使用するにはどうすればよいですか? 線形グラフの継続的な効果は次のとおりです:

Numpy および Pandas Python ライブラリを使用するにはどうすればよいですか? ヒストグラムの継続的な効果は次のとおりです。

2 NumPy Ndarray オブジェクト Numpy および Pandas Python ライブラリを使用するにはどうすればよいですか?

NumPy の最も重要な機能の 1 つは、N 次元配列オブジェクト ndarray です。 0 で始まる同じタイプの一連のデータのコレクション添字コレクション内の要素にインデックスを付けます。

ndarray オブジェクトは、同じ型の要素を格納するために使用される多次元配列であり、その中の各要素はメモリ内に同じ格納サイズの領域を持ちます。 ndarray オブジェクトは、配列のインデックス付けメカニズムを使用して、配列内の各要素をメモリブロックにマップし、特定のレイアウト (行または列) に従ってメモリブロックを並べ替えます。

ndarray は内部で構成されます。次のコンテンツ構成の:

データへのポインター (メモリ内のデータまたはメモリマップされたファイル);

データ型または dtype、配列内の固定サイズの値のグリッドを記述します;
配列の形状 (形状) を表すタプル、タプルサイズを表します各次元;
ストライドタプル (ストライド)。整数は、現在の次元の次の要素に進むために「交差する」必要があるバイト数を指します。。

&#39;&#39;&#39;
创建一个 ndarray 只需调用 NumPy 的 array 函数即可：
numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
参数说明：

名称	描述
object	表示数组或嵌套的数列
dtype	表示数组元素的数据类型，可选
copy	表示对象是否需要复制，可选
order	创建数组的样式，C为行方向，F为列方向，A为任意方向（默认）
subok	默认返回一个与基类类型一致的数组
ndmin	指定生成数组的最小维度
&#39;&#39;&#39;
# ndarray 对象由计算机内存的连续一维部分组成，并结合索引模式，将每个元素映射到内存块中的一个位置。
# 内存块以行顺序(C样式)或列顺序(FORTRAN或MatLab风格，即前述的F样式)来保存元素

# 学好Numpy，便于后期对Pandas的数据处理
# 1:一维
import numpy as np
lxw = np.array([5, 2, 0])
print(lxw)
print()
# 2： 多于一个维度
import numpy as np
lxw2 = np.array([[1, 5, 9], [5, 2, 0]])
print(lxw2)
print()
# 3: 最小维度
import numpy as np
lxw3 = np.array([5, 2, 0, 1, 3, 1, 4], ndmin=2)     # ndmin: 指定生成数组的最小维度
print(lxw3)
print()
# 4： dtype参数
import numpy as np
lxw4 = np.array([3, 3, 4, 4], dtype=complex)        # dtype: 数组元素的数据类型[complex 复数】
print(lxw4)

3 Numpy データ型

numpy がサポートするデータ型Ratio Python にはさらに多くの組み込み型があり、これらは基本的に C 言語のデータ型に対応します。一部の型は Python の組み込み型に対応します。

一般的に使用される NumPy の基本型:

名前

説明bool_: [ブールデータ型 (True または False)] int_: [デフォルトの整数型 (類似)言語では C の long、int32 または int64 に変換されます)] intc: [C の int 型と同じ、通常は int32 または int 64]
intp: [インデックス付けに使用される整数型 (C の ssize_t と同様、通常はこの中でこの場合、依然として int32 または int64)]
int8: [バイト (-128 ～ 127)]
int16: [整数 (-32768 ～ 32767)]
int32: [整数 (-2147483648 ～ 2147483647) ) )]
int64: [整数 (-9223372036854775808 ～ 9223372036854775807)]
uint8: [符号なし整数 (0 ～ 255)]
uint16: [符号なし整数 (0 ～ 65535)]
uint32 : [符号なし整数 (0 ～ 4294967295)]
uint64 : [符号なし整数 (0 ～ 18446744073709551615)]
float_ float64 : [型の省略形]
float16 : [以下を含む半精度浮動小数点数: 1符号ビット、5 指数ビット、10 仮数ビット]
float32: [単精度浮動小数点数、以下を含む: 1 符号ビット、8 指数ビット、23 仮数ビット]
float64: [倍精度浮動小数点数、含まれるもの: 1 符号ビット、11 指数ビット、52 仮数ビット]
complex_ complex128: [型の略称、つまり 128 ビット複素数]
complex64: [倍精度 32 ビット浮動小数点を表す複素数点数 (実数部と虚数部)]
complex128: [倍精度の 64 ビット浮動小数点数 (実数部と虚数部) を表す複素数]

関連する学習とコードは次のとおりです。以下：

&#39;&#39;&#39;
# numpy 的数值类型实际上是 dtype 对象的实例，并对应唯一的字符，包括 np.bool_，np.int32，np.float32，等等。
&#39;&#39;&#39;
#　Numpy 类型对象：
&#39;&#39;&#39;
dtype 对象是使用以下语法构造的：

numpy.dtype(object, align, copy)

object - 要转换为的数据类型对象
align - 如果为 true，填充字段使其类似 C 的结构体。
copy - 复制 dtype 对象 ，如果为 false，则是对内置数据类型对象的引用

&#39;&#39;&#39;
# 1: 使用标量类型
import numpy as np
lxw = np.dtype(np.int32)
print(lxw)
print()
# 2: int8, int16, int32, int64 四种数据类型可以使用字符串 &#39;i1&#39;, &#39;i2&#39;,&#39;i4&#39;,&#39;i8&#39; 代替
import numpy as np
lxw2 = np.dtype(&#39;i8&#39;)       # int64
print(lxw2)
print()
# 3: 字节顺序标注
import numpy as np
lxw3 = np.dtype(&#39;<i4&#39;)      # int32
print(lxw3)
print()
# 4: 首先创建结构化数据类型
import numpy as np
lxw4 = np.dtype([(&#39;age&#39;, np.int8)])     # i1
print(lxw4)
print()
# 5: 将数据类型应用于 ndarray 对象
import numpy as np
lxw5 = np.dtype([(&#39;age&#39;, np.int32)])
a = np.array([(10,), (20,), (30,)], dtype=lxw5)
print(a)
print()
# 6: 类型字段名可以用于存取实际的 age 列
import numpy as np
lxw6 = np.dtype([(&#39;age&#39;, np.int64)])
a = np.array([(10,), (20,), (30,)], dtype=lxw6)
print(a[&#39;age&#39;])
print()
# 7: 定义一个结构化数据类型 student，包含字符串字段 name，整数字段 age，及浮点字段 marks，并将这个 dtype 应用到 ndarray 对象
import numpy as np
student = np.dtype([(&#39;name&#39;, &#39;S20&#39;), (&#39;age&#39;, &#39;i2&#39;), (&#39;marks&#39;, &#39;f4&#39;)])
print(student)      # 运行结果：[(&#39;name&#39;, &#39;S20&#39;), (&#39;age&#39;, &#39;<i2&#39;), (&#39;marks&#39;, &#39;<f4&#39;)]
print()
# 8:
import numpy as np
student2 = np.dtype([(&#39;name&#39;,&#39;S20&#39;), (&#39;age&#39;, &#39;i1&#39;), (&#39;marks&#39;, &#39;f4&#39;)])
lxw = np.array([(&#39;lxw&#39;, 21, 52), (&#39;cw&#39;, 22, 58)], dtype=student2)
print(lxw)          # 运行结果：[(b&#39;lxw&#39;, 21, 52.) (b&#39;cw&#39;, 22, 58.)]
# 每个内建类型都有一个唯一定义它的字符代码，如下：
&#39;&#39;&#39;
字符	对应类型
b	布尔型
i.csv	(有符号) 整型
u	无符号整型 integer
f	浮点型
c	复数浮点型
m	timedelta（时间间隔）
M	datetime（日期时间）
O	(Python) 对象
S, a	(byte-)字符串
U	Unicode
V	原始数据 (void)
&#39;&#39;&#39;

4 Numpy 数组属性

在 NumPy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。

比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。

相关代码学习、如下：

# NumPy 的数组中比较重要 ndarray 对象属性有：
&#39;&#39;&#39;
属性	            说明
ndarray.ndim	秩，即轴的数量或维度的数量
ndarray.shape	数组的维度，对于矩阵，n 行 m 列
ndarray.size	数组元素的总个数，相当于 .shape 中 n*m 的值
ndarray.dtype	ndarray 对象的元素类型
ndarray.itemsize	ndarray 对象中每个元素的大小，以字节为单位
ndarray.flags	ndarray 对象的内存信息
ndarray.real	ndarray元素的实部
ndarray.imag	ndarray 元素的虚部
ndarray.data	包含实际数组元素的缓冲区，由于一般通过数组的索引获取元素，所以通常不需要使用这个属性。

&#39;&#39;&#39;
# ndarray.ndim
# ndarray.ndim 用于返回数组的维数，等于秩。
import numpy as np
lxw = np.arange(36)
print(lxw.ndim)             # a 现只有一个维度
# 现调整其大小
a = lxw.reshape(2, 6, 3)    # 现在拥有三个维度
print(a.ndim)
print()
# ndarray.shape
# ndarray.shape 表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 ndim 属性(秩)。比如，一个二维数组，其维度表示"行数"和"列数"。
# ndarray.shape 也可以用于调整数组大小。
import numpy as np
lxw2 = np.array([[169, 175, 165], [52, 55, 50]])
print(lxw2.shape)   # shape: 数组的维度
print()
# 调整数组大小:
import numpy as np
lxw3 = np.array([[123, 234, 345], [456, 567, 789]])
lxw3.shape = (3, 2)
print(lxw3)
print()
# NumPy 也提供了 reshape 函数来调整数组大小:
import numpy as np
lxw4 = np.array([[23, 543, 65], [32, 54, 76]])
c = lxw4.reshape(2, 3)  # reshape: 调整数组大小
print(c)
print()
# ndarray.itemsize
# ndarray.itemsize 以字节的形式返回数组中每一个元素的大小。

# 例如，一个元素类型为 float64 的数组 itemsize 属性值为 8(float64 占用 64 个 bits,
# 每个字节长度为 8，所以 64/8，占用 8 个字节），又如，一个元素类型为 complex32 的数组 item 属性为 4（32/8）
import numpy as np
# 数组的 dtype 为 int8（一个字节）
x = np.array([1, 2, 3, 4, 5], dtype=np.int8)
print(x.itemsize)
# 数组的dtypy现在为float64(八个字节）
y = np.array([1, 2, 3, 4, 5], dtype=np.float64)
print(y.itemsize)   # itemsize: 占用字节个数
# 拓展：
# 整体转化为整数型
print(np.array([3.5, 6.6, 8.9], dtype=int))
# 设置copy参数，默认为True
a = np.array([2, 5, 6, 8, 9])
b = np.array(a)                     # 复制a
print(b)                            # 控制台打印b
print(f&#39;a: {id(a)}, b: {id(b)}&#39;)     # 可打印出a和b的内存地址
print(&#39;=&#39;*20)
# 类似于列表的引用赋值
b = a
print(f&#39;a: {id(a)}, b: {id(b)}&#39;)
# 创建一个矩阵
lxw5 = np.mat([1, 2, 3, 4, 5])
print(type(lxw5))   # 矩阵类型： <class &#39;numpy.matrix&#39;>
# 复制出副本，并保持原类型
yy = np.array(lxw5, subok=True)
print(type(yy))
# 只复制副本，不管其类型
by = np.array(lxw5, subok=False)    # False: 使用数组的数据类型
print(type(by))
print(id(yy), id(by))
print(&#39;=&#39;*20)
# 使用数组的copy()方法：
c = np.array([2, 5, 6, 2])
cp = c.copy()
print(id(c), id(cp))
print()
# ndarray.flags
&#39;&#39;&#39;
ndarray.flags 返回 ndarray 对象的内存信息，包含以下属性：
属性	描述
C_CONTIGUOUS (C)	数据是在一个单一的C风格的连续段中
F_CONTIGUOUS (F)	数据是在一个单一的Fortran风格的连续段中
OWNDATA (O)	数组拥有它所使用的内存或从另一个对象中借用它
WRITEABLE (W)	数据区域可以被写入，将该值设置为 False，则数据为只读
ALIGNED (A)	数据和所有元素都适当地对齐到硬件上
UPDATEIFCOPY (U)	这个数组是其它数组的一个副本，当这个数组被释放时，原数组的内容将被更新

&#39;&#39;&#39;
import numpy as np
lxw4 = np.array([1, 3, 5, 6, 7])
print(lxw4.flags)   # flags: 其内存信息