Wenn wir die Python-Sprache für die Programmierung maschinellen Lernens verwenden, ist dies eine sehr häufig verwendete Basisbibliothek. Dieser Artikel ist ein Einführungs-Tutorial für die Python-Bibliothek für maschinelles Lernen NumPy. Interessierte Freunde sollten gemeinsam lernen

NumPy ist ein Python-Sprachsoftwarepaket, das sich sehr gut für wissenschaftliches Rechnen eignet. Dies ist eine sehr häufig verwendete Basisbibliothek, wenn wir die Python-Sprache für die Programmierung maschinellen Lernens verwenden.

Dieser Artikel ist ein Einführungstutorial dazu.


NumPy ist ein Basissoftwarepaket für wissenschaftliches und technologisches Rechnen, das in der Python-Sprache implementiert ist. Es enthält:

  • Leistungsstarke N-dimensionale Array-Struktur

  • Ausgeklügelte und komplexe Funktionen

  • Tools das in C/C++- und Fortran-Code integriert werden kann

  • Lineare Algebra, Fourier-Transformation und Zufallszahlenfunktionen

Zusätzlich Zusätzlich zum wissenschaftlichen Rechnen kann NumPy auch als effizienter mehrdimensionaler Container für allgemeine Daten verwendet werden. Da es mit jeder Art von Daten funktioniert, kann NumPy nahtlos und effizient in viele Arten von Datenbanken integriert werden.

Holen Sie sich NumPy

Da es sich um ein Python-Sprachpaket handelt, müssen Sie in der ersten Umgebung Ihres Computers die Python-Sprache haben. Bitte recherchieren Sie diesbezüglich im Internet, wie Sie es erhalten können.

Informationen zum Erhalt von NumPy finden Sie auch im Abschnitt „Pakete installieren“ auf der offiziellen Website von scipy.org. In diesem Artikel wird nicht auf Details eingegangen.

Der Autor empfiehlt die Verwendung von pip zur Installation des Python-Pakets. Der Befehl lautet wie folgt:

pip3 install numpy

Der Code dieses Artikels wurde in der folgenden Umgebung verifiziert und getestet:

  • Hardware: MacBook Pro 2015

  • Betriebssystem: macOS High Sierra

  • Sprachumgebung: Python 3.6.2

  • Paket: numpy 1.13.3

Hier erhalten Sie alle Quellcodes dieses Artikels: https://github.com/paulQuei/numpy_tutorial

Darüber hinaus

  • Der Einfachheit halber Wir werden in diesem Artikel die Druckfunktion von Python verwenden. Überprüfung der Ergebnisse

  • Zur Vereinfachung der Rechtschreibung importieren wir numpy standardmäßig als np

Grundlegende Attribute und Array-Erstellung

Die Basis von NumPy sind isomorphe mehrdimensionale Daten, und die Elemente im Array können durch Indizes indiziert werden . In NumPy wird die Dimension Achse genannt (der Plural ist Achsen) und die Anzahl der Dimensionen wird Rang genannt.

Zum Beispiel:

Das Folgende ist ein Array mit Rang 1 und einer Achsenlänge von 3:

[1, 2, 3]

Das Folgende ist ein Array mit Rang 2 und die Länge der Achse beträgt ebenfalls 3:

[[ 1, 2, 3],
[ 4, 5, 6]]

Wir können NumPy-Arrays über die Array-Funktion erstellen, zum Beispiel:

a = np.array([1, 2, 3])
b = np.array([(1,2,3), (4,5,6)])

Bitte beachten Sie das Quadrat Hier sind Klammern erforderlich. Ja, die folgende Schreibweise ist falsch:

a = np.array(1,2,3,4) # WRONG!!!

NumPys Array-Klasse ist ndarray und ihr Alias ​​ist numpy .array, aber das ist nicht dasselbe wie array.array aus der Python-Standardbibliothek. Letzteres ist nur ein eindimensionales Array. Und ndarray hat die folgenden Attribute:

  • ndarray.ndim: die Dimension des Arrays. In der Python-Welt heißt die Dimension rank

  • ndarray.shape: die Dimension des Arrays. Dabei handelt es sich um eine Zahlenfolge, deren Länge durch die Abmessungen des Arrays (ndim) bestimmt wird. Beispiel: Die Form eines eindimensionalen Arrays der Länge n ist n. Die Form einer Matrix mit n Zeilen und m Spalten ist n,m

  • ndarray.size: die Anzahl aller Elemente im Array

  • ndarray.dtype: Der Typ der Elemente im Array, z. B. numpy.int32, numpy.int16 oder numpy.float64

  • ndarray.itemsize: Die Größe jedes Elements im Array , in Bytes

  • ndarray.data: Puffer zum Speichern von Array-Elementen. Normalerweise müssen wir nur über Indizes auf Elemente zugreifen, ohne auf den Puffer zuzugreifen

Schauen wir uns das Codebeispiel an:

# create_array.py

import numpy as np

a = np.array([1, 2, 3])
b = np.array([(1,2,3), (4,5,6)])

print("a's ndim {}".format(a.ndim))
print("a's shape {}".format(a.shape))
print("a's size {}".format(a.size))
print("a's dtype {}".format(a.dtype))
print("a's itemsize {}".format(a.itemsize))
print("b's ndim {}".format(b.ndim))
print("b's shape {}".format(b.shape))
print("b's size {}".format(b.size))
print("b's dtype {}".format(b.dtype))
print("b's itemsize {}".format(b.itemsize))

Das Folgende ist die Ausgabe dieses Codes:

[1 2 3]
a's ndim 1
a's shape (3,)
a's size 3
a's dtype int64
a's itemsize 8
[[1 2 3]
 [4 5 6]]
b's ndim 2
b's shape (2, 3)
b's size 6
b's dtype int64
b's itemsize 8

Wir können beim Erstellen eines Arrays auch die Art der Elemente angeben, zum Beispiel:

c = np.array( [ [1,2], [3,4] ], dtype=complex )

Weitere Parameterbeschreibungen der Array-Funktion finden Sie hier: numpy.array

Hinweis: NumPy selbst unterstützt mehrdimensionale Arrays und unterstützt auch Daten verschiedener Elementtypen. Wenn man jedoch bedenkt, dass Array-Strukturen mit drei Dimensionen und mehr nicht leicht zu verstehen sind und wir beim Programmieren von maschinellem Lernen am häufigsten Matrixoperationen verwenden. Daher werden in den folgenden Beispielen in diesem Artikel hauptsächlich eindimensionale und zweidimensionale numerische Arrays zur Veranschaulichung verwendet.

Erstellung eines spezifischen Arrays

In der tatsächlichen Projektentwicklung benötigen wir oft einige Für spezifische Daten, NumPy bietet einige Hilfsfunktionen:

  • Nullen: Wird verwendet, um ein Array zu erstellen, bei dem alle Elemente 0 sind.

  • Einsen: Wird verwendet, um ein Array zu erstellen, dessen Elemente sind alle 1

  • empty:用来创建未初始化的数据,因此是内容是不确定的

  • arange:通过指定范围和步长来创建数组

  • linespace:通过指定范围和元素数量来创建数组

  • random:用来生成随机数

# create_specific_array.py

import numpy as np

a = np.zeros((2,3))
print('np.zeros((2,3)= \n{}\n'.format(a))

b = np.ones((2,3))
print('np.ones((2,3))= \n{}\n'.format(b))

c = np.empty((2,3))
print('np.empty((2,3))= \n{}\n'.format(c))

d = np.arange(1, 2, 0.3)
print('np.arange(1, 2, 0.3)= \n{}\n'.format(d))

e = np.linspace(1, 2, 7)
print('np.linspace(1, 2, 7)= \n{}\n'.format(e))

f = np.random.random((2,3))
print('np.random.random((2,3))= \n{}\n'.format(f))


[[ 0. 0. 0.]
 [ 0. 0. 0.]]
[[ 1. 1. 1.]
 [ 1. 1. 1.]]
[[ 1. 1. 1.]
 [ 1. 1. 1.]]
np.arange(1, 2, 0.3)= 
[ 1. 1.3 1.6 1.9]
np.linspace(1, 2, 7)= 
[ 1.  1.16666667 1.33333333 1.5  1.66666667 1.83333333
 2. ]
[[ 0.5744616 0.58700653 0.59609648]
 [ 0.0417809 0.23810732 0.38372978]]



  • reshape:根据已有数组和指定的shape,生成一个新的数组

  • vstack:用来将多个数组在垂直(v代表vertical)方向拼接(数组的维度必须匹配)

  • hstack:用来将多个数组在水平(h代表horizontal)方向拼接(数组的维度必须匹配)

  • hsplit:用来将数组在水平方向拆分

  • vsplit:用来将数组在垂直方向拆分



  • zero_line:一行包含3个0的数组

  • one_column:一列包含3个1的数组

  • a:一个2行3列的矩阵

  • b:[11, 20)区间的整数数组

# shape_manipulation.py
zero_line = np.zeros((1,3))
one_column = np.ones((3,1))
print("zero_line = \n{}\n".format(zero_line))
print("one_column = \n{}\n".format(one_column))
a = np.array([(1,2,3), (4,5,6)])
b = np.arange(11, 20)
print("a = \n{}\n".format(a))
print("b = \n{}\n".format(b))


zero_line = 
[[ 0. 0. 0.]]
one_column = 
[[ 1.]
 [ 1.]
 [ 1.]]
a = 
[[1 2 3]
 [4 5 6]]
b = 
[11 12 13 14 15 16 17 18 19]


# shape_manipulation.py
b = b.reshape(3, -1)
print("b.reshape(3, -1) = \n{}\n".format(b))


b.reshape(3, -1) = 
[[11 12 13]
 [14 15 16]
 [17 18 19]]


# shape_manipulation.py
c = np.vstack((a, b, zero_line))
print("c = np.vstack((a,b, zero_line)) = \n{}\n".format(c))


c = np.vstack((a,b, zero_line)) = 
[[ 1. 2. 3.]
 [ 4. 5. 6.]
 [ 11. 12. 13.]
 [ 14. 15. 16.]
 [ 17. 18. 19.]
 [ 0. 0. 0.]]


# shape_manipulation.py
a = a.reshape(3, 2)
print("a.reshape(3, 2) = \n{}\n".format(a))
d = np.hstack((a, b, one_column))
print("d = np.hstack((a,b, one_column)) = \n{}\n".format(d))


a.reshape(3, 2) = 
[[1 2]
 [3 4]
 [5 6]]
d = np.hstack((a,b, one_column)) = 
[[ 1.  2. 11. 12. 13.  1.]
 [ 3.  4. 14. 15. 16.  1.]
 [ 5.  6. 17. 18. 19.  1.]]


# shape_manipulation.py
# np.vstack((a,b)) # ValueError: dimensions not match



# shape_manipulation.py
e = np.hsplit(d, 3) # Split a into 3
print("e = np.hsplit(d, 3) = \n{}\n".format(e))
print("e[1] = \n{}\n".format(e[1]))


e = np.hsplit(d, 3) = 
[array([[ 1., 2.],
    [ 3., 4.],
    [ 5., 6.]]), array([[ 11., 12.],
    [ 14., 15.],
    [ 17., 18.]]), array([[ 13.,  1.],
    [ 16.,  1.],
    [ 19.,  1.]])]
e[1] = 
[[ 11. 12.]
 [ 14. 15.]
 [ 17. 18.]]


# np.hsplit(d, 4) # ValueError: array split does not result in an equal pision


# shape_manipulation.py
f = np.hsplit(d, (1, 3)) # # Split a after the 1st and the 3rd column
print("f = np.hsplit(d, (1, 3)) = \n{}\n".format(f))


f = np.hsplit(d, (1, 3)) = 
[array([[ 1.],
    [ 3.],
    [ 5.]]), array([[ 2., 11.],
    [ 4., 14.],
    [ 6., 17.]]), array([[ 12., 13.,  1.],
    [ 15., 16.,  1.],
    [ 18., 19.,  1.]])]


# shape_manipulation.py
g = np.vsplit(d, 3)
print("np.hsplit(d, 2) = \n{}\n".format(g))
# np.vsplit(d, 2) # ValueError: array split does not result in an equal pision
np.vsplit(d, 3)将产生三个一维数组:
np.vsplit(d, 3) = 
[array([[ 1.,  2., 11., 12., 13.,  1.]]), array([[ 3.,  4., 14., 15., 16.,  1.]]), array([[ 5.,  6., 17., 18., 19.,  1.]])]



同样的,为了测试方便,我们先创建一个一维数组。它的内容是 [100,200)区间的整数。


# array_index.py
import numpy as np
base_data = np.arange(100, 200)
print("base_data[10] = {}\n".format(base_data[10]))


=[100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153
 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171
 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189
 190 191 192 193 194 195 196 197 198 199]
base_data[10] = 110


# array_index.py
every_five = np.arange(0, 100, 5)
print("base_data[every_five] = \n{}\n".format(


base_data[every_five] = 
[100 105 110 115 120 125 130 135 140 145 150 155 160 165 170 175 180 185
 190 195]


# array_index.py
a = np.array([(1,2), (10,20)])
print("a = \n{}\n".format(a))
print("base_data[a] = \n{}\n".format(base_data[a]))


a = 
[[ 1 2]
 [10 20]]
base_data[a] = 
[[101 102]
 [110 120]]


# array_index.py
base_data2 = base_data.reshape(10, -1)
print("base_data2 = np.reshape(base_data, (10, -1)) = \n{}\n".format(base_data2))


base_data2 = np.reshape(base_data, (10, -1)) = 
[[100 101 102 103 104 105 106 107 108 109]
 [110 111 112 113 114 115 116 117 118 119]
 [120 121 122 123 124 125 126 127 128 129]
 [130 131 132 133 134 135 136 137 138 139]
 [140 141 142 143 144 145 146 147 148 149]
 [150 151 152 153 154 155 156 157 158 159]
 [160 161 162 163 164 165 166 167 168 169]
 [170 171 172 173 174 175 176 177 178 179]
 [180 181 182 183 184 185 186 187 188 189]
 [190 191 192 193 194 195 196 197 198 199]]


  • 假设我们只指定了一个下标,则访问的结果仍然是一个数组。

  • 假设我们指定了两个下标,则访问得到的是其中的元素


# array_index.py
print("base_data2[2] = \n{}\n".format(base_data2[2]))
print("base_data2[2, 3] = \n{}\n".format(base_data2[2, 3]))
print("base_data2[-1, -1] = \n{}\n".format(base_data2[-1, -1]))



base_data2[2] = 
[120 121 122 123 124 125 126 127 128 129]
base_data2[2, 3] = 
base_data2[-1, -1] = 

除此之外,我们还可以通过”:“的形式来指定范围,例如:2:5 这样。只写”:“则表示全部范围。


# array_index.py
print("base_data2[2, :]] = \n{}\n".format(base_data2[2, :]))
print("base_data2[:, 3]] = \n{}\n".format(base_data2[:, 3]))
print("base_data2[2:5, 2:4]] = \n{}\n".format(base_data2[2:5, 2:4]))


  • 获取下标为2的行的所有元素

  • 获取下标为3的列的所有元素


base_data2[2, :]] = 
[120 121 122 123 124 125 126 127 128 129]
base_data2[:, 3]] = 
[103 113 123 133 143 153 163 173 183 193]
base_data2[2:5, 2:4]] = 
[[122 123]
 [132 133]
 [142 143]]


NumPy中自然也少不了大量的数学运算函数,下面是一些例子,更多的函数请参见这里NumPy manual contents:

# operation.py
import numpy as np
base_data = (np.random.random((5, 5)) - 0.5) * 100
print("base_data = \n{}\n".format(base_data))
print("np.amin(base_data) = {}".format(np.amin(base_data)))
print("np.amax(base_data) = {}".format(np.amax(base_data)))
print("np.average(base_data) = {}".format(np.average(base_data)))
print("np.sum(base_data) = {}".format(np.sum(base_data)))
print("np.sin(base_data) = \n{}".format(np.sin(base_data)))


base_data = 
[[ -9.63895991 6.9292461 -2.35654712 -48.45969283 13.56031937]
 [-39.75875796 -43.21031705 -49.27708561 6.80357128 33.71975059]
 [ 36.32228175 30.92546582 -41.63728955 28.68799187 6.44818484]
 [ 7.71568596 43.24884701 -14.90716555 -9.24092252 3.69738718]
 [-31.90994273 34.06067289 18.47830413 -16.02495202 -44.84625246]]

np.amin(base_data) = -49.277085606595726
np.amax(base_data) = 43.24884701268845
np.average(base_data) = -3.22680706079886
np.sum(base_data) = -80.6701765199715
np.sin(base_data) = 
[[ 0.21254814 0.60204578 -0.70685739 0.9725159 0.8381861 ]
 [-0.88287359 0.69755541 0.83514527 0.49721505 0.74315189]
 [-0.98124746 -0.47103234 0.7149727 -0.40196147 0.16425187]
 [ 0.99045239 -0.66943662 -0.71791164 -0.18282139 -0.5276184 ]
 [-0.4741657 0.47665553 -0.36278223 0.31170676 -0.76041722]]



首先,我们创建一个5X5的随机数整数矩阵。有两种方式可以获得矩阵的转置:通过.T或者transpose函数。另外, 通过dot函数可以进行矩阵的乘法,示例代码如下:

# matrix.py

import numpy as np

base_data = np.floor((np.random.random((5, 5)) - 0.5) * 100)
print("base_data = \n{}\n".format(base_data))

print("base_data.T = \n{}\n".format(base_data.T))
print("base_data.transpose() = \n{}\n".format(base_data.transpose()))

matrix_one = np.ones((5, 5))
print("matrix_one = \n{}\n".format(matrix_one))

minus_one = np.dot(matrix_one, -1)
print("minus_one = \n{}\n".format(minus_one))

print("np.dot(base_data, minus_one) = \n{}\n".format(
 np.dot(base_data, minus_one)))

base_data = 
[[-49. -5. 11. -13. -41.]
 [ -6. -33. -33. -47. -4.]
 [-38. 26. 28. -18. 18.]
 [ -3. -19. -15. -39. 45.]
 [-43. 6. 18. -15. -21.]]

base_data.T = 
[[-49. -6. -38. -3. -43.]
 [ -5. -33. 26. -19. 6.]
 [ 11. -33. 28. -15. 18.]
 [-13. -47. -18. -39. -15.]
 [-41. -4. 18. 45. -21.]]

base_data.transpose() = 
[[-49. -6. -38. -3. -43.]
 [ -5. -33. 26. -19. 6.]
 [ 11. -33. 28. -15. 18.]
 [-13. -47. -18. -39. -15.]
 [-41. -4. 18. 45. -21.]]

matrix_one = 
[[ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]]

minus_one = 
[[-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]]

np.dot(base_data, minus_one) = 
[[ 97. 97. 97. 97. 97.]
 [ 123. 123. 123. 123. 123.]
 [ -16. -16. -16. -16. -16.]
 [ 31. 31. 31. 31. 31.]
 [ 55. 55. 55. 55. 55.]]




numpy.random 包中包含了很多中随机数的算法。下面我们列举四种最常见的用法:

# rand.py
import numpy as np
print("random: {}\n".format(np.random.random(20)));
print("rand: {}\n".format(np.random.rand(3, 4)));
print("randint: {}\n".format(np.random.randint(0, 100, 20)));
print("permutation: {}\n".format(np.random.permutation(np.arange(20))));


  1. 生成20个随机数,它们每一个都是[0.0, 1.0)之间

  2. 根据指定的shape生成随机数

  3. 生成指定范围内([0, 100))的指定数量(20)的随机整数

  4. 对已有的数据([0, 1, 2, ..., 19])的顺序随机打乱顺序


random: [0.62956026 0.56816277 0.30903156 0.50427765 0.92117724 0.43044905
 0.54591323 0.47286235 0.93241333 0.32636472 0.14692983 0.02163887
 0.85014782 0.20164791 0.76556972 0.15137427 0.14626625 0.60972522
 0.2995841 0.27569573]
rand: [[0.38629927 0.43779617 0.96276889 0.80018417]
 [0.67656892 0.97189483 0.13323458 0.90663724]
 [0.99440473 0.85197677 0.9420241 0.79598706]]
randint: [74 65 51 34 22 69 81 36 73 35 98 26 41 84 0 93 41 6 51 55]
permutation: [15 3 8 18 14 19 16 1 0 4 10 17 5 2 6 12 9 11 13 7]


