Python数据分析(三)Numpy数值计算基础

Numpy（numeric python），是 python 的一个开源数值计算库，主要用于

数组和矩阵计算。底层是 c 语言实现，运行效率远高于纯 python 代码。在

python 数据科学领域，numpy 是使用最广泛的工具包之一。

?Numpy 提供了两种基本的对象：ndarray（N-dimensional Array Object）和 ufunc

（Universal Function Object）

? ndarray 是存储单一数据类型的多维数组，包含 array 及其子类 matrix

? ufunc 则是能够对数组的每一个元素进行处理的函数

?安装：pip install numpy

创建数组对象

Numpy 提供的 array 函数可以创建一维或多维数组，基本使用语法如下：

np.array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0)

相关属性

我们也可以通过内置函数来创建数组：

一维

?np.arange(start，end，step)

等差数列，固定步长

?np.linspace(start，end，num=50)

等差数列，固定个数

?np.logspace(start，end，num=50，base=10) 等比数列

?np.diag(array,k=0)

抽取对角线

多维

?np.zeros(shape)

#用零填

?np.zeros_like(a)

#复制a的shape，用零填

?np.ones(shape)

#用1填

?np.ones_like(a)

#复制a的shape，用1填

?np.full(shape, fill_value) #用指定值填

?np.identity(n)

#n行的单位矩阵（对角线为1）

?np.eye(N, M=None, k=0) #类似上面，但可以指定列，k值对对角线平移

我们还可以使用 random 模块创建数组：

?np.random.random()

：无约束条件下生成随机数组

?np.random.rand()

：生成服从均匀分布的随机数组

?np.random.randn()

：生成服从正态分布的随机数组

?np.random.randint(low, high=None, size=None)

：生成指定区间的随机数组

random 模块其他常用函数：

数组数据类型

在 numpy 中，所有数组的数据类型是同质的，即数组中的所有元素类型必须是一

致的。这样做的好处是，更容易确定该数组所需要的存储空间。下面是 numpy 的

基本数据类型及其取值范围

我们知道 python 中空值记为 None，而在 numpy 中的空值表示为： np.nan ，它是一个特殊的float。

我们也可以自定义数据类型：

?创建一个存储餐饮企业库存信息的数据类型。其中，用一个长度为40个字符的字符串来记录商

品的名称，用一个64位的整数来记录商品的库存数量，最后用一个64位的单精度浮点数来记

录商品的价格，具体步骤如下。

数组的访问

? 通过索引访问

?访问数组的方式 a[m][n]

?访问矩阵的方式 a[m,n]

?通过整数数组

a[[1,3,4]]

?通过布尔数组

a[[True,Flase,True]]

? 通过切片访问

?一维数组切片同 python 序列切片一致，a[start:stop:step]

?多维数组切片，每个维度以逗号隔开，a[start:stop:step, start:stop:step]

或者 a[:][:]

数组变形

? reshape

?a.reshape()，返回一个新的数组，原数组 a 不受影响

? resize

?a.resize()，返回 None，修改的是原数组 a

数组扁平化

? ravel

?a. ravel()，将多维压缩为一维，返回原数组的引用，对新结果修改，a会受影响

? flatten

?a. flatten()，将多维压缩为一维，返回原数组的拷贝，对新结果修改，a不会受影响

二者均可以指定 order 的值为“

F”从列的方向上压扁

数组组合

? hstack

?np.hstack((arr1,arr2))

数组横向组合

?np.c_[arr1,arr2]

? vstack

?np.vstack((arr1,arr2))

数组纵向组合

?np.r_[arr1,arr2]

? concatenate

?np. concatenate((arr1,arr2),axis=1)

数组横向组合

?np. concatenate((arr1,arr2),axis=0)

数组纵向组合

数组分割

? hsplit

?np.hsplit(arr,2)

数组横向分割

? vsplit

?np.vsplit(arr,2)

数组横向分割

? split

?np. split(arr,2,axis=0)

数组纵向分割

?np. split(arr,2,axis=1)

数组横向分割

创建 numpy 矩阵

在NumPy中，矩阵是ndarray的子类，是继承自NumPy数组对象的二维数组对象。与数

学概念中的矩阵一样，NumPy中的矩阵也是二维的。

? 使用mat函数创建矩阵： matr1 = np.mat("1 2 3;4 5 6;7 8 9")

? 使用matrix函数创建矩阵：matr2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])

区别：使用mat函数创建矩阵时，若输入matrix或ndarray对象，则不会为它们创建副本

很多时候会根据小的矩阵创建大的矩阵：

? 使用bmat函数合成矩阵：np.bmat("arr1 arr2; arr1 arr2"

矩阵的运算

在NumPy中，矩阵计算是针对整个矩阵中的每个元素进行的：

? 矩阵与数相乘：matr1*3

? 矩阵相加减：matr1±matr2

? 矩阵相乘：matr1*matr2

? 矩阵对应元素相乘：np.multiply(matr1,matr2)

? 矩阵特有属性：

矩阵的运算（此处以矩阵乘法和转置为例）

? numpy.linalg 中有一组标准的矩阵分解运算以及诸如求逆和行列式之类的

函数（了解）

通用函数

? ufunc（universal function），全称通用函数，是一种能够对数组中所有

元素进行操作的函数

?四则运算：加（+）、减（-）、乘（*）、除（/）、幂（**）。数组间的四则运算表示

对每个数组中的元素分别进行四则运算，所以形状必须相同。

?比较运算：>、<、==、>=、<=、!=。比较运算返回的结果是一个布尔数组，每个

元素为每个数组对应元素的比较结果。

?逻辑运算：np.any函数表示逻辑“or”，np.all函数表示逻辑“and”。运算结果返回

布尔值。

? 四则运算

? 标量运算，会作用到整个数组上

? 比较运算

广播机制

广播（Broadcasting）是指不同形状的数组之间执行算术运算的方式。当使

用ufunc函数进行数组计算时，ufunc函数会对两个数组的对应元素进行计算。

进行这种计算的前提是两个数组的shape一致。若两个数组的shape不一致，

则NumPy会实行广播机制。

?广播的条件：待扩展的轴的长度为 1 时

?维度扩张和维数扩张：向最大值靠拢

读写文件

读写二进制数据

? save 函数是以二进制的格式保存数据。

np.save("../tmp/save_arr",arr)

? savez 函数可以将多个数组保存到一个文件中。

np.savez('../tmp/savez_arr',arr1,arr2)

? load 函数是从二进制的文件中读取数据。

np.load("../tmp/save_arr.npy")

注意：存储时可以省略扩展名，但读取时不能省略扩展名。

读写文本文件

? savetxt 函数是将数组写到某种分隔符隔开的文本文件中。

np.savetxt("../tmp/arr.txt", arr, fmt="%d", delimiter=",")

? loadtxt 函数执行的是把文件加载到一个二维数组中。

np.loadtxt("../tmp/arr.txt",delimiter=",")

? genfromtxt 函数面向的是结构化数组和缺失数据。

np.genfromtxt("../tmp/arr.txt", delimiter = ",")

排序

? 直接排序

np.sort(arr, axis=-1, kind=None, order=None)

?axis 可指定排序的方向，0 纵向，1 横向

?kind 可指定排序的算法，默认快排

也可使用 arr.sort() 来排序

? 间接排序

np.argsort(arr, axis=-1, kind=None, order=None) 或 arr.argsort()

? 返回值为重新排序值的下标

np.lexsort(keys, axis=-1) ，用法： np.lexsort((a,b,c))

? 按最后传入的数组排序

去重与重复

? 去重

? np.unique(arr）

? 重复

?np.tile(arr,arr)

?arr.repeat(3,axis=1)

tile 和 repeat 区别：tile 是对数组进行重复操作，repeat 是对数组中的每个元素进行

重复操作前者是函数，后者是方法。

常用统计函数

当 axis=0 时，表示沿着纵轴计算。当 axis=1时，表示沿着横轴计算。默认计算一个总值。

常用统计函数

? 案例：随机漫步

在学习完以上内容后还要多加练习！

流照教程网

Python数据分析(三)Numpy数值计算基础

相关文章

NumPy线性代数教程:轻松掌握矩阵运算

仅用 10 行 Python 代码，搞定 10 种数学运算!

如何在 Python 中制作矩阵:详细指南

资料 | Python数据分析基础教程:NumPy学习指南(中文第2版)

Python Numpy和矩阵的相关面试问题

《Python机器学习实践》课程学习方法指引

蜀ICP备2024111239号-1