以下代码的前提:import numpy as np

numpy数组可以将许多种数据处理任务表述为简洁的数组表达式,用数组表达式替换循环的做法,通常被称为矢量化

官方说明文档:Array creation routines — NumPy v1.21 Manual

例如:我们想要处理一组值(网格型)上计算函数sqrt(x^2 + y^2)。np.meshgrid函数接受两个一维数组,并产生两个二维矩阵(对应于两个数组中所有的(x, y)对)。

 1 >>> a = np.array([1, 2, 3])
2 >>> b = np.array([4, 5, 6])
3 >>> ax, bx = np.meshgrid(a, b)
4 >>> ax
5 array([[1, 2, 3],
6 [1, 2, 3],
7 [1, 2, 3]])
8 >>> bx
9 array([[4, 4, 4],
10 [5, 5, 5],
11 [6, 6, 6]])
>>> z = np.sqrt(ax**2 + bx**2)
>>> z
array([[4.12310563, 4.47213595, 5. ],
[5.09901951, 5.38516481, 5.83095189],
[6.08276253, 6.32455532, 6.70820393]])

1.1 将条件逻辑表述为数组运算

numpy.where函数得三元表达式x if condition else y的矢量化版本。

numpy.where(condition[, x, y])

​ Return elements chosen from x or y depending on condition.

官方文档:numpy.where — NumPy v1.21 Manual

1 >>> xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
2 >>> yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
3 >>> cond = np.array([True, False, True, True, False])
4 >>> result = np.where(cond, xarr, yarr) #当cond中的值为True时,选取xarr的值,否则选取yarr
5 >>> result
6 array([1.1, 2.2, 1.3, 1.4, 2.5])

np.where的第二个和第三个参数不必是数组,它们都可以是标量值。在数据分析工作中,where通常用于根据另一个数组而产生一个新的数组。

 1 >>> arr = np.random.randn(4, 4)
2 >>> arr
3 array([[-0.93788349, -0.13896424, -0.36149471, 0.55366473],
4 [-1.36781828, -1.09133439, -0.95340544, 1.58276544],
5 [ 0.55284577, 2.40035295, -0.53861131, -1.38135074],
6 [-0.23264662, 0.03819103, -0.2086907 , 2.32634099]])
7 >>> np.where(arr > 0, 2, -2) #将正值设为2,负值设为-2
8 array([[-2, -2, -2, 2],
9 [-2, -2, -2, 2],
10 [ 2, 2, -2, -2],
11 [-2, 2, -2, 2]])
12 >>> np.where(arr > 0, 2, arr) #只将正值设置为2
13 array([[-0.93788349, -0.13896424, -0.36149471, 2. ],
14 [-1.36781828, -1.09133439, -0.95340544, 2. ],
15 [ 2. , 2. , -0.53861131, -1.38135074],
16 [-0.23264662, 2. , -0.2086907 , 2. ]])

1.2 数学和统计方法

可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。sum、mean以及标准差std等聚合计算(aggregation,通常叫做约简(reduction))既可以当作数组的实例方法调用,也可以当作顶级numpy函数的使用。

mean和sum这类函数可以接受一个axis参数(用于计算该轴向上的统计值),最终计算的结果是一个少一维的数组。这里说的轴的意思如下:

mean官方说明:numpy.mean — NumPy v1.21 Manual

sum官方说明:numpy.sum — NumPy v1.21 Manual

std官方说明:numpy.std — NumPy v1.21 Manual

 1 >>> arr = np.arange(8).reshape(2, 4)
2 >>> arr
3 array([[0, 1, 2, 3],
4 [4, 5, 6, 7]])
5 >>> arr.mean()
6 3.5
7 >>> np.mean(arr)
8 3.5
9 >>> arr.sum()
10 28
11 >>> arr.sum(0)
12 array([ 4, 6, 8, 10])
13 >>> arr.mean(0)
14 array([2., 3., 4., 5.])
15 >>> arr.sum(1)
16 array([ 6, 22])
17 >>> arr.mean(1)
18 array([1.5, 5.5])
19 >>> arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
20 >>> arr.cumsum(0)
21 array([[ 0, 1, 2],
22 [ 3, 5, 7],
23 [ 9, 12, 15]], dtype=int32)
24 >>> arr.cumprod(0)
25 array([[ 0, 1, 2],
26 [ 0, 4, 10],
27 [ 0, 28, 80]], dtype=int32)
28 >>>

基本数组统计方法:

方法 说明
sum 对数组中全部或某轴向的元素求和,零长度的数组的sum为0
mean 算术平均值,零长度的数组的mean为NaN
std、var 分别为标准差和反差,自由度可调(默认为n)
min、max 最大值和最小值
argmin、argmax 分别为最大和最小元素的索引
cumsum 所有元素的累计和,如果没有指定坐标,则当作一维数组处理。
cumprod 所有元素的累计积,如果没有指定坐标,则当作一维数组处理。

1.3 用于布尔型数组的方法

在上表中的方法中,布尔值会被强制转换为1(True)和False(0)。因此sum经常被用来对布尔型数组中的True值计数。另外any可用于测试数组中是否存在一个或多个True,而all则检查数组中所有值是否都是True。

1 >>> arr = np.random.randn(100)
2 >>> (arr > 0).sum()
3 52
4 >>> bools = np.array([False, False, True, False])
5 >>> bools.any()
6 True
7 >>> bools.all()
8 False
9 >>>

1.4 排序

numpy数组也可以通过sort方法就地排序,多维数组可以在任何一个轴向上进行排序,只需将轴编号传给sort即可。

 1 >>> arr = np.random.randn(8)
2 >>> arr
3 array([ 1.63629002, 2.20429024, -0.14614928, -0.29397459, -2.45375594,
4 1.14484692, -0.28331352, 0.30005863])
5 >>> arr.sort()
6 >>> arr
7 array([-2.45375594, -0.29397459, -0.28331352, -0.14614928, 0.30005863,
8 1.14484692, 1.63629002, 2.20429024])
9 >>> arr = np.random.randn(5, 3)
10 >>> arr
11 array([[-0.94707326, -0.21398683, 1.34561267],
12 [ 0.82759518, -1.49443648, 0.5760489 ],
13 [ 1.22341129, 0.55710449, 0.27911583],
14 [ 0.25850697, -0.15072134, -0.40032061],
15 [-1.70822177, 0.89374659, 0.13256954]])
16 >>> arr.sort(0)
17 >>> arr
18 array([[-1.70822177, -1.49443648, -0.40032061],
19 [-0.94707326, -0.21398683, 0.13256954],
20 [ 0.25850697, -0.15072134, 0.27911583],
21 [ 0.82759518, 0.55710449, 0.5760489 ],
22 [ 1.22341129, 0.89374659, 1.34561267]])
23 >>>

1.5 唯一化以及其他的集合逻辑

numpy提供了一些针对一维ndarray的基本集合运算,最常用的是np.unique,用于找出数组中唯一值并返回已排序的结果。

np.in1d函数可用于测试一个数组中的值在另一个数组中的成员资格,返回一个布尔型数组。

 1 >>> names = np.array(['bob', 'joe', 'will', 'bob', 'will', 'joe', 'joe'])
2 >>> np.unique(names)
3 array(['bob', 'joe', 'will'], dtype='<U4')
4 >>> ints = np.array([3, 3, 2, 1, 4, 5])
5 >>> np.unique(ints)
6 array([1, 2, 3, 4, 5])
7 >>> sorted(set(names))
8 ['bob', 'joe', 'will']
9 >>> values = np.array([6, 0, 0, 3, 2, 2, 5, 6])
10 >>> np.in1d(values, [2, 3, 6])
11 array([ True, False, False, True, True, True, False, True])
12 >>>

下表是数组的集合运算。

方法 说明
unique(x) 计算x中的唯一元素,并返回有序结果
intersect1d(x, y) 计算x和y中的公共元素,并返回有序结果
union1d(x, y) 计算x和y的并集,并返回有序结果
in1d(x, y) 得到一个表示“x的元素是否包含于y”的布尔型数组
setdiff1d(x, y) 集合的差,即元素在x中且不在y中
setxor1d(x, y) 集合的对称差,即存在于一个数组中但不同时存在于两个数组中的元素。
>>> x = np.array([1, 2, 3])
>>> y = np.array([2, 3, 4, 5])
>>> np.intersect1d(x, y)
array([2, 3])
>>> np.union1d(x, y)
array([1, 2, 3, 4, 5])
>>> np.setdiff1d (x, y)
array([1])
>>> np.setxor1d(x, y)
array([1, 4, 5])

numpy基础--利用数组进行数据处理的更多相关文章

  1. 《利用python进行数据分析》读书笔记--第四章 numpy基础:数组和矢量计算

    http://www.cnblogs.com/batteryhp/p/5000104.html 第四章 Numpy基础:数组和矢量计算 第一部分:numpy的ndarray:一种多维数组对象 实话说, ...

  2. 《利用Python进行数据分析·第2版》第四章 Numpy基础:数组和矢量计算

    <利用Python进行数据分析·第2版>第四章 Numpy基础:数组和矢量计算 numpy高效处理大数组的数据原因: numpy是在一个连续的内存块中存储数据,独立于其他python内置对 ...

  3. 利用Python进行数据分析——Numpy基础:数组和矢量计算

    利用Python进行数据分析--Numpy基础:数组和矢量计算 ndarry,一个具有矢量运算和复杂广播能力快速节省空间的多维数组 对整组数据进行快速运算的标准数学函数,无需for-loop 用于读写 ...

  4. python数据分析---第04章 NumPy基础:数组和矢量计算

    NumPy(Numerical Python的简称)是Python数值计算最重要的基础包.大多数提供科学计算的包都是用NumPy的数组作为构建基础. NumPy的部分功能如下: ndarray,一个具 ...

  5. 【学习笔记】 第04章 NumPy基础:数组和矢量计算

    前言 正式开始学习Numpy,参考用书是<用Python进行数据清洗>,计划本周五之前把本书读完,关键代码全部实现一遍 NumPy基础:数组和矢量计算 按照书中所示,要搞明白具体的性能差距 ...

  6. NumPy基础:数组和矢量计算

    今天被老板fire了,还是继续抄书吧,安抚我受伤的小心脏.知识还是得慢慢积累,一步一个脚印,这样或许才是最快的捷径. ------2015-2-16-------------------------- ...

  7. (一)NumPy基础:数组和矢量计算

    一.创建ndarray 1.各种创建函数的使用 import numpy as np #创建ndarray #1.array方法 data1 = [[6, 7.5, 8, 0, 1], [2, 8, ...

  8. numpy利用数组进行数据处理

    将条件逻辑表述为数组运算 numpy.where()是一个三目运算的表达式 In [34]: xarr = np.array([1.1,1.2,1.3,1.4,1.5]) In [35]: yarr ...

  9. Numpy 利用数组进行数据处理

    Numpy数组使你可以将许多种数据处理任务表述为简洁的数组表达式(否则需要编写循环). 用数组表达式代替循环的做法,通常被称为矢量化.一般来说,矢量化数组运算要比等价的纯跑一趟湖南快 上一两个数量级( ...

  10. 《利用python进行数据分析》NumPy基础:数组和矢量计算 学习笔记

    一.有关NumPy (一)官方解释 NumPy is the fundamental package for scientific computing with Python. It contains ...

随机推荐

  1. Pytorch-tensor维度的扩展,挤压,扩张

    数据本身不发生改变,数据的访问方式发生了改变 1.维度的扩展 函数:unsqueeze() # a是一个4维的 a = torch.randn(4, 3, 28, 28) print('a.shape ...

  2. 第四章:if else switch使用

    /* * @Issue: 输入整数a和b,若a²+b²大于100,则输出a²+b²之和的百位以上的数字,否则直接输出a²+b²的和 * @Author: 一届书生 * @LastEditTime : ...

  3. Dapr Outbox 执行流程

    Dapr Outbox 是1.12中的功能. 本文只介绍Dapr Outbox 执行流程,Dapr Outbox基本用法请阅读官方文档 .本文中appID=order-processor,topic= ...

  4. 二叉查找树的实现C/C++

    二叉查找树是一种关键字有序存放的二叉树.在不含重复关键字的二叉查找树中,关键字"较小"的节点一定在关键字"较大"的节点的左子树中,"较小"一 ...

  5. GaussDB SQL查询语句执行过程解析

    本文分享自华为云社区<[GaussTech第2期]GaussDB SQL查询语句执行过程解析>,作者: GaussDB 数据库. SQL于关系型数据库而言,重要性不言而喻.就像一个乐团的指 ...

  6. Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!

    在2020年,你的数据仓库和基础设施需要满足哪些需求? 我们总结了几下几点: 首先,当下的企业正快速转向更实时化的模式,这要求企业具备对线上流式数据进行低延迟处理的能力,以满足实时(real-time ...

  7. [FE] jsoneditor 在 vue-router 和 vue-ssr 渲染下出现两个实例的问题

    由于 vue-router 页面是无刷新的,如果存在两次渲染,会出现如下情形. 简单粗暴的解决办法是通过判断容器中是否已经有了子节点. 此时再从其他 router link 返回就不会重复渲染了. M ...

  8. [Mobi] TWRP 镜像 for OnePlus X

    所有支持的设备列表:https://twrp.me/Devices/ 选择你的设备名:https://twrp.me/Devices/OnePlus/ https://twrp.me/oneplus/ ...

  9. [FE] 推荐两个能全球访问的 CDN 前端资源仓库

    https://unpkg.com/ https://cdnjs.com/ 部分资源库的版本不全. 访问速度请自行评估. Link:https://www.cnblogs.com/farwish/p/ ...

  10. Spring 是如何造出一个 Bean 的

    前言 使用 Java 作为第一开发语言的朋友们,相信大家或多或少的都使用过 Spring 这个开发框架,可以说 Spring 框架真是我们 Java 程序员的春天,在 Spring 中 Bean 是其 ...