numpy基础--利用数组进行数据处理
以下代码的前提:import numpy as np
numpy数组可以将许多种数据处理任务表述为简洁的数组表达式,用数组表达式替换循环的做法,通常被称为矢量化。
官方说明文档:Array creation routines — NumPy v1.21 Manual
例如:我们想要处理一组值(网格型)上计算函数sqrt(x^2 + y^2)。np.meshgrid函数接受两个一维数组,并产生两个二维矩阵(对应于两个数组中所有的(x, y)对)。
1 >>> a = np.array([1, 2, 3])
2 >>> b = np.array([4, 5, 6])
3 >>> ax, bx = np.meshgrid(a, b)
4 >>> ax
5 array([[1, 2, 3],
6 [1, 2, 3],
7 [1, 2, 3]])
8 >>> bx
9 array([[4, 4, 4],
10 [5, 5, 5],
11 [6, 6, 6]])
>>> z = np.sqrt(ax**2 + bx**2)
>>> z
array([[4.12310563, 4.47213595, 5. ],
[5.09901951, 5.38516481, 5.83095189],
[6.08276253, 6.32455532, 6.70820393]])
1.1 将条件逻辑表述为数组运算
numpy.where函数得三元表达式x if condition else y的矢量化版本。
numpy.where(condition[, x, y])
Return elements chosen from x or y depending on condition.
官方文档:numpy.where — NumPy v1.21 Manual
1 >>> xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
2 >>> yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
3 >>> cond = np.array([True, False, True, True, False])
4 >>> result = np.where(cond, xarr, yarr) #当cond中的值为True时,选取xarr的值,否则选取yarr
5 >>> result
6 array([1.1, 2.2, 1.3, 1.4, 2.5])
np.where的第二个和第三个参数不必是数组,它们都可以是标量值。在数据分析工作中,where通常用于根据另一个数组而产生一个新的数组。
1 >>> arr = np.random.randn(4, 4)
2 >>> arr
3 array([[-0.93788349, -0.13896424, -0.36149471, 0.55366473],
4 [-1.36781828, -1.09133439, -0.95340544, 1.58276544],
5 [ 0.55284577, 2.40035295, -0.53861131, -1.38135074],
6 [-0.23264662, 0.03819103, -0.2086907 , 2.32634099]])
7 >>> np.where(arr > 0, 2, -2) #将正值设为2,负值设为-2
8 array([[-2, -2, -2, 2],
9 [-2, -2, -2, 2],
10 [ 2, 2, -2, -2],
11 [-2, 2, -2, 2]])
12 >>> np.where(arr > 0, 2, arr) #只将正值设置为2
13 array([[-0.93788349, -0.13896424, -0.36149471, 2. ],
14 [-1.36781828, -1.09133439, -0.95340544, 2. ],
15 [ 2. , 2. , -0.53861131, -1.38135074],
16 [-0.23264662, 2. , -0.2086907 , 2. ]])
1.2 数学和统计方法
可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。sum、mean以及标准差std等聚合计算(aggregation,通常叫做约简(reduction))既可以当作数组的实例方法调用,也可以当作顶级numpy函数的使用。
mean和sum这类函数可以接受一个axis参数(用于计算该轴向上的统计值),最终计算的结果是一个少一维的数组。这里说的轴的意思如下:

mean官方说明:numpy.mean — NumPy v1.21 Manual

sum官方说明:numpy.sum — NumPy v1.21 Manual
std官方说明:numpy.std — NumPy v1.21 Manual

1 >>> arr = np.arange(8).reshape(2, 4)
2 >>> arr
3 array([[0, 1, 2, 3],
4 [4, 5, 6, 7]])
5 >>> arr.mean()
6 3.5
7 >>> np.mean(arr)
8 3.5
9 >>> arr.sum()
10 28
11 >>> arr.sum(0)
12 array([ 4, 6, 8, 10])
13 >>> arr.mean(0)
14 array([2., 3., 4., 5.])
15 >>> arr.sum(1)
16 array([ 6, 22])
17 >>> arr.mean(1)
18 array([1.5, 5.5])
19 >>> arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
20 >>> arr.cumsum(0)
21 array([[ 0, 1, 2],
22 [ 3, 5, 7],
23 [ 9, 12, 15]], dtype=int32)
24 >>> arr.cumprod(0)
25 array([[ 0, 1, 2],
26 [ 0, 4, 10],
27 [ 0, 28, 80]], dtype=int32)
28 >>>
基本数组统计方法:
| 方法 | 说明 |
|---|---|
| sum | 对数组中全部或某轴向的元素求和,零长度的数组的sum为0 |
| mean | 算术平均值,零长度的数组的mean为NaN |
| std、var | 分别为标准差和反差,自由度可调(默认为n) |
| min、max | 最大值和最小值 |
| argmin、argmax | 分别为最大和最小元素的索引 |
| cumsum | 所有元素的累计和,如果没有指定坐标,则当作一维数组处理。 |
| cumprod | 所有元素的累计积,如果没有指定坐标,则当作一维数组处理。 |
1.3 用于布尔型数组的方法
在上表中的方法中,布尔值会被强制转换为1(True)和False(0)。因此sum经常被用来对布尔型数组中的True值计数。另外any可用于测试数组中是否存在一个或多个True,而all则检查数组中所有值是否都是True。
1 >>> arr = np.random.randn(100)
2 >>> (arr > 0).sum()
3 52
4 >>> bools = np.array([False, False, True, False])
5 >>> bools.any()
6 True
7 >>> bools.all()
8 False
9 >>>
1.4 排序
numpy数组也可以通过sort方法就地排序,多维数组可以在任何一个轴向上进行排序,只需将轴编号传给sort即可。
1 >>> arr = np.random.randn(8)
2 >>> arr
3 array([ 1.63629002, 2.20429024, -0.14614928, -0.29397459, -2.45375594,
4 1.14484692, -0.28331352, 0.30005863])
5 >>> arr.sort()
6 >>> arr
7 array([-2.45375594, -0.29397459, -0.28331352, -0.14614928, 0.30005863,
8 1.14484692, 1.63629002, 2.20429024])
9 >>> arr = np.random.randn(5, 3)
10 >>> arr
11 array([[-0.94707326, -0.21398683, 1.34561267],
12 [ 0.82759518, -1.49443648, 0.5760489 ],
13 [ 1.22341129, 0.55710449, 0.27911583],
14 [ 0.25850697, -0.15072134, -0.40032061],
15 [-1.70822177, 0.89374659, 0.13256954]])
16 >>> arr.sort(0)
17 >>> arr
18 array([[-1.70822177, -1.49443648, -0.40032061],
19 [-0.94707326, -0.21398683, 0.13256954],
20 [ 0.25850697, -0.15072134, 0.27911583],
21 [ 0.82759518, 0.55710449, 0.5760489 ],
22 [ 1.22341129, 0.89374659, 1.34561267]])
23 >>>
1.5 唯一化以及其他的集合逻辑
numpy提供了一些针对一维ndarray的基本集合运算,最常用的是np.unique,用于找出数组中唯一值并返回已排序的结果。
np.in1d函数可用于测试一个数组中的值在另一个数组中的成员资格,返回一个布尔型数组。
1 >>> names = np.array(['bob', 'joe', 'will', 'bob', 'will', 'joe', 'joe'])
2 >>> np.unique(names)
3 array(['bob', 'joe', 'will'], dtype='<U4')
4 >>> ints = np.array([3, 3, 2, 1, 4, 5])
5 >>> np.unique(ints)
6 array([1, 2, 3, 4, 5])
7 >>> sorted(set(names))
8 ['bob', 'joe', 'will']
9 >>> values = np.array([6, 0, 0, 3, 2, 2, 5, 6])
10 >>> np.in1d(values, [2, 3, 6])
11 array([ True, False, False, True, True, True, False, True])
12 >>>
下表是数组的集合运算。
| 方法 | 说明 |
|---|---|
| unique(x) | 计算x中的唯一元素,并返回有序结果 |
| intersect1d(x, y) | 计算x和y中的公共元素,并返回有序结果 |
| union1d(x, y) | 计算x和y的并集,并返回有序结果 |
| in1d(x, y) | 得到一个表示“x的元素是否包含于y”的布尔型数组 |
| setdiff1d(x, y) | 集合的差,即元素在x中且不在y中 |
| setxor1d(x, y) | 集合的对称差,即存在于一个数组中但不同时存在于两个数组中的元素。 |
>>> x = np.array([1, 2, 3])
>>> y = np.array([2, 3, 4, 5])
>>> np.intersect1d(x, y)
array([2, 3])
>>> np.union1d(x, y)
array([1, 2, 3, 4, 5])
>>> np.setdiff1d (x, y)
array([1])
>>> np.setxor1d(x, y)
array([1, 4, 5])
numpy基础--利用数组进行数据处理的更多相关文章
- 《利用python进行数据分析》读书笔记--第四章 numpy基础:数组和矢量计算
http://www.cnblogs.com/batteryhp/p/5000104.html 第四章 Numpy基础:数组和矢量计算 第一部分:numpy的ndarray:一种多维数组对象 实话说, ...
- 《利用Python进行数据分析·第2版》第四章 Numpy基础:数组和矢量计算
<利用Python进行数据分析·第2版>第四章 Numpy基础:数组和矢量计算 numpy高效处理大数组的数据原因: numpy是在一个连续的内存块中存储数据,独立于其他python内置对 ...
- 利用Python进行数据分析——Numpy基础:数组和矢量计算
利用Python进行数据分析--Numpy基础:数组和矢量计算 ndarry,一个具有矢量运算和复杂广播能力快速节省空间的多维数组 对整组数据进行快速运算的标准数学函数,无需for-loop 用于读写 ...
- python数据分析---第04章 NumPy基础:数组和矢量计算
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包.大多数提供科学计算的包都是用NumPy的数组作为构建基础. NumPy的部分功能如下: ndarray,一个具 ...
- 【学习笔记】 第04章 NumPy基础:数组和矢量计算
前言 正式开始学习Numpy,参考用书是<用Python进行数据清洗>,计划本周五之前把本书读完,关键代码全部实现一遍 NumPy基础:数组和矢量计算 按照书中所示,要搞明白具体的性能差距 ...
- NumPy基础:数组和矢量计算
今天被老板fire了,还是继续抄书吧,安抚我受伤的小心脏.知识还是得慢慢积累,一步一个脚印,这样或许才是最快的捷径. ------2015-2-16-------------------------- ...
- (一)NumPy基础:数组和矢量计算
一.创建ndarray 1.各种创建函数的使用 import numpy as np #创建ndarray #1.array方法 data1 = [[6, 7.5, 8, 0, 1], [2, 8, ...
- numpy利用数组进行数据处理
将条件逻辑表述为数组运算 numpy.where()是一个三目运算的表达式 In [34]: xarr = np.array([1.1,1.2,1.3,1.4,1.5]) In [35]: yarr ...
- Numpy 利用数组进行数据处理
Numpy数组使你可以将许多种数据处理任务表述为简洁的数组表达式(否则需要编写循环). 用数组表达式代替循环的做法,通常被称为矢量化.一般来说,矢量化数组运算要比等价的纯跑一趟湖南快 上一两个数量级( ...
- 《利用python进行数据分析》NumPy基础:数组和矢量计算 学习笔记
一.有关NumPy (一)官方解释 NumPy is the fundamental package for scientific computing with Python. It contains ...
随机推荐
- 分布式文件存储-FastDFS
1.1 FastDFS简介 1.1.1 FastDFS体系结构 FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储.文件同步.文件访问(文件上传.文件下载)等,解决了 ...
- Windows 查看端口是被什么程序占用
netstat -ano | grep 27017 tasklist | grep 11496 Link:https://www.cnblogs.com/farwish/p/15262813.html
- 2018-5-28-WPF-Process.Start-出现-Win32Exception-异常
title author date CreateTime categories WPF Process.Start 出现 Win32Exception 异常 lindexi 2018-05-28 10 ...
- RT-Thread 堆区大小设置
一.利用栈区的空间作为堆区 看过我之前的笔记的小伙伴都知道,以前我是通过申请栈区的空间使用的,感兴趣的小伙伴可以看我之前的笔记,RT-Thread移植到stm32. 在board.c文件文件中的代码如 ...
- 012_DRC检查与处理
Check entire design:DRC检查整个原理图: Check Selection:DRC检查选择的部分电路: Use occurrences:选择所有事件进行检查: Use instan ...
- ViewPager引导页实现网络图片加载
ViewPager引导页实现网络图片加载 最近在准备移动应用开发的比赛,看到一道题目,让我们加载网络图片当引导页,我太久没做了,就搜了一下,大多数是让你有多少张图片就新建多少个布局文件,这样文件多不说 ...
- 利用python爬取某壳的房产数据
以无锡的某壳为例进行数据爬取,现在房子的价格起伏很快,买房是人生一个大事,了解本地的房价走势来判断是否应该入手. (建议是近2年不买,本人在21年高位抛了一套房,基本是通过贝壳数据判断房价已经到顶,希 ...
- kali 忘记账户密码
kali 忘记账户密码 重启 kali 虚拟机,在开始界面不需要选择,按 e 键 找到 Linux 开头的行,将 ro 处及该行后面的字符替换为:rw init=/bin/bash 按 F10 进入命 ...
- Typora最后的免费版本0.11.18
Typora最后的免费版本为0.11.18. 之后的1.x开始收费. 免费版本0.11.18的百度网盘链接如下(永久链接): 链接:https://pan.baidu.com/s/1XizAD0SFp ...
- 1.简单的C语言程序
简单的C语言程序 什么是计算机程序? 什么是计算机语言? 所谓程序,就是一组计算机能识别和执行的指令. 什么是计算机语言? 机器语言(0,1 '低级语言'),汇编语言(符号化 '低级语言'),高级语言 ...