数据分析 大数据之路 四 numpy 2
NumPy 数学函数
NumPy 提供了标准的三角函数:sin()、cos()、tan(import numpy as np
a = np.array([0,30,45,60,90])
print ('不同角度的正弦值:')
# 通过乘 pi/180 转化为弧度
print (np.sin(a*np.pi/180))
print ('\n')
print ('数组中角度的余弦值:')
print (np.cos(a*np.pi/180))
print ('\n')
print ('数组中角度的正切值:')
print (np.tan(a*np.pi/180))
不同角度的正弦值:
[. 0.5 0.70710678 0.8660254 . ] 数组中角度的余弦值:
[1.00000000e+00 8.66025404e-01 7.07106781e-01 5.00000000e-01
6.12323400e-17] 数组中角度的正切值:
[0.00000000e+00 5.77350269e-01 1.00000000e+00 1.73205081e+00
1.63312394e+16]
numpy.around() 函数返回指定数字的四舍五入值
import numpy as np a = np.array([1.0,5.55, 123, 0.567, 25.532])
print ('原数组:')
print (a)
print ('\n')
print ('舍入后:')
print (np.around(a))
原数组:
[ . 5.55 . 0.567 25.532] 舍入后:
[ . . . . .]
numpy.floor() 返回数字的下舍整数
import numpy as np a = np.array([-1.7, 1.5, -0.2, 0.6, 10])
print ('原数组:')
print (a)
print ('\n')
print ('floor 后的数组:')
print (np.floor(a))
原数组:
[-1.7 1.5 -0.2 0.6 . ] floor 后的数组:
[-. . -. . .]
numpy.ceil() 返回数字的上入整数
import numpy as np a = np.array([-1.7, 1.5, -0.2, 0.6, 10])
print ('原数组:')
print (a)
print ('\n')
print ('ceil 后的数组:')
print (np.ceil(a))
原数组:
[-1.7 1.5 -0.2 0.6 . ] ceil 后的数组:
[-. . -. . .]
NumPy 算术函数
NumPy 算术函数包含简单的加减乘除: add(),subtract(),multiply() 和 divide()
add() 加法
a = np.arange(9, dtype = np.float_).reshape(3,3)
print ('第一个数组:')
print (a)
print ('\n')
print ('第二个数组:')
b = np.array([10,10,10])
print (b)
print ('\n')
print ('两个数组相加:')
print (np.add(a,b))
第一个数组:
[[0. 1. 2.]
[3. 4. 5.]
[6. 7. 8.]] 第二个数组:
[10 10 10] 两个数组相加:
[[10. 11. 12.]
[13. 14. 15.]
[16. 17. 18.]]
subtract()减法
a = np.arange(9, dtype = np.float_).reshape(3,3)
print ('第一个数组:')
print (a)
print ('\n')
print ('第二个数组:')
b = np.array([10,10,10])
print (b)
print ('\n')
print ('两个数组相减:')
print (np.subtract(a,b))
第一个数组:
[[. . .]
[. . .]
[. . .]] 第二个数组:
[ ]
两个数组相减:
[[-. -. -.]
[ -. -. -.]
[ -. -. -.]]
下边不再演示
numpy.reciprocal() 函数返回参数逐元素的倒数。如 1/4 倒数为 4/1。
reciprocal() 倒数
import numpy as np a = np.array([0.25, 1.33, , ])
print ('原数组:')
print (a)
print ('\n')
print ('调用 reciprocal 函数:')
print (np.reciprocal(a))
原数组:
[ 0.25 1.33 . . ] 调用 reciprocal 函数:
[. 0.7518797 . 0.01 ]
numpy.power() 函数将第一个输入数组中的元素作为底数,计算它与第二个输入数组中相应元素的幂
import numpy as np a = np.array([,,])
print ('原组是;')
print (a)
print ('\n')
print ('调用 power 函数:')
print (np.power(a,))
print ('\n')
print ('第二个数组:')
b = np.array([,,])
print (b)
print ('\n')
print ('再次调用 power 函数:')
print (np.power(a,b))
原组是;
[ 10 100 1000] 调用 power 函数:
[ 100 10000 1000000] 第二个数组:
[1 2 3] 再次调用 power 函数:
[ 10 10000 1000000000]
numpy.mod() 计算输入数组中相应元素的相除后的余数。 函数 numpy.remainder() 也产生相同的结果。
求余
import numpy as np a = np.array([10,20,30])
b = np.array([3,5,7])
print ('第一个数组:')
print (a)
print ('\n')
print ('第二个数组:')
print (b)
print ('\n')
print ('调用 mod() 函数:')
print (np.mod(a,b))
print ('\n')
print ('调用 remainder() 函数:')
print (np.remainder(a,b))
第一个数组:
[10 20 30] 第二个数组:
[3 5 7] 调用 mod() 函数:
[1 0 2] 调用 remainder() 函数:
[1 0 2]
NumPy 统计函数
numpy.amin() 和 numpy.amax()
把每个元素的最小(大)值取出,放进一个数组中
import numpy as np a = np.array([[3,7,5],[8,4,3],[2,4,9]])
print ('原数组:')
print (a)
print ('\n')
print ('调用 amin() 函数:')
print (np.amin(a,1))
print ('\n')
print ('再次调用 amin() 函数:')
print (np.amin(a,0))
print ('\n')
print ('调用 amax() 函数:')
print (np.amax(a))
print ('\n')
print ('再次调用 amax() 函数:')
print (np.amax(a, axis = 0))
原数组:
[[3 7 5]
[8 4 3]
[2 4 9]] 调用 amin() 函数:
[3 3 2] 再次调用 amin() 函数:
[2 4 3] 调用 amax() 函数:
9 再次调用 amax() 函数:
[8 7 9]
numpy.median() 函数用于计算数组 a 中元素的中位数(中值)
import numpy as np a = np.array([[30,65,70],[80,95,10],[50,90,60]])
print ('原数组:')
print (a)
print ('\n')
print ('调用 median() 函数:')
print (np.median(a))
print ('\n')
print ('沿轴 0 调用 median() 函数:')
print (np.median(a, axis = 0))
print ('\n')
print ('沿轴 1 调用 median() 函数:')
print (np.median(a, axis = 1))
原数组:
[[ ]
[ ]
[ ]] 调用 median() 函数:
65.0 沿轴 调用 median() 函数:
[. . .] 沿轴 调用 median() 函数:
[. . .]
numpy.mean() 函数返回数组中元素的算术平均值。 如果提供了轴,则沿其计算。
import numpy as np a = np.array([[1,2,3],[3,4,5],[4,5,6]])
print ('原数组:')
print (a)
print ('\n')
print ('调用 mean() 函数:')
print (np.mean(a))
print ('\n')
print ('沿轴 0 调用 mean() 函数:')
print (np.mean(a, axis = 0))
print ('\n')
print ('沿轴 1 调用 mean() 函数:')
print (np.mean(a, axis = 1))
原数组:
[[ ]
[ ]
[ ]] 调用 mean() 函数:
3.6666666666666665 沿轴 调用 mean() 函数:
[2.66666667 3.66666667 4.66666667] 沿轴 调用 mean() 函数:
[. . .]
标准差和方差
import numpy as np print (np.std([1,2,3,4]))
print (np.var([1,2,3,4]))
1.118033988749895
1.25
NumPy 排序、条件筛选函数
numpy.sort() 函数返回输入数组的排序副本
import numpy as np a = np.array([[3,7],[9,1]])
print ('原数组:')
print (a)
print ('\n')
print ('调用 sort() 函数:')
print (np.sort(a))
print ('\n')
print ('按列排序:')
print (np.sort(a, axis = 0))
print ('\n')
# 在 sort 函数中排序字段
dt = np.dtype([('name', 'S10'),('age', int)])
a = np.array([("raju",21),("anil",25),("ravi", 17), ("amar",27)], dtype = dt)
print ('原数组:')
print (a)
print ('\n')
print ('按 name 排序:')
print (np.sort(a, order = 'name'))
原数组:
[[3 7]
[9 1]] 调用 sort() 函数:
[[3 7]
[1 9]] 按列排序:
[[3 1]
[9 7]] 原数组:
[(b'raju', 21) (b'anil', 25) (b'ravi', 17) (b'amar', 27)] 按 name 排序:
[(b'amar', 27) (b'anil', 25) (b'raju', 21) (b'ravi', 17)]
numpy.argsort() 函数返回的是数组值从小到大的索引值
import numpy as np x = np.array([3, 1, 2])
print ('原数组:')
print (x)
print ('\n')
print ('对 x 调用 argsort() 函数:')
y = np.argsort(x)
print (y)
print ('\n')
print ('以排序后的顺序重构原数组:')
print (x[y])
print ('\n')
print ('使用循环重构原数组:')
for i in y:
print (x[i])
原数组:
[3 1 2] 对 x 调用 argsort() 函数:
[1 2 0] 以排序后的顺序重构原数组:
[1 2 3] 使用循环重构原数组:
1
2
3
numpy.where() 函数返回输入数组中满足给定条件的元素的索引
import numpy as np x = np.arange(9.).reshape(3, 3)
print ('原数组:')
print (x)
print ( '大于 3 的元素的索引:')
y = np.where(x > 3)
print (y)
print ('使用这些索引来获取满足条件的元素:')
print (x[y])
原数组:
[[0. 1. 2.]
[3. 4. 5.]
[6. 7. 8.]]
大于 3 的元素的索引:
(array([1, 1, 2, 2, 2]), array([1, 2, 0, 1, 2]))
使用这些索引来获取满足条件的元素:
[4. 5. 6. 7. 8.]
NumPy 副本和视图
副本或深拷贝
ndarray.copy() 函数创建一个副本。 对副本数据进行修改,不会影响到原始数据,它们物理内存不在同一位置
import numpy as np a = np.array([[10,10], [2,3], [4,5]])
print ('数组 a:')
print (a)
print ('创建 a 的深层副本:')
b = a.copy()
print ('数组 b:')
print (b)
# b 与 a 不共享任何内容
print ('我们能够写入 b 来写入 a 吗?')
print (b is a)
print ('修改 b 的内容:')
b[0,0] = 100
print ('修改后的数组 b:')
print (b)
print ('a 保持不变:')
print (a)
数组 a:
[[ ]
[ ]
[ ]]
创建 a 的深层副本:
数组 b:
[[ ]
[ ]
[ ]]
我们能够写入 b 来写入 a 吗?
False
修改 b 的内容:
修改后的数组 b:
[[ ]
[ ]
[ ]]
a 保持不变:
[[ ]
[ ]
[ ]]
浅拷贝
import numpy as np a = np.arange(6)
print ('原数组:')
print (a)
print ('调用 id() 函数:')
print (id(a))
print ('a 赋值给 b:')
b = a
print (b)
print ('b 拥有相同 id():')
print (id(b))
print ('修改 b 的形状:')
b.shape = 3,2
print (b)
print ('a 的形状也修改了:')
print (a)
原数组:
[ ]
调用 id() 函数: a 赋值给 b:
[ ]
b 拥有相同 id(): 修改 b 的形状:
[[ ]
[ ]
[ ]]
a 的形状也修改了:
[[ ]
[ ]
[ ]]
NumPy 线性代数
NumPy 提供了线性代数函数库 linalg,该库包含了线性代数所需的所有功能
numpy.dot() 对于两个一维的数组,计算的是这两个数组对应下标元素的乘积和(数学上称之为内积);对于二维数组,计算的是两个数组的矩矩阵乘积
import numpy.matlib
import numpy as np a = np.array([[1,2],[3,4]])
b = np.array([[11,12],[13,14]])
print(np.dot(a,b))
[[ ]
[ ]]
numpy.vdot() 函数是两个向量的点积。 如果第一个参数是复数,那么它的共轭复数会用于计算。 如果参数是多维数组,它会被展开。
import numpy as np a = np.array([[1,2],[3,4]])
b = np.array([[11,12],[13,14]]) # vdot 将数组展开计算内积
print (np.vdot(a,b))
numpy.inner() 函数返回一维数组的向量内积。对于更高的维度,它返回最后一个轴上的和的乘积
import numpy as np print (np.inner(np.array([1,2,3]),np.array([0,1,0])))
2
numpy.matmul 函数返回两个数组的矩阵乘积。
import numpy.matlib 
import numpy as np
a = [[1,0],[0,1]] 
b = [[4,1],[2,2]] 
print (np.matmul(a,b))
[[4 1]
[2 2]]
numpy.linalg.det() 函数计算输入矩阵的行列式。
import numpy as np
a = np.array([[1,2], [3,4]]) 
print (np.linalg.det(a))
-2.0000000000000004
numpy.linalg.solve() 函数给出了矩阵形式的线性方程的解。
考虑以下线性方程:
$\left\{\begin{matrix}
 x+y+z=6
 & \\ 2y+5z=-4
 & \\ 2x+5y-z=27
\end{matrix}\right.$
$\begin{bmatrix}
 1&1  &1 \\ 
 0&2  &5 \\ 
 2&  5& -1
\end{bmatrix}
\begin{bmatrix}
x\\ 
y\\ 
z
\end{bmatrix}
=\begin{bmatrix}
6\\ 
-4\\ 
27
\end{bmatrix}$
import numpy as np 
a = np.array([[1,1,1],[0,2,5],[2,5,-1]]) 
print ('数组 a:')
print (a)
print ('矩阵 b:')
b = np.array([[6],[-4],[27]])
print (b)
x = np.linalg.solve(a,b)
print ('求解')
print (x)
数组 a:
[[ 1 1 1]
[ 0 2 5]
[ 2 5 -1]]
矩阵 b:
[[ 6]
[-4]
[27]]
求解
[[ 5.]
[ 3.]
[-2.]]
持久化(将这个对象保存到硬盘上)
使用 H5PY ,PICKLE
# -*- coding: utf-8 -*-
# 斌彬电脑
# @Time : 2019-03-28 上午 9:31 import pickle
import numpy as np A = 1000 def pickle_dump():
"""
数据持久化
:return:
"""
with open('sampk.pkl', 'wb') as f:
# 生成二维的随机数
array = np.random.randn(A, A)
pickle.dump(array, f)
print('持久化{}'.format(array)) def pickle_load():
"""
反持久化
:return:
"""
with open('sampk.pkl', 'rb') as f:
array = pickle.load(f)
print('反持久化{}'.format(array)) if __name__ == '__main__':
pickle_dump()
pickle_load()
# -*- coding: utf-8 -*-
# 斌彬电脑
# @Time : 2019-03-28 下午 4:53 import numpy as np
import h5py
import numpy as np
import h5py
'''h5py就是以 k, v 的形式存储''' N = 1000 def pickle_serialization():
"""
持久化
:return:
"""
with h5py.File("sample.h5", "w") as hf:
array = np.random.randn(N, N)
# 可以示为生成个 group 的文件夹
group = hf.create_group("group")
# dataset 可以示为是个列表
group.create_dataset("dataset", data=array)
print("持久化: {}".format(array)) def pickle_deserialization():
"""
反持久化
:return:
"""
with h5py.File("sample.h5", "r") as hf:
for key in hf.keys():
group = hf.get(key)
for item in group.items():
print("After deserialization: {}".format(group[item[0]].value)) if __name__ == '__main__':
pickle_serialization()
pickle_deserialization()
阵乘积;
数据分析 大数据之路 四 numpy 2的更多相关文章
- 数据分析 大数据之路 三 numpy
		
import numpy as np a = np.arange(9) b = a.reshape(3,3) print(b) print(b.max(axis=0)) # axis=0 示为 Y 轴 ...
 - 数据分析 大数据之路 六 matplotlib 绘图工具
		
散点图 #导入必要的模块 import numpy as np import matplotlib.pyplot as plt #产生测试数据 x = np.arange(1,10) y = x ...
 - 数据分析 大数据之路 五 pandas 报表
		
pandas: 在内存中或对象,会有一套基于对象属性的方法, 可以视为 pandas 是一个存储一维表,二维表,三维表的工具, 主要以二维表为主 一维的表, (系列(Series)) 二维的表, ...
 - CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置
		
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...
 - 胖子哥的大数据之路(四)- VisualHBase功能需求框架
		
一.引言 大数据在结构化数据存储方面的应用需求越来越明确,但是大数据环境下辅助开发工具的不完善,给数据库管理人员和开发人员带来的不变难以言表,基于此创建了开源项目VisualHBase,同时创建了Vi ...
 - 胖子哥的大数据之路(9)-数据仓库金融行业数据逻辑模型FS-LDM
		
引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问 ...
 - 胖子哥的大数据之路(7)- 传统企业切入核心or外围
		
一.引言 昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问 ...
 - 胖子哥的大数据之路(6)- NoSQL生态圈全景介绍
		
引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文: The NoSQL Ecosystem 目录 The NoSQL Eco ...
 - 大数据之路week06--day07(Hadoop生态圈的介绍)
		
Hadoop 基本概念 一.Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
 
随机推荐
- 深入理解line-height与vertical-align——前端布局常用属性
			
line-height.font-size.vertical-align是设置行内元素布局的关键属性.这三个属性是相互依赖的关系,改变行间距离.设置垂直对齐等都需要它们的通力合作.下面将主要介绍lin ...
 - Python Cookbook 数据结构和算法
			
1.查找最大或最小的N个元素 import heapq nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] print(heapq.nlargest(3, n ...
 - sqli注入--利用information_schema配合双查询报错注入
			
目录 sqli-labs 5.6双查询报错注入通关 0x01 获取目标库名 0x02 获取库中表的数量 0x03 获取库中表名 0x04 获取目标表中的列数 0x05 获取目标表的列名 0x06 从列 ...
 - php json数据 入库时 转义字符丢失
			
转义字符入库后消失,导致出库后无法反转义 解决办法 增加 addslashes函数 if (empty($result)) { $data['activitiesid'] = $param['act ...
 - application.properties 文件和 application.yml 文件的区别
			
yml文件的好处,天然的树状结构,方便查看,最终会转成application.properties 注意点: 1,原有的key,例如spring.jpa.properties.hibernate.di ...
 - hihocoder  1176
			
hihocoder 1176 题意:N,M.分别表示岛屿数量和木桥数量,一笔画 分析:欧拉路问题(给定无孤立结点图G,若存在一条路,经过图中每边一次且仅一次,该条路称为欧拉路) 欧拉路的条件 一个无向 ...
 - Linux input系统数据上报流程【转】
			
转自:https://segmentfault.com/a/1190000017255939 作为鸡生蛋系列文章,这里主要关注Linux input系统,主要为触摸事件上报流程. 读该文章最好有对li ...
 - centos7 把终端显示改为英文/中文
			
把终端显示改为英文: 1.先备份语言配置文件 cp /etc/locale.conf /home/locale.conf.backup 2.打开配置文件 vim /etc/locale.conf 3. ...
 - 圈水池 nyoj 78 凸包算法
			
圈水池 时间限制:3000 ms | 内存限制:65535 KB 难度:4 描述 有一个牧场,牧场上有很多个供水装置,现在牧场的主人想要用篱笆把这些供水装置圈起来,以防止不是自己的牲畜来喝水, ...
 - [Linux]不可重入函数
			
一.概述 怎么会有可重入和不可重入. 在多任务系统下,中断可能在任务执行的任何时间发生:如果一个函数的执行期间被中断后,到重新恢复到断点进行执行的过程中,函数所依赖的环境没有发生改变,那么这个函数就是 ...