在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率, 类似于R的向量化操作,是的数据的操作趋于简单化,在python 中是使用numpy模块可以进行数组和矢量计算. 下面来看下简单的例子 import numpy as np data=np.array([2,5,6,8,3]) #构造一个简单的数组 print(data) 结果: [2 5 6 8 3] data1=np.array([[2,5,6,8,3],np.arange(5)]) #构建一个二维数组 print(da…
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包.大多数提供科学计算的包都是用NumPy的数组作为构建基础. NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数据进行快速运算的标准数学函数(无需编写循环). 用于读写磁盘数据的工具以及用于操作内存映射文件的工具. 线性代数.随机数生成以及傅里叶变换功能. 用于集成由C.C++.Fortran等语言编写的代码的A C API. 由于NumP…
4.2 通用函数:快速的元素级数组函数 通用函数(即ufunc)是一种对ndarray中的数据执行元素级运算的函数. 1)一元(unary)ufunc,如,sqrt和exp函数 2)二元(unary)ufunc,可接受2个数组,并返回一个结果数组,如add或maximum函数   3)部分ufunc可返回多个数组,如modf,是Python内置函数divmod的矢量化版本,可返回浮点数数组的整数部分和小数部分: 4)Ufuncs可以接受一个out可选参数,这样就能在数组原地进行操作. 列举部分一…
http://www.cnblogs.com/batteryhp/p/5000104.html 第四章 Numpy基础:数组和矢量计算 第一部分:numpy的ndarray:一种多维数组对象 实话说,用numpy的主要目的在于应用矢量化运算.Numpy并没有多么高级的数据分析功能,理解Numpy和面向数组的计算能有助于理解后面的pandas.按照课本的说法,作者关心的功能主要集中于: 用于数据整理和清理.子集构造和过滤.转换等快速的矢量化运算 常用的数组解法,如排序.唯一化.集合运算等 高效的描…
NumPy基础:数组和矢量计算 NumPy的ndarray:一种多维数组对象 该对象是一个快速灵活的大数据集容器.你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样 列表转换为数组 二维列表 数据类型 其他一些自动生成的数组 arange() ndarray的数据类型 使用astype()方法转换类型,如果将浮点数转换成整数,则小数部分将会被截断,如果某个字符串数组全是数字,也可以用其转换为数值形式 数组和标量之间的运算 数组很重要,因为它使你不用编写循环即可对主句执行…
绘图和可视化 matplotlib入门 创建窗口和画布 fig = plt.figure() ax1 = fig.add_subplot(2,2,1) ax2 = fig.add_subplot(2,2,2) ax3 = fig.add_subplot(2,2,3) plt.show(fig) 方便创建多个画布 fig, axes = plt.subplots(2,3) print axes plt.show(fig) 调整subplot周围的间距 颜色.标记.线型 ax.plot(x,y,'g…
数据加载.存储与文件格式 读写文本格式的数据 逐块读取文本文件 read_xsv参数nrows=x 要逐块读取文件,需要设置chunksize(行数),返回一个TextParser对象. 还有一个get_chunk方法,它使你可以读取任意大小的块. 将数据写出到文本格式 DataFrame的to_csv() Series的to_csv()和from_csv()和read_csv() 手工处理分隔符格式 JSON数据 python标准库中有专门操作模块 json.loads() json.dump…
数据规整化:清理.转换.合并.重塑 合并数据集 pandas.merge pandas.concat combine_first 数据库风格的DataFrame合并 索引上的合并 join()实例方法 轴向连接 NumPy中有concatenation pandas中concat() 合并重叠数据 NumPy中的where() pandas中的combine_first 重塑和轴向旋转 重塑层次化索引 stack() 列到行 unstack() 行到列 将长格式旋转为宽格式 不懂 数据转换 移除…
引言 1 列表推导式 records = [json.loads(line) for line in open(path)] 这是一种在一组字符串(或一组别的对象)上执行一条相同操作(如json.loads)的简洁方式.在一个打开的文件句柄上进行迭代即可获得一个由行组成的序列.现在,records对象就成为一组Python字典了. {u'a': u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko)…
pandas入门 数据结构 Series Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成.仅由一组数据即可产生最简单的Series: 可以通过索引的方式选取Series中的单个或一组值. 运算(根据布尔型数组进行过滤,标量乘法,应用数学函数). 根据字典创建Series. NaN(not a number)表示缺失或NA值. isnull()和notnoll()用于检测缺失数据. 在算术运算中会自动对齐不同索引的数据. Se…