pandas 的算术运算和数据对齐

pandas 还有一个重要的功能，就是他可以对不同索引的对象进行算数运算。
对象相加，如果存在不同的索引对，则结果的索引就是该索引对的并集。

先来个例子

Series

In [33]: s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [34]: s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [35]: s1

Out[35]:

a    7.3

c   -2.5

d    3.4

e    1.5

dtype: float64

In [36]: s2

Out[36]:

a   -2.1

c    3.6

e   -1.5

f    4.0

g    3.1

dtype: float64

In [37]: s1 + s2

Out[37]:

a    5.2

c    1.1

d    NaN

e    0.0

f    NaN

g    NaN

dtype: float64

生成值

In [38]: s3 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [39]: s1 + s2 + s3

Out[39]:

a    3.1

c    4.7

d    NaN

e   -1.5

f    NaN

g    NaN

dtype: float64

也就是说NaN值不会变

DataFrame

add   用于加法（+）方法

sub   用于减法（-）方法

div   用于除法（/）方法

mul   用于乘法（*）方法

In [45]: df1 = DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'), index=['Ohio', "Texas", "Colorado"])

In [46]: df2 = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'), index=["Uhah", 'Ohio', "Texas", "Oregon"])

In [47]: df1 + df2

Out[47]:

            b   c     d   e

Colorado  NaN NaN   NaN NaN

Ohio      3.0 NaN   6.0 NaN

Oregon    NaN NaN   NaN NaN

Texas     9.0 NaN  12.0 NaN

Uhah      NaN NaN   NaN NaN

那么可以使用add方法，传入df2一个fill_valued参数

In [8]: df1.add(df2, fill_value=0)

Out[8]:

            b    c     d     e

Colorado  6.0  7.0   8.0   NaN

Ohio      3.0  1.0   6.0   5.0

Oregon    9.0  NaN  10.0  11.0

Texas     9.0  4.0  12.0   8.0

Uhah      0.0  NaN   1.0   2.0

DataFrame和Series之间的运算

Series

In [40]: arr = np.arange(12.).reshape((3, 4))

In [41]: arr

Out[41]:

array([[  0.,   1.,   2.,   3.],

       [  4.,   5.,   6.,   7.],

       [  8.,   9.,  10.,  11.]])

In [42]: arr[0]

Out[42]: array([ 0.,  1.,  2.,  3.])

In [43]: arr - arr[0]

Out[43]:

array([[ 0.,  0.,  0.,  0.],

       [ 4.,  4.,  4.,  4.],

       [ 8.,  8.,  8.,  8.]])

DataFrame

In [44]: frame = DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'), index=["Uhah", 'Ohio', "Texas", "Oregon"])

In [45]: series = frame.ix[0]

In [46]: frame - series

Out[46]:

          b    d    e

Uhah    0.0  0.0  0.0

Ohio    3.0  3.0  3.0

Texas   6.0  6.0  6.0

Oregon  9.0  9.0  9.0

注意：如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集

In [47]: series2 = Series(range(3), index=['b', 'e', 'f'])

In [48]: frame + series2

Out[48]:

          b   d     e   f

Uhah    0.0 NaN   3.0 NaN

Ohio    3.0 NaN   6.0 NaN

Texas   6.0 NaN   9.0 NaN

Oregon  9.0 NaN  12.0 NaN

如果希望列在行上广播，必须使用算术运算方法

In [63]: frame.sub(series, axis=0)

Out[63]:

          b    d    e

Uhah   -1.0  0.0  1.0

Ohio   -1.0  0.0  1.0

Texas  -1.0  0.0  1.0

Oregon -1.0  0.0  1.0

pandas 的算术运算和数据对齐的更多相关文章

pandas读书笔记算数运算和数据对齐
pandas最重要的一个功能是,它可以对不同索引的对象进行算数运算.在对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集. Series s1=Series([,3.4,1.5],ind ...
利用Python进行数据分析-Pandas(第五部分-数据规整：聚合、合并和重塑)
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析.本部分关注可以聚合.合并.重塑数据的方法. 1.层次化索引层次化索引(hierarchical indexing)是panda ...
（数据科学学习手札99）掌握pandas中的时序数据分组运算
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介我们在使用pandas分析处理时间序列数据 ...
C++中数据对齐
大体看了看数据对齐,不知道是否正确,总结如下: struct A { char name; double dHeight; int age; }; sizeof(A) = (1+7+8+4+4) = ...
C/C++数据对齐汇总
C/C++数据对齐汇总这里用两句话总结数据对齐的原则: (1)对于n字节的元素(n=2,4,8,...),它的首地址能被n整除,才干获得最好的性能: (2)如果len为结构体中长度最长的变量,s ...
gpu显存（全局内存）在使用时数据对齐的问题
全局存储器,即普通的显存,整个网格中的随意线程都能读写全局存储器的任何位置. 存取延时为400-600 clock cycles 很easy成为性能瓶颈. 訪问显存时,读取和存储必须对齐,宽度为4B ...
pandas（七）数据规整化：清理、转换、合并、重塑之合并数据集
pandas对象中的数据可以通过一些内置的方式进行合并: pandas.merge 可根据一个或多个键将不同的DataFrame中的行连接起来. pandas.concat可以沿着一条轴将多个对象堆叠 ...
使用Pandas将多个数据表合一
使用Pandas将多个数据表合一将多张数据表合为一张表,便于统计分析,进行这一操作的前提为这多张数据表互相之间有关联信息,或者有相同的列. import pandas as pd unames = ...
结构体的数据对齐 #pragma浅谈
之前若是有人拿个结构体或者联合体问我这个结构占用了多少字节的内存,我一定觉得这个人有点low, 直到某某公司的一个实习招聘模拟题的出现,让我不得不重新审视这个问题, 该问题大致如下: typedef ...

随机推荐

Android AOP之路三 Android上的注解
一.简单介绍啥是注解.不懂的能够先看我上一篇文章. 在android 里面注解主要用来干这么几件事: 和编译器一起给你一些提示警告信息. 配合一些ide 能够更加方便快捷安全有效的编写java代 ...
C#.NET中遍历指定目录下的文件（及所有子目录及子目录里更深层目录里的文件）
//遍历一个目录下所有的文件列表,代码实例 DirectoryInfo dir = new DirectoryInfo(folderName);var list = GetAll(dir); /// ...
UVa 10697 - Firemen barracks
题目:已知三点.求到三点距离同样的点. 分析:计算几何.分三类情况讨论: 1.三点共线,不成立. 2.多点重叠,有多组解. 3.是三角形,输出中点. 说明:注意绝对值小于0.05的按0计算:负数的四舍 ...
C++ 读写MySQL经典（转载）
from: http://blog.csdn.net/jemlee2002/article/details/1523164 看过很多C或是C++操作MySQL数据库的文章,大部分太吃力了,甚至有一 ...
银联在线支付B2C UnionPay.NET
新春即将来临,首先给大家拜个早年,祝攻城狮们新年快乐.万事如意.合家欢乐.团团圆圆.幸福健康.来年更能大展宏图实现各自的梦想! 同时预祝各大科技公司大佬们事业蒸蒸日上.公司转型突破创新.冲出突围带领 ...
[Windows Azure] Using the Graph API to Query Windows Azure AD
Using the Graph API to Query Windows Azure AD 4 out of 4 rated this helpful - Rate this topic This d ...
Python Pycharm连接Ubantu Python环境
由于我习惯在window下开发,但是代码环境布局在Ubantu.使用Python,为了方便程序的调试,尝试在Windows下的Pycharm远程连接到Ubantu虚拟机下的Python环境. 1.准备 ...
Linux 守护进程
1.什么是守护进程守护进程daemon指的是在后台运行的进程 2.前台任务和后台任务前台任务:独占命令行窗口,运行完毕或手动终止,才能执行其他命令以redis服务为例 redis-server ...
Oracle生成流水号函数
一.参考 1:日期范围上 smalldatetime的有效时间范围1900/1/1~2079/6/6 datetime的有效时间范围1753/1/1~9999/12/31 2:精准度上 smallda ...
LeetCode: Triangle 解题报告
Triangle Given a triangle, find the minimum path sum from top to bottom. Each step you may move to a ...

pandas 的算术运算和数据对齐

Series

DataFrame

DataFrame和Series之间的运算

pandas 的算术运算和数据对齐的更多相关文章

随机推荐

热门专题