pandas读书笔记算数运算和数据对齐

pandas最重要的一个功能是，它可以对不同索引的对象进行算数运算。在对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。

Series

s1=Series([7.3,-,3.4,1.5],index=['a','c','d','e'])

s2=Series([-2.1,3.6,-1.5,,3.1],index=['a','c','e','f','g'])

s1

Out[]:

a     7.3

c   -25.0

d     3.4

e     1.5

dtype: float64

s2

Out[]:

a   -2.1

c    3.6

e   -1.5

f    4.0

g    3.1

dtype: float64

它们相加就会产生：

s1+s2

Out[]:

a     5.2

c   -21.4

d     NaN

e     0.0

f     NaN

g     NaN

dtype: float64

自动的数据对齐操作在不重叠的索引处引入了NA值。

DataFrame

对齐操作会同时发生在行和列上：

df1=DataFrame(np.arange().reshape((,)),columns=list('bcd'),

index=['Ohio','Texas','Colorado'])

df2=DataFrame(np.arange().reshape((,)),columns=list('bde'),

index=['Utah','Ohio','Texas','Oregon'])

df1

Out[]:

          b  c  d

Ohio

Texas

Colorado      

df2

Out[]:

        b   d   e

Utah

Ohio

Texas

Oregon

把它们相加后会返回一个新的DataFrame,其索引和列为原来那两个DataFrame的并集：

df1+df2

Out[]:

            b   c     d   e

Colorado  NaN NaN   NaN NaN

Ohio      3.0 NaN   6.0 NaN

Oregon    NaN NaN   NaN NaN

Texas     9.0 NaN  12.0 NaN

Utah      NaN NaN   NaN NaN

在算数方法中填充值

在对不同索引的对象进行算数运算时，你可能希望当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值：

df1=DataFrame(np.arange().reshape((,)),columns=list('abcd'))

df2=DataFrame(np.arange().reshape((,)),columns=list('abcde'))

df1

Out[]:

   a  b   c   d

df2

Out[]:

    a   b   c   d   e

将它们相加时，没有重叠的位置就会产生NA值：

df1+df2

Out[]:

      a     b     c     d   e

   0.0   2.0   4.0   6.0 NaN

   9.0  11.0  13.0  15.0 NaN

  18.0  20.0  22.0  24.0 NaN

   NaN   NaN   NaN   NaN NaN

使用df1的add方法，传入df2以及一个fill_value参数：

df1.add(df2,fill_value=)

Out[]:

      a     b     c     d     e

   0.0   2.0   4.0   6.0   4.0

   9.0  11.0  13.0  15.0   9.0

  18.0  20.0  22.0  24.0  14.0

  15.0  16.0  17.0  18.0  19.0

与此类似，在对Series或DataFrame重新索引时，也可以指定一个填充值：

df1.reindex(columns=df2.columns,fill_value=)

Out[]:

   a  b   c   d  e

灵活的算数方法

add ->用于加法（+）的方法

sub ->用于减法（-）的方法

div ->用于除法（/）的方法

mul ->用于乘法（*）的方法

DataFrame和Series之间的运算

arr=np.arange().reshape((,))

arr

Out[]:

array([[ ,  ,  ,  ],

       [ ,  ,  ,  ],

       [ ,  , , ]])

arr[]

Out[]: array([, , , ])

arr-arr[]

Out[]:

array([[, , , ],

       [, , , ],

       [, , , ]])

这就叫做广播（broadcasting）。DataFrame和Series之间的运算差不多如此：

frame=DataFrame(np.arange().reshape((,)),columns=list('bde'),

index=['Utah','Ohio','Texas','Oregon'])

series=frame.ix[]

__main__:: DeprecationWarning:

.ix is deprecated. Please use

.loc for label based indexing or

.iloc for positional indexing

See the documentation here:

http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated

frame

Out[]:

        b   d   e

Utah

Ohio

Texas

Oregon      

series

Out[]:

b

d

e

Name: Utah, dtype: int32

匹配列，沿行进行广播

默认情况下，DataFrame和Series之间的算数运算会将Series的索引匹配到DataFrame的列，然后沿着行一直向下广播。

frame-series

Out[]:

        b  d  e

Utah

Ohio

Texas

Oregon

也可以理解为纵向广播↓。

如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集：

series2=Series(range(),index=['b','e','f'])

frame+series2

Out[]:

          b   d     e   f

Utah    0.0 NaN   3.0 NaN

Ohio    3.0 NaN   6.0 NaN

Texas   6.0 NaN   9.0 NaN

Oregon  9.0 NaN  12.0 NaN

匹配行在列上广播

则必须使用算数运算方法：

series3=frame['d']

frame

Out[]:

        b   d   e

Utah

Ohio

Texas

Oregon      

series3

Out[]:

Utah

Ohio

Texas

Oregon

Name: d, dtype: int32

frame.sub(series3,axis=)

Out[]:

        b  d  e

Utah   -

Ohio   -

Texas  -

Oregon -

传入的轴号就是希望匹配的轴。

可以理解为横向广播 →

pandas读书笔记算数运算和数据对齐的更多相关文章

Shell学习笔记——算数运算与条件测试
算数运算 1. 使用let命令 #!/sbin/bash var1=2 var2=3 let sum=var1+var2 echo $sum 使用let命令式,变量前不需要加$号只用于整数运算,不适 ...
《利用python进行数据分析》读书笔记--第七章数据规整化：清理、转换、合并、重塑（三）
http://www.cnblogs.com/batteryhp/p/5046433.html 5.示例:usda食品数据库下面是一个具体的例子,书中最重要的就是例子. #-*- encoding: ...
《利用python进行数据分析》读书笔记--第六章数据加载、存储与文件格式
http://www.cnblogs.com/batteryhp/p/5021858.html 输入输出一般分为下面几类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据.利用Web API ...
《统计推断（Statistical Inference）》读书笔记——第6章数据简化原理
在外行眼里统计学家经常做的一件事就是把一大堆杂七杂八的数据放在一起,算出几个莫名其妙的数字,然后再通过这些数字推理出貌似很靠谱的结论,简直就像是炼金术士用“贤者之石”把一堆石头炼成了金矿.第六章,应该 ...
《SQL Server企业级平台管理实践》读书笔记——SQL Server中数据文件空间使用与管理
1.表和索引存储结构在SQL Server2005以前,一个表格是以一个B树或者一个堆(heap)存放的.每个B树或者堆,在sysindexes里面都有一条记录相对应.SQL Server2005以 ...
OCA读书笔记(10) - 管理UNDO数据
Undo自动管理与手动管理 undo段自动管理SQL> show parameter undo_management 将undo段改为手工管理SQL> alter system set u ...
MySQL必知必会读书笔记三：检索数据和数据排序
检索数据 SELECT语句它的用途是从一个或多个表中检索信息. 为了使用SELECT检索表数据,必须至少给出两条信息--想选择什么,以及从什么地方选择. 检索单个列 SELECT col_1 FR ...
$《第一行代码：Android》读书笔记——第6章数据持久化
主要讲述了Android数据持久化的三种方式:文件存储.SharedPreference存储.SQLite数据库存储. (一)文件存储其实Android中文件存储方式和Java的文件操作类似,就是用 ...
3D数学读书笔记——向量运算及在c++上的实现
本系列文章由birdlove1987编写.转载请注明出处. 文章链接: http://blog.csdn.net/zhurui_idea/article/details/24782661 ...

随机推荐

WPF datagrid/gridcontrol 中选中多行，复制粘贴到excel或其他文本编辑器中
wpf中 data grid 开启自带的选中,然后复制,可以到excel中直接粘贴,在某些业务场景中很实用,方便.开启也很简单: SelectionMode="Row" 加上这个, ...
【记录】linux中不同颜色代表的含义
下面是linux约定不同类型文件默认的颜色白色:表示普通文件蓝色:表示目录绿色:表示可执行文件红色:表示压缩文件浅蓝色:链接文件红色闪烁:表示链接的文件有问题黄色:表示设备文件灰色:表 ...
Android Studio在Ubuntu下离线安装Gradle
更新android studio3.0后又要升级gradle了,估计又要很长时间,晚上临走前跟开始更新下载,第二天一早发现又卡了,吐血. 在某CSDN下载gradle-4.1-all.zip,直接手动 ...
day08 python文件操作
day08 python 一.文件操作 1.文件操作的函数 open(文件名, mode=模式, encoding=字符集) 2.模式: r, w, a, r+ ...
MySQL不支持事务处理的解决方法
MySQL数据库默认的存储引擎类型是MyISAM,这种存储引擎类型不支持事务处理. 在MySQL中,只有InnoDB存储引擎类型的数据表才能支持事务处理. 因此,如果想让MySQL支持事务处理,只要将 ...
浅谈无线h5开发
最近一直在做h5的项目,对h5开发有了自己的理解.首先h5开发并不是指的html5的开发,而是指无线端的web开发,至于为什么叫h5开发,我觉得一方面是因为html5近几年还是挺受关注,另一方面h5在 ...
jqery基础知识实例(二)
无缝滚动 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3 ...
分块——cf1207F
这么傻逼的题当时想了那么久用a数组维护原序列,b[i][j]表示 pos%i=j 的 a[pos]之和对于每个修改1 x y,先直接修改a[x],然后枚举i=1..700,修改b[i][x%i] ...
delphi 数据处理
TStringStream 怎样转换String procedure TForm1.Button1Click(Sender: TObject); var ss:TStringStream; str:S ...
mongodb副本集的内部机制（借鉴lanceyan.com）
针对mongodb的内部机制提出以下几个引导性的问题: 副本集故障转移,主节点是如何选举的?能否手动干涉下架某一台主节点. 官方说副本集数量最好是奇数,为什么? mongodb副本集是如何同步的?如果 ...

pandas读书笔记 算数运算和数据对齐

pandas读书笔记 算数运算和数据对齐的更多相关文章

随机推荐

热门专题

pandas读书笔记算数运算和数据对齐

pandas读书笔记算数运算和数据对齐的更多相关文章