【跟着stackoverflow学Pandas】 - Adding new column to existing DataFrame in Python pandas - Pandas 添加列
最近做一个系列博客,跟着stackoverflow学Pandas。
以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序:
https://stackoverflow.com/questions/tagged/pandas?sort=votes&pageSize=15
Adding new column to existing DataFrame in Python pandas - Pandas 添加列
pandas官方给出了对列的操作, 可以参考:
http://pandas.pydata.org/pandas-docs/stable/dsintro.html#column-selection-addition-deletion
- 数据准备
随机生成8*3的DataFrame df1,筛选 a 列大于0.5的行组成df2,作为我们的初始数据。
import numpy as np
import pandas as pd
print pd.__version__
#0.19.2
np.random.seed(0)
df1 = pd.DataFrame(np.random.randn(8, 3), columns=['a', 'b', 'c'])
print df1
a b c
# 0 1.764052 0.400157 0.978738
# 1 2.240893 1.867558 -0.977278
# 2 0.950088 -0.151357 -0.103219
# 3 0.410599 0.144044 1.454274
# 4 0.761038 0.121675 0.443863
# 5 0.333674 1.494079 -0.205158
# 6 0.313068 -0.854096 -2.552990
# 7 0.653619 0.864436 -0.742165
df2 = df1[df1['a']> 0.5]
df3 = df2
sLength = len(df2['a'])
d = pd.Series(np.random.randn(sLength))
直接赋值
采用 df2['d'] = d
或者 df2.loc[:, 'd'] = d
直接进行赋值。
print df2
# a b c
# 0 1.764052 0.400157 0.978738
# 1 2.240893 1.867558 -0.977278
# 2 0.950088 -0.151357 -0.103219
# 4 0.761038 0.121675 0.443863
# 7 0.653619 0.864436 -0.742165
print d
# 0 2.269755
# 1 -1.454366
# 2 0.045759
# 3 -0.187184
# 4 1.532779
print type(d)
#<class 'pandas.core.series.Series'>
# 下面的方法可以,但是会有SettingWithCopyWarning警告
df2['d'] = d
# /Library/Python/2.7/site-packages/ipykernel/__main__.py:1: SettingWithCopyWarning:
# A value is trying to be set on a copy of a slice from a DataFrame.
# Try using .loc[row_indexer,col_indexer] = value instead
# See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
# if __name__ == '__main__':
# 为了避免警告我们可以采用这种方式来进行直接赋值
df2.loc[:, 'd'] = d
print df2
a b c d
# 0 1.764052 0.400157 0.978738 2.269755
# 1 2.240893 1.867558 -0.977278 -1.454366
# 2 0.950088 -0.151357 -0.103219 0.045759
# 4 0.761038 0.121675 0.443863 1.532779
# 7 0.653619 0.864436 -0.742165 NaN
df2.loc[:, 'd1'] = d.tolist() # 或者 d.values()
# d.tolist() 返回list
# d.values 返回 numpy.ndarray
print df2
# a b c d d1
# 0 1.764052 0.400157 0.978738 2.269755 2.269755
# 1 2.240893 1.867558 -0.977278 -1.454366 -1.454366
# 2 0.950088 -0.151357 -0.103219 0.045759 0.045759
# 4 0.761038 0.121675 0.443863 1.532779 -0.187184
# 7 0.653619 0.864436 -0.742165 NaN 1.532779
我们可以发现,df2是5行数据, d 也是5个数据,但是赋值之后d列仅有4个值,深究发现,d是Series类型,df2['d'] = d
是根据index对其进行赋值,只有 0 1 2 4 等4个index在d中有对应, 7 没有对应所以为NaN.
如果忽略index影响,我们可以采用d.tolist()
或者 d.values()
同时,在 pandas 0.19.2 中,采用 df2['d'] = d
, 提示SettingWithCopyWarning,尽量避免这种方式,采用df2.loc[:, 'd'] = d
的方式进行列的增加。
assign 赋值
官方推荐,assign 为DataFrame增加新列。
pandas官方参考:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.assign.html
print df3
# a b c
# 0 1.764052 0.400157 0.978738
# 1 2.240893 1.867558 -0.977278
# 2 0.950088 -0.151357 -0.103219
# 4 0.761038 0.121675 0.443863
# 7 0.653619 0.864436 -0.742165
print d
# 0 2.269755
# 1 -1.454366
# 2 0.045759
# 3 -0.187184
# 4 1.532779
# 对 d.values (numpy.ndarray)进行赋值
df3 = df3.assign(d = d.values)
print df3
# a b c d
# 0 1.764052 0.400157 0.978738 2.269755
# 1 2.240893 1.867558 -0.977278 -1.454366
# 2 0.950088 -0.151357 -0.103219 0.045759
# 4 0.761038 0.121675 0.443863 -0.187184
# 7 0.653619 0.864436 -0.742165 1.532779
# 对 d(Series) 进行赋值
df4 = df3.assign(d = d)
print df4
a b c d
# 0 1.764052 0.400157 0.978738 2.269755
# 1 2.240893 1.867558 -0.977278 -1.454366
# 2 0.950088 -0.151357 -0.103219 0.045759
# 4 0.761038 0.121675 0.443863 1.532779
# 7 0.653619 0.864436 -0.742165 NaN
可以发现 df3 采用 assign 进行赋值,可以得到跟loc直接赋值相同的结果, 区别在于赋值的类型是 Series还是 numpy.ndarray 或者是list。
同时,assign还可以进行多种操作,比如:
df4 = df3.assign(ln_A = lambda x: np.log(x['a']))
print df4
# a b c d ln_A
# 0 1.764052 0.400157 0.978738 2.269755 0.567614
# 1 2.240893 1.867558 -0.977278 -1.454366 0.806875
# 2 0.950088 -0.151357 -0.103219 0.045759 -0.051200
# 4 0.761038 0.121675 0.443863 -0.187184 -0.273072
# 7 0.653619 0.864436 -0.742165 1.532779 -0.425231
【跟着stackoverflow学Pandas】 - Adding new column to existing DataFrame in Python pandas - Pandas 添加列的更多相关文章
- 【跟着stackoverflow学Pandas】 -Get list from pandas DataFrame column headers - Pandas 获取列名
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 【跟着stackoverflow学Pandas】Select rows from a DataFrame based on values in a column -pandas 筛选
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 【跟着stackoverflow学Pandas】Delete column from pandas DataFrame-删除列
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 【跟着stackoverflow学Pandas】add one row in a pandas.DataFrame -DataFrame添加行
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 【跟着stackoverflow学Pandas】How to iterate over rows in a DataFrame in Pandas-DataFrame按行迭代
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 【跟着stackoverflow学Pandas】“Large data” work flows using pandas-pandas大数据处理流程
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 【跟着stackoverflow学Pandas】Renaming columns in pandas-列的重命名
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 学机器学习,不会数据处理怎么行?—— 二、Pandas详解
在上篇文章学机器学习,不会数据处理怎么行?—— 一.NumPy详解中,介绍了NumPy的一些基本内容,以及使用方法,在这篇文章中,将接着介绍另一模块——Pandas.(本文所用代码在这里) Panda ...
- 跟着百度学PHP[14]-PDO之Mysql的事务处理2
前面所将仅仅是在纯mysql下的讲解,这节就是要将其搬到PDO台面上来了. 将自动提交关闭. SetAttribute下有一个PDO::ATTR_AUTOCOMMIT 将其设置为0即可关闭,如:$pd ...
随机推荐
- ros 编译包含脚本文件以及launch文件
目录结构如下: 修改CMakeLists.txt文件 install(PROGRAMS scripts/initial_pos.py DESTINATION ${CATKIN_PACKAGE_BIN_ ...
- ubuntu 14.04 安装 gflags
1.下载 git clone https://github.com/gflags/gflags 2.编译 进入源码目录(即gflags文件夹) cmake . make -j 24 sudo make ...
- Could NOT find Bullet (missing: BULLET_DYNAMICS_LIBRARY BULLET_COLLISION_LIBRARY BULLET_MATH_LIBRARY BULLET_SOFTBODY_LIBRARY BULLET_INCLUDE_DIR)
rosdep where-defined bullet sudo apt-get install libbullet-dev
- MongoDB(课时20 游标)
3.5 游标(重点) 所谓游标就是指数据可以一行行的进行操作,非常类似于ResultSet数据处理.在MongoDB里对游标的控制使用find()函数就可以返回游标.对于返回的游标如果想进行操作,使用 ...
- MongoDB(课时14 正则运算)
3.2.4.9 正则运算 如果想实现模糊查询,必须使用正则表达式,而且正则表达式使用的语言是Perl兼容的正则表达式的形式. 要实现正则使用,则按照如下的定义格式: 基础语法:{key : 正则标记} ...
- MySQL函数GROUP_CONCAT() 实现多条数据合并
group_concat()会计算哪些行属于同一组,将属于同一组的列显示出来,group by指定的列进行分组. 例如: -- 根据物流订单id查询所有物流订单,车源订单,车辆信息(多条数据合并为一条 ...
- mysql 问题 Loading class `com.mysql.jdbc.Driver'. This is deprecated. The new driver class is `com.mysql.cj.jdb
异常错误:Loading class `com.mysql.jdbc.Driver'. This is deprecated. The new driver class is `com.mysql.c ...
- [Java学习] 强调一下编程风格
讲完了Java的基础语法,大家就可以编写简单的程序代码了,这里有必要强调一下编程风格. 代码风格虽然不影响程序的运行,但对程序的可读性却非常重要.自己编写的程序要让别人看懂,首先在排版方面要非常注意. ...
- 重构 MVC; 代码分享工具(重构,改进,打分)
include 模块和 extend 模块的不同: Class Extension: 通过向singleton class中加入Module来定义class method,是对象扩展的一个特例. ...
- codeforces 993c//Careful Maneuvering// Codeforces Round #488 by NEAR (Div. 1)
题意:x轴-100和+100的有敌人飞船,纵坐标由输入数据给出,我方有2飞船在x轴0,y坐标待定.0时刻时敌人同时向我方2飞船发出光线,光线会穿透飞船打到敌人自己,问2飞船放在哪敌人损失最大? 假如- ...