在运行以下Python代码时,Pandas抛出SettingWithCopyWarning警告:

row_data = df_pred.loc[key]
row_data['col'] = new_value

df_pred是一个数据框,根据索引从数据框中获取一行,然后对该行的一个字段进行赋值,警告的详细内容如下:

SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

该警告的意思是:在DataFrame的一个切片上的copy上进行赋值操作。出现警告是因为该赋值操作可能不会影响到原始的数据框。

从代码上来理解:row_data 是原始数据框的一个切片(df_loc[key]),该切片可能是原始数据框的一个视图(View),也可能是原始数据框的一个副本(Copy)。如果row_data是原始数据框的一个视图,对row_data进行数据修改不会影响到df_pred。建议使用df_pred.loc[row_indx,col_index] 方式,该方式肯定修改原始数据框。

一,深拷贝和浅拷贝

在使用DataFrame修改数据时,要知道深拷贝和浅拷贝的区别。图例描述了浅拷贝和深拷贝的区别,假设B复制了A,当修改B时,如果A也跟着变了,说明这是浅拷贝;如果A没变,那就是深拷贝。

也就是说,浅拷贝是创建了对象的一个引用,而深拷贝是创建了对象的一个独立的实体。

二,数据的视图和副本

在pandas中,浅拷贝也称作数据的视图(View),深拷贝也称作数据的副本(Copy),Pandas 中的某些操作可以返回数据的视图(View),而某些其他操作将返回数据的副本(Copy)。

SettingWithCopyWarning 警告暗示:赋值操作可能没有按照预期执行,你应该检查结果以确保结果没有出错。

如果你的代码执行的结果符合预期,那么你可以忽略警告,但这并不是良好的编码实践,SettingWithCopyWarning 警告不应该被忽略。在采取下一步行动之前,花点时间了解以下为什么Pandas会抛出这一警告。

三,警告出现的原因

直接抛出结论,警告出现的原因只有一个:

出现警告的原因是链式赋值

当 Pandas 检测到链式赋值(Chained assignment)时会生成警告,链式赋值是指通过使用链式索引来赋值。链式索引(Chaining)是指连续使用多个索引,例如data[1:5][1:3]。

使用链式索引赋值的两种方式:

  • 第一种是显式的,索引是连续的,例如,data.iloc[1][3] = value
  • 第二种是隐式的,例如,先定义 df = data.iloc[1],再使用 df[3] = value 也属于链式赋值

链式赋值可以在一行中进行,也可以跨越多行,只要Pandas检测到链式赋值,Python就会抛出SettingWithCopyWarning警告。

1,显式的链式赋值

举个例子,使用链式索引对bidder列进行赋值:

data[data.bidder == 'parakeet2004']['bidderrate'] = 100

生成警告是因为我们把两个索引操作链接在一起,代码中直接使用了两次中括号,所以这种格式比较容易理解。但如果我们使用其他访问方法,例如 .bidderrate.loc[].iloc[].ix[],也是如此,我们的链式操作一个接一个独立执行:

data[data.bidder == 'parakeet2004']
['bidderrate'] = 100

第一次是访问操作(get),返回一个 DataFrame,其包含所有 bidder 等于 'parakeet2004' 的行。第二个是赋值操作(set),是在这个新的 DataFrame 上运行的,我们压根没有在原始 DataFrame 上运行。

这个解决方案很简单:使用 loc 将链式操作组合到一个操作中,以便 Pandas 可以确保 set 操作是在原始 DataFrame上执行。Pandas 会始终确保下面这样的非链式 set 操作起作用。

data.loc[data.bidder == 'parakeet2004', 'bidderrate'] = 100

2,隐式的链式赋值

举个例子,使用原始数据框的一个变量,对变量赋值,这是隐式的链式赋值:

winners = data.loc[data.bid == data.price]
winners.loc[304, 'bidder'] = 'therealname'

隐式的链式索引可能跨越多行代码发生,也可能在一行代码内发生。因为 winners 是作为 get 操作的输出创建的(data.loc[data.bid == data.price]),它可能是原始 DataFrame 的副本,也可能不是,但除非我们检查,否则我们不能确认。当我们对 winners 进行索引时,我们实际上使用的是链式索引。这意味着当我们尝试修改 winners 时,我们可能也修改了 data

在实际的代码中,这些行可能会跨越很大的距离,因此追踪问题可能会更困难,但情况是与示例类似的。

为了防止这种情况下的警告,解决方案是在创建新 DataFrame 时明确告知 Pandas 这是创建的一个副本,对副本的修改不会影响到原始对象:

winners = data.loc[data.bid == data.price].copy()
winners.loc[304, 'bidder'] = 'therealname'

敲门就是,学会识别链式索引,不惜一切代价避免使用链式索引。如果要更改原始数据,请使用单一索引赋值操作。如果你想要一个副本,请确保显式调用copy()函数强制让 Pandas 创建副本。

提一个中肯的建议,即使SettingWithCopyWarning警告只在set 时才会发生,但在进行 get 操作时,最好也避免使用链式索引。不仅因为链式操作较慢,而且因为链式索引始终是一个潜在的问题,只要你稍后进行赋值操作,就可能不会影响到原始对象,这可能不是你的预期操作,所以,请不惜一切代价避免使用链式索引。

参考文档:

python学习笔记之Pandas 中 SettingwithCopyWarning 的原理和解决方案

SettingwithCopyWarning: How to Fix This Warning in Pandas

DataFrame 链式赋值的更多相关文章

  1. python学习(二十一) Python 中的链式赋值

    Python的链式赋值如下:

  2. pyhton链式赋值在可变类型/不可变类型上的区别以及其本质

    关于链式赋值的一些注意点: a=[]b=[]x=y=[]print(a==b) #Trueprint(x==y) #Trueprint(a is b) #Falseprint(x is y) #Tru ...

  3. Python特色的序列解包、链式赋值、链式比较

    一.序列解包 序列解包(或可迭代对象解包):解包就是从序列中取出其中的元素的过程,将一个序列(或任何可迭代对象)解包,并将得到的值存储到一系列变量中. 一般情况下要解包的序列包含的元素个数必须与你在等 ...

  4. Python 笔试集(1):关于 Python 链式赋值的坑

    前言 Python 的链式赋值是一种简易型批量赋值语句,一行代码即可为多个变量同时进行赋值. 例如: x = y = z = 1 链式赋值是一种非常优雅的赋值方式,简单.高效且实用.但同时它也是一个危 ...

  5. 第4.7节 Python特色的序列解包、链式赋值、链式比较

    一.序列解包 序列解包(或可迭代对象解包):解包就是从序列中取出其中的元素的过程,将一个序列(或任何可迭代对象)解包,并将得到的值存储到一系列变量中. 一般情况下要解包的序列包含的元素个数必须与你在等 ...

  6. Python链式赋值执行顺序及执行方式的证明

    专栏:Python基础教程目录 专栏:使用PyQt开发图形界面Python应用 专栏:PyQt入门学习 老猿Python博文目录 老猿学5G博文目录 在<关于Python链式赋值的赋值顺序问题& ...

  7. 关于Python链式赋值的赋值顺序问题

    在<第4.7节 Python特色的序列解包.链式赋值.链式比较>一文中,老猿这样介绍的: 链式赋值是用一行语句将多个变量赋值为同一个值,语法如下: 变量1=变量2=变量n=赋值表达式 该语 ...

  8. C++中的链式操作

    代码编译环境:Windows7 32bits+VS2012. 1.什么是链式操作 链式操作是利用运算符进行的连续运算(操作).它的特点是在一条语句中出现两个或者两个以上相同的操作符,如连续的赋值操作. ...

  9. 由反转链表想到python链式交换变量

    这两天在刷题,看到链表的反转,在翻解体思路时看到有位同学写出循环中一句搞定三个变量的交换时觉得挺6的,一般用的时候都是两个变量交换(a,b=b,a),这种三个变量的交换还真不敢随便用,而且这三个变量都 ...

随机推荐

  1. js设置Date

    function getDate (yyyy, MM, dd) { let t = new Date() t.setFullYear(yyyy) t.setMonth(Number(MM) - 1) ...

  2. css3关于body的默认滑动机制

    css关于body的默认滑动机制 大家都知道 body里面只要高度超出了原来的高度就可以滚动要取消这个机制 只能设置height:100% overflow:hidden就能取消了

  3. Linux软件包管理和磁盘管理实践

    一.自建yum仓库,分别为网络源和本地源 本地yum仓库的搭建就是以下三个步骤: 创建仓库目录结构 上传相应的包到目录下,或者直接挂载光盘也行,如果挂载光盘,第三步就可以省略,因为光盘默认里有repo ...

  4. java编程思想第四版第十四章 类型信息习题

    fda dfa 第三题u package net.mindview.typeinfo.test4; import java.util.ArrayList; import java.util.Array ...

  5. nyoj 117 求逆序数 (归并(merge)排序)

    求逆序数 时间限制:2000 ms  |  内存限制:65535 KB 难度:5   描述 在一个排列中,如果一对数的前后位置与大小顺序相反,即前面的数大于后面的数,那么它们就称为一个逆序.一个排列中 ...

  6. 力扣(LeetCode)字符串中的单词数 个人题解

    统计字符串中的单词个数,这里的单词指的是连续的不是空格的字符. 请注意,你可以假定字符串里不包括任何不可打印的字符. 示例: 输入: "Hello, my name is John" ...

  7. 领扣(LeetCode)对称二叉树 个人题解

    给定一个二叉树,检查它是否是镜像对称的. 例如,二叉树 [1,2,2,3,4,4,3] 是对称的. 1 / \ 2 2 / \ / \ 3 4 4 3 但是下面这个 [1,2,2,null,3,nul ...

  8. 管道 |、|&、tee

    用“|”或“|&”隔开两个命令之间形成一个管道,左边命令的标准输出(|)或者标准错误输出(|&)信息流入到右边命令的标准输入,即左边命令的标准输出作为右边命令的标准输入.如: make ...

  9. mysql数据库E-R图

    学会绘制E-R图 绘制E-R图首先要了解什么是实体,什么是属性,什么是联系. 1.首先实体是指现实世界中具有区分其他事物的特征或属性与其他实体有联系的实体,针对于数据库中的表而言实体是指表中一行一行特 ...

  10. 使用Java窗口程序执行输入的任何cmd命令

    利用Java窗口程序来执行用输入的任何命令 实现效果: Java桌面窗口,输入框.按钮,当输入框被输入命令的时候,点击按钮执行命令! 实现代码 package com.remote.remote.ag ...