1 简介

　　我们在利用pandas开展数据分析时，应尽量避免过于碎片化的组织代码，尤其是创建出过多不必要的中间变量，既浪费了内存，又带来了关于变量命名的麻烦，更不利于整体分析过程代码的可读性，因此以流水线方式组织代码非常有必要。

图1

　　而在以前我撰写的一些文章中，为大家介绍过pandas中的eval()和query()这两个帮助我们链式书写代码，搭建数据分析工作流的实用API，再加上下面要介绍的pipe()，我们就可以将任意pandas代码完美组织成流水线形式。

2 在pandas中灵活利用pipe()

　　pipe()顾名思义，就是专门用于对Series和DataFrame操作进行流水线（pipeline）改造的API，其作用是将嵌套的函数调用过程改造为链式过程，其第一个参数func传入作用于对应Series或DataFrame的函数。

　　具体来说pipe()有两种使用方式，第一种方式下，传入函数对应的第一个位置上的参数必须是目标Series或DataFrame，其他相关的参数使用常规的键值对方式传入即可，就像下面的例子一样，我们自编函数对泰坦尼克数据集进行一些基础的特征工程处理：

import pandas as pd

train = pd.read_csv('train.csv')

def do_something(data, dummy_columns):

    '''

    自编示例函数

    '''

    data = (

        pd

        # 对指定列生成哑变量

        .get_dummies(data, # 先删除data中指定列

                     columns=dummy_columns,

                     drop_first=True)

    )

    return data

# 链式流水线

(

    train

    # 将Pclass列转换为字符型以便之后的哑变量处理

    .eval('Pclass=Pclass.astype("str")', engine='python')

    # 删除指定列

    .drop(columns=['PassengerId', 'Name', 'Cabin', 'Ticket'])

    # 利用pipe以链式的方式调用自编函数

    .pipe(do_something,

          dummy_columns=['Pclass', 'Sex', 'Embarked'])

    # 删除含有缺失值的行

    .dropna()

)

　　可以看到，在紧接着drop()下一步的pipe()中，我们将自编函数作为其第一个参数传入，从而将一系列操作巧妙地嵌入到链式过程中。

　　第二种使用方式适合目标Series和DataFrame不为传入函数第一个参数的情况，譬如下面的例子中我们假设目标输入数据为第二个参数data2，则pipe()的第一个参数应以(函数名, '参数名称')的格式传入：

def do_something(data1, data2, axis):

    '''

    自编示例函数

    '''

    data = (

        pd

        .concat([data1, data2], axis=axis)

    )

    return data

# pipe()第二种使用方式

(

    train

    .pipe((do_something, 'data2'), data1=train, axis=0)

)

　　在这样的设计下我们可以避免很多函数嵌套调用方式，随心所欲地优化我们的代码~

　　以上就是本文的全部内容，欢迎在评论区与我进行讨论~

在pandas中使用pipe()提升代码可读性的更多相关文章

提升代码幸福度，五个技巧减少js开发中的if else语句
壹 ❀ 引在JavaScript开发中,条件判断语句的使用频率是极高的,而对于条件判断简单易读的if else应该都是大家的首选.可是代码写的久了,我们总是希望自己的代码看着能更为简洁规范(逼格更 ...
Atitit.提升语言可读性原理与实践
Atitit.提升语言可读性原理与实践表1-1 语言评价标准和影响它们的语言特性1 1.3.1.2 正交性2 1.3.2.2 对抽象的支持3 1.3.2.3 表达性3 .6 语言设计中的权 ...
pandas中的分组技术
目录 1 分组操作 1.1 按照列进行分组 1.2 按照字典进行分组 1.3 根据函数进行分组 1.4 按照list组合 1.5 按照索引级别进行分组 2 分组运算 2.1 agg 2 ...
（数据科学学习手札69）详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...
【转载】pandas中的循环
原始文章链接: https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06 ...
（数据科学学习手札131）pandas中的常用字符串处理方法总结
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在日常开展数据分析的过程中,我们经常需要对 ...
你真的会用react hooks？看看eslint警告吧!(如何发请求、提升代码性能等问题)
前言看过几个react hooks 的项目,控制台上几百条警告,大多是语法不规范,react hooks 使用有风险,也有项目直接没开eslint.当然,这些项目肯定跑起来了,因为react自身或者 ...
2.2、Android Studio通过注解提升代码检测
使用像Lint这样的代码检测工具可以帮助你发现问题和提升代码,但是代码检测在有些地方很难应用.例如,Android的资源ID,使用一个int类型来表示字符.图像.颜色或者其他资源类型所以代码检测工具不 ...
PHP之提升代码质量36计
转载:https://www.binarytides.com/35-techniques-to-enhance-your-php-code/ 1.不要使用相对路径常常会看到: require_onc ...

随机推荐

玩转Libmodbus（一）搭建开发环境
这篇文章是转载的,我主要是参考了其搭建环境的部分. 转载自: https://blog.csdn.net/qq_40452910/article/details/88560310 一.源码下载 1.l ...
spring-boot-route（四）全局异常处理
在开发中,我们经常会使用try/catch块来捕获异常进行处理,如果有些代码中忘记捕获异常或者不可见的一些异常出现,就会响应给前端一些不友好的提示,这时候我们可以使用全局异常处理.这样就不用在代码中写 ...
【题解】「MCOI-02」Convex Hull 凸包
题目戳我 \(\text{Solution:}\) \[\sum_{i=1}^n \sum_{j=1}^n \rho(i)\rho(j)\rho(\gcd(i,j)) \] \[=\sum_{d=1} ...
STM32之旅4——USART
STM32之旅4--USART 串口也是用的比较多的,在STM32CubeMX中生成代码后,需要添加一些代码才可以用. drv_usart.h: #ifndef __DRV_USART_H #defi ...
动态枢轴网格使用MVC, AngularJS和WEB API 2
下载shanuAngularMVCPivotGridS.zip - 2.7 MB 介绍在本文中,我们将详细介绍如何使用AngularJS创建一个简单的MVC Pivot HTML网格.在我之前的文章 ...
jq显示数据在kindeditor
1,定义编辑器的变量为全局变量 2,将数据显示到kindeditor 在我自己这里_下划线相当于数据,也就是将数据显示在kindeditor 中的textarea中 3,jquery获取kinde ...
node_modules 文件夹需要管理员权限才能删除问题
方法一:以管理员权限运行IDE ,然后在IDE里面删除该文件夹方法二:以管理员身份运行cmd,使用命令行来删除该文件夹找到要删除文件夹的位置,使用命令行 rmdir /s/q 文件夹位置 /s 是 ...
LVS搭建
LVS集群搭建 NAT架构图 1.在RS188,RS189操作 #安装httpd服务[root@t1 ~]# yum install -y httpd[root@t1 ~]# echo "I ...
day30 Pyhton 面向对象继承.装饰器
一面向对象相关谈谈你对面向对象的理解 1.泛泛谈:什么情况下使用面向对象 2.针对面向对象的封装继承多态一个一个的谈 3.根据你工作中的实际情况对应来举例子封装 1.广义上:普遍的大家认为的 ...
matplotlib 饼状图
import matplotlib.pyplot as plt import matplotlib as mpl # 支持中文 plt.rcParams['font.sans-serif'] = [' ...

在pandas中使用pipe()提升代码可读性

1 简介

2 在pandas中灵活利用pipe()

在pandas中使用pipe()提升代码可读性的更多相关文章

随机推荐

热门专题