使用 joblib 对 Pandas 数据进行并行处理

如果需要对一个很大的数据集进行操作，而基于一列数据生成新的一列数据可能都需要耗费很长时间。

于是可以使用 joblib 进行并行处理。

假设我们有一个 dataframe 变量 data，要基于它的 source 列生成新的一列 double，其实就是把原来的 source 列做了个平方运算。感觉就这个简单的运算，应该有更简单的方法，在这里只是举个例子，我们使用 apply 方法并行实现。

如果直接使用 apply 那么直接如下实现

import pandas as pd

def double_func(data):

    return pow(data,2)

data["double"] = data["source"].apply(double_func)

使用并行实现如下

import pandas as pd

from joblib import Parallel, delayed

def double_func(data):

    return pow(data,2)

def key_func(subset):

    subset["double"] = subset["source"].apply(double_func)

data_grouped = data.groupby(data.index)

results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in data_grouped)

data = pd.concat(results)

基本原理就是把整个 dataframe 根据 index，每行生成了一个子数据集，而把每个子数据集作为子任务使用多进程运行，最终生成 results 是多进程运行生成的结果的 list，使用 concat 重新组合就是我们最终想要的结果了。

n_jobs 参数就是需要使用几个进程池来运行程序。貌似一般 CPU 是几核的用几个进程会比较好？

其实速度并不是成倍减少的，具体原因我也……不太好讲清，但是还是可以很大幅度提升运行速度的。

顺便一提，如果数据集很大，程序一跑起来，根本不知道它跑得怎么样了，还是说卡死了。

注意到，我们生成的 data_grouped 是一个可迭代的对象，那么就可以使用 tqdm 来可视化进度条。

如果在 jupyter 里面使用的话，代码可以是下面这样

import pandas as pd

from joblib import Parallel, delayed

from tqdm import tqdm, tqdm_notebook

tqdm_notebook().pandas()

def double_func(data):

    return pow(data,2)

def key_func(subset):

    subset["double"] = subset["source"].apply(double_func)

data_grouped = data.groupby(data.index)

results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in tqdm(data_grouped))

data = pd.concat(results)

友情提示，在我自己使用的时候遇到 bug ，提示无法从 Pandas 导入 PanelGroupby 的错误。查了许久才发现，是新版 Pandas 删除了PanelGroupby 这个模块。解决办法其实就是……升级 tqdm，在最新版已经修复了这个 bug 了。

使用 joblib 对 Pandas 数据进行并行处理的更多相关文章

数据分析与展示——Pandas数据特征分析
Pandas数据特征分析数据的排序将一组数据通过摘要(有损地提取数据特征的过程)的方式,可以获得基本统计(含排序).分布/累计统计.数据特征(相关性.周期性等).数据挖掘(形成知识). .sort ...
pandas小记：pandas数据输入输出
http://blog.csdn.net/pipisorry/article/details/52208727 数据输入输出数据pickling pandas数据pickling比保存和读取csv文 ...
Pandas数据排序
Pandas数据排序 .sort_index() 在指定轴上根据索引进行排序,索引排序后内容会跟随排序 b = pd.DataFrame(np.arange(20).reshape(4,5),inde ...
pandas数据操作
pandas数据操作字符串方法 Series对象在其str属性中配备了一组字符串处理方法,可以很容易的应用到数组中的每个元素 t = pd.Series(['a_b_c_d','c_d_e',np. ...
Pandas数据存取
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA']) Pandas数据存取 Pandas可以存取多种介质类型数据, ...
pandas 数据预处理
pandas 数据预处理缺失数据处理 csv_data=''' A,B,C,D 1.0,2.0,3.0,4.0 5.6,6.0,,8.0 0.0,11.0,12.0,,''' import pand ...
Pandas数据规整
Pandas数据规整数据分析和建模方面的大量编程工作都是用在数据准备上的,有时候存放在文件或数据库中的数据并不能满足数据处理应用的要求 Pandas提供了一组高级的.灵活的.高效的核心函数和算法,它 ...
GPU体系架构(一)：数据的并行处理
最近在了解GPU架构这方面的内容,由于资料零零散散,所以准备写两篇博客整理一下.GPU的架构复杂无比,这两篇文章也是从宏观的层面去一窥GPU的工作原理罢了 GPU根据厂商的不同,显卡型号的不同,GPU ...
Python的工具包[1] -> pandas数据预处理 -> pandas 库及使用总结
pandas数据预处理 / pandas data pre-processing 目录关于 pandas pandas 库 pandas 基本操作 pandas 计算 pandas 的 Series ...

随机推荐

python 示例代码5
示例5:用户输入和格式化输出2(用户输入demo1)
docker安装rocketmq
一.单机部署 1.拉取镜像:foxiswho/rocketmq:server cabel/rocketmq:broker styletang/rocketmq-console-ng 2.创建目录:d ...
Python 判断文件是否存在,不存在则将名称写入指定文件
import os filename = '15464657761111111.pdf' pathDir = 'F:/tqcs/sr' # 判断文件是否存在 if os.path.exists(pat ...
【GDKOI2018】总结
前言车祸现场... day1 T1:其实就是对于每个点的有用的时间点建一个点,然后连边,对于询问(x,y),从点(y,inf),往回走,能走到的最早的x的时间点就是答案. 比赛上用最后的一个多小时来 ...
h5构建页面（rem布局准备）
新建一个flex.js ! function () { function t(t) { return this.config = t, this } t.prototype = { reset: fu ...
vs2017 gitee项目无法提交同步的解决办法
下载扩展跟更新: gitee插件然后命令行输入: git push --set-upstream origin master 参考 https://www.cnblogs.com/slwangzi ...
Python之asyncio模块的使用
asyncio模块作用:构建协程并发应用的工具 python并发的三大内置模块,简单认识: .multiprocessing:多进程并发处理 .threading模块:多线程并发处理 .asyncio ...
ajax上传文件（javaweb）
前台:FormData, formData.append("fileName",$("#file")[0].files[0];); https://ww ...
Word：高亮显示文档中的所有英文字符
造冰箱的大熊猫,本文适用于Microsoft Office 2007@cnblogs 2019/4/2 文中图片可通过点击鼠标右键查看大图 1.场景某天在阅读一个中英文混编的Word文档时,希望将 ...
flask框架（八）：响应和请求
from flask import Flask from flask import request from flask import render_template from flask impor ...

使用 joblib 对 Pandas 数据进行并行处理

使用 joblib 对 Pandas 数据进行并行处理

使用 joblib 对 Pandas 数据进行并行处理的更多相关文章

随机推荐

热门专题