Python数据预处理：使用Dask和Numba并行化加速

如果你善于使用Pandas变换数据、创建特征以及清洗数据等，那么你就能够轻松地使用Dask和Numba并行加速你的工作。单纯从速度上比较，Dask完胜Python，而Numba打败Dask，那么Numba+Dask基本上算是无敌的存在。将数值计算分成Numba sub-function和使用Dask map_partition+apply，而不是使用Pandas。对于100万行数据，使用Pandas方法和混合数值计算创建新特征的速度比使用Numba+Dask方法的速度要慢许多倍。

Python：60.9x | Dask：8.4x | Numba：5.8x |Numba+Dask：1x

作为旧金山大学的一名数据科学硕士，会经常跟数据打交道。使用Apply函数是我用来创建新特征或清理数据的众多技巧之一。现在，我只是一名数据科学家，而不是计算机科学方面的专家，但我是一个喜欢捣鼓并使得代码运行更快的程序员。现在，我将会分享我在并行应用上的经验。

大多Python爱好者可能了解Python实现的全局解释器锁（GIL），GIL会占用计算机中所有的CPU性能。更糟糕的是，我们主要的数据处理包，比如Pandas，很少能实现并行处理代码。

Apply函数vs Multiprocessing.map

Tidyverse已经为处理数据做了一些美好的事情，Plyr是我最喜爱的数据包之一，它允许R语言使用者轻松地并行化他们的数据应用。Hadley Wickham说过：

“plyr是一套处理一组问题的工具：需要把一个大的数据结构分解成一些均匀的数据块，之后对每一数据块应用一个函数，最后将所有结果组合在一起。”

对于Python而言，我希望有类似于plyr这样的数据包可供使用。然而，目前这样的数据包还不存在，但我可以使用并行数据包构成一个简单的解决方案。

Dask

之前在Spark上花费了一些时间，因此当我开始使用Dask时，还是比较容易地掌握其重点内容。Dask被设计成能够在多核CPU上并行处理任务，此外也借鉴了许多Pandas的语法规则。

现在开始本文所举例子。对于最近的数据挑战而言，我试图获取一个外部数据源（包含许多地理编码点），并将其与要分析的一大堆街区相匹配。在计算欧几里得距离的同时，使用最大启发式将最大值分配给一个街区。

最初的apply：

my_df.apply(lambda x: nearest_street(x.lat,x.lon),axis=1)

Dask apply:

二者看起来很相似，apply核心语句是map_partitions，最后有一个compute()语句。此外，不得不对npartitions初始化。分区的工作原理就是将Pandas数据帧划分成块，对于我的电脑而言，配置是6核-12线程，我只需告诉它使用的是12分区，Dask就会完成剩下的工作。

接下来，将map_partitions的lambda函数应用于每个分区。由于许多数据处理代码都是独立地运行，所以不必过多地担心这些操作的顺序问题。最后，compute()函数告诉Dask来处理剩余的事情，并把最终计算结果反馈给我。在这里，compute()调用Dask将apply适用于每个分区，并使其并行处理。

由于我通过迭代行来生成一个新队列（特征），而Dask apply只在列上起作用，因此我没有使用Dask apply，以下是Dask程序：

Numba、Numpy和Broadcasting

由于我是根据一些简单的线性运算（基本上是勾股定理）对数据进行分类，所以认为使用类似下面的Python代码会运行得更快一些。

Broadcasting用以描述Numpy中对两个形状不同的矩阵进行数学计算的处理机制。假设我有一个数组，我会通过迭代并逐个变换每个单元格来改变它

相反，我完全可以跳过for循环，并对整个数组执行操作。Numpy与broadcasting混合使用，用来执行元素智能乘积（对位相乘）。

Broadcasting可以实现更多的功能，现在看看骨架代码：

从本质上讲，代码的功能是改变数组。好的一方面是运行很快，甚至能和Dask并行处理速度比较。其次，如果使用的是最基本的Numpy和Python，那么就可以及时编译任何函数。坏的一面在于它只适合Numpy和简单Python语法。我不得不把所有的数值计算从我的函数转换成子函数，但其计算速度会增加得非常快。

将其一起使用

简单地使用map_partition()就可以将Numba函数与Dask结合在一起，如果并行操作和broadcasting能够密切合作以加快运行速度，那么对于大数据集而言，将会看到其运行速度得到大幅提升。

上面的第一张图表明，没有broadcasting的线性计算其表现不佳，并行处理和Dask对速度提升也有效果。此外，可以明显地发现，Dask和Numba组合的性能优于其它方法。

上面的第二张图稍微有些复杂，其横坐标是对行数取对数。从第二张图可以发现，对于1k到10k这样小的数据集，单独使用Numba的性能要比联合使用Numba+Dask的性能更好，尽管在大数据集上Numba+Dask的性能非常好。

优化

为了能够使用Numba编译JIT，我重写了函数以更好地利用broadcasting。之后，重新运行这些函数后发现，平均而言，对于相同的代码，JIT的执行速度大约快了24%。

可以肯定的说，一定有进一步的优化方法使得执行速度更快，但目前没有发现。Dask是一个非常友好的工具，本文使用Dask+Numba实现的最好成果是提升运行速度60倍。

Python数据预处理：使用Dask和Numba并行化加速的更多相关文章

Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
python数据预处理for knn
机器学习实战一书中第20页数据预处理,从文本中解析数据的程序. import numpy as np def dataPreProcessing(fileName): with open(fileN ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
python数据预处理和特性选择后列的映射
我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是: 对数据进行标准化.归一化.方差过滤的时候数据都从D ...
Python数据预处理—训练集和测试集数据划分
使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...
关系网络数据可视化：2. Python数据预处理
将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 import numpy as np import pandas as pd import matplotlib.pyplo ...

随机推荐

Secret Milking Machine POJ - 2455 网络流（Dinic算法---广搜判断+深搜增广）+时间优化+二分
题意: 第一行输入N M C ,表示从1到N有M条无向边,现在要从1走到N 走C次完全不同的路径,求最长边的最小值.下面M行是从a点到b点的距离. 建图: 题上说从两点之间可以有多条边,问的是从1~N ...
java并发安全
本次内容主要线程的安全性.死锁相关知识点. 1.什么是线程安全性 1.1 线程安全定义前面使用8个篇幅讲到了Java并发编程的知识,那么我们有没有想过什么是线程的安全性?在<Java并发编程 ...
Sublimeの虚拟环境（Venv）设置
这里主要介绍,在使用 Python 虚拟环境(Venv)时,SublimeText 该怎么设置为什么使用虚拟环境(Venv) 因为,我有洁癖! 我就是喜欢看到,pip list 命令下什么 Pack ...
[RH134] 10-NFS和Samba客户端
NFS和samba服务器的配置,请参考: 这里,我们只讨论客户端的使用 1.NFS客户端的使用 nfs实现的是类Unix系统之间的远程共享目录. 假设我们已经有一个提供nfs服务的服务器,IP为192 ...
Binder驱动理解
1.Binder的三层架构 2.BC.BR的理解通信模型 Binder协议包含在IPC数据中,分为两类: BINDER_COMMAND_PROTOCOL:binder请求码,以"BC_&q ...
POJ2182 Lost Cows 题解
POJ2182 Lost Cows 题解描述有\(N\)(\(2 <= N <= 8,000\))头母牛,每头母牛有自己的独一无二编号(\(1..N\)). 现在\(N\)头母牛站成一 ...
spring中BeanPostProcessor之一：InstantiationAwareBeanPostProcessor（02）
在上篇博客中写道了bean后置处理器InstantiationAwareBeanPostProcessor,只介绍了其中一个方法的作用及用法,现在来看postProcessBeforeInstanti ...
Pytest系列（4） - fixture的详细使用
如果你还想从头学起Pytest,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1690628.html 前言前面一篇讲了setup.te ...
解读windows认证
0x00 前言 dll劫持的近期忙,没时间写,先给大家写个windows认证的水文. 0x01 windows认证协议 windows上的认证大致分为本地认证,ntlm协议,和Kerberos协议. ...
int不可为null引发的 MyBatis做持久层框架，返回值类型要为Integer问题
MyBatis做持久层框架,返回值类型要为Integer MyBatis 做持久层时,之前没注意,有时候为了偷懒使用了int类型做为返回的类型,这样是不可取的,MyBatis做持久层框架,返回值类型要 ...

Python数据预处理：使用Dask和Numba并行化加速

Python数据预处理：使用Dask和Numba并行化加速的更多相关文章

随机推荐

热门专题