【Python开发】Python 适合大数据量的处理吗？

Python 适合大数据量的处理吗？

python 能处理数据库中百万行级的数据吗？

处理大规模数据时有那些常用的python库，他们有什么优缺点？适用范围如何？

需要澄清两点之后才可以比较全面的看这个问题：

1. 百万行级不算大数据量，以目前的互联网应用来看，大数据量的起点是10亿条以上。

2. 处理的具体含义，如果是数据载入和分发，用python是很高效的；如果是求一些常用的统计量和求一些基本算法的结果，python也有现成的高效的库，C实现的和并行化的；如果是纯粹自己写的算法，没有任何其他可借鉴的，什么库也用不上，用纯python写是自讨苦吃。

python的优势不在于运行效率，而在于开发效率和高可维护性。针对特定的问题挑选合适的工具，本身也是一项技术能力。

我很喜欢用python，用python处理数据是家常便饭，从事的工作涉及nlp，算法，推荐，数据挖掘，数据清洗，数据量级从几十k到几T不等，我来说说吧

百万级别数据是小数据，python处理起来不成问题，python处理数据还是有些问题的

Python处理大数据的劣势：

1. python线程有gil，通俗说就是多线程的时候只能在一个核上跑，浪费了多核服务器。在一种常见的场景下是要命的：并发单元之间有巨大的数据共享或者共用（例如大dict），多进程会导致内存吃紧，多线程则解决不了数据共享的问题，单独的写一个进程之间负责维护读写这个数据不仅效率不高而且麻烦

2. python执行效率不高，在处理大数据的时候，效率不高，这是真的，pypy（一个jit的python解释器，可以理解成脚本语言加速执行的东西）能够提高很大的速度，但是pypy不支持很多python经典的包，例如numpy（顺便给pypy做做广告，土豪可以捐赠一下PyPy
- Call for donations）

3. 绝大部分的大公司，用java处理大数据不管是环境也好，积累也好，都会好很多

Python处理数据的优势（不是处理大数据）：

1. 异常快捷的开发速度，代码量巨少

2. 丰富的数据处理包，不管正则也好，html解析啦，xml解析啦，用起来非常方便

3. 内部类型使用成本巨低，不需要额外怎么操作（java，c++用个map都很费劲）

4. 公司中，很大量的数据处理工作工作是不需要面对非常大的数据的

5. 巨大的数据不是语言所能解决的，需要处理数据的框架（hadoop， mpi。。。。）虽然小众，但是python还是有处理大数据的框架的，或者一些框架也支持python

6. 编码问题处理起来太太太方便了

综上所述：

1. python可以处理大数据

2. python处理大数据不一定是最优的选择

3. python和其他语言（公司主推的方式）并行使用是非常不错的选择

4. 因为开发速度，你如果经常处理数据，而且喜欢linux终端，而且经常处理不大的数据（100m一下），最好还是学一下python

python数据处理的包：

1. 自带正则包，文本处理足够了

2. cElementTree, lxml 默认的xml速度在数据量过大的情况下不足

3. beautifulsoup 处理html

4. hadoop(可以用python) 并行处理，支持python写的map reduce，足够了，顺便说一下阿里巴巴的odps，和hadoop一样的东西，支持python写的udf，嵌入到sql语句中

5. numpy, scipy, scikit-learn 数值计算，数据挖掘

6. dpark(搬楼上的答案）类似hadoop一样的东西

1，2，3，5是处理文本数据的利器（python不就处理文本数据方便嘛），4，6是并行计算的框架（大数据处理的效率在于良好的分布计算逻辑，而不是什么语言）

暂时就这些，最好说一个方向，否则不知道处理什么样的数据也不好推荐包，所以没有头绪从哪里开始介绍这些包

这要看具体的应用场景，从本质上来说，我们把问题分解为两个方面：

1、CPU密集型操作

即我们要计算的大数据，大部分时间都在做一些数据计算，比如求逆矩阵、向量相似度、在内存中分词等等，这种情况对语言的高效性非常依赖，Python做此类工作的时候必然性能低下。

2、IO密集型操作

假如大数据涉及到频繁的IO操作，比如从数据流中每次读取一行，然后不做什么复杂的计算，频繁的输入输出到文件系统，由于这些操作都是调用的操作系统接口，所以用什么语言已经不在重要了。

结论

用Python来做整个流程的框架，然后核心的CPU密集操作部分调用C函数，这样开发效率和性能都不错，但缺点是对团队的要求又高了(尤其涉及到Python+C的多线程操作)...所以...鱼与熊掌不可兼得。如果一定要兼得，必须得自己牛逼。

我们公司每天处理数以P记的数据，有个并行grep的平台就是python做的。当初大概是考虑快速成型而不是极限速度，但是事实证明现在也跑得杠杠的。大数据很多时候并不考虑太多每个节点上的极限速度，当然速度是越快越好，但是再更高层次做优化（比如利用data locality减少传输，建索引快速join，做sample优化partition，用bloomfilter快速测试等等），把python换成C并不能很大程度上提升效率。

很多python库的实现都是用其他语言写的(C比较多)，只是用Python做了个包装而已。库的效率本身不低。

码代码比程序时间复杂度更cost

很多机器学习，神经网络，数据计算的算法已经存在几十年了，这些零零散散的工具多被C和Fortran实现，直到有人开始用Python把这些工具集合到一起，所以，表面上是在用Python的库，实际上是C和Fortran的程序，性能上也并无大的影响，如果你真的是大数据的话

大量數據處理的瓶頸是在IO，而不是在哪個語言。語言選擇真的是要看個人口味、品味。

流处理是python最大软肋

使用python可以，但对速度要求较高的关键模块，还是要用C重写。

Python调用vtk库对面片数量我测试过是没有限制的好像，你所说的100万多数据是不是都是存入了python的list中，list是有上限限制的。如果不存入list，应该是没有渲染上限的。

求python在大数据环境下高效编程的方法。

在spark集群下，我对对原来scala程序进行python重写。对过亿行级数据进行数据清洗整合操作。从执行任务的时间来看，scala执行效率比python重写程序高好多倍。

使用Python调用vtk库对100万行的数据进行可视化，结果内存爆满，使用C++就没有问题，Python很占内存，不知道为什么……

什么叫处理？ 100万的数据，如果只是传输的话，python和c/c++差不多；如果用来计算话题模型的话，python的速度为c/c++的1/10，内存消耗为10倍多。

【Python开发】Python 适合大数据量的处理吗？的更多相关文章

php 大数据量及海量数据处理算法总结
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目, ...
java处理大数据量任务时的可用思路--未验证版，具体实现方法有待实践
1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数.将hash函数对应的值的位数组置1,查找时如 ...
elasticsearch5.0集群大数据量迁移方法及注意事项
当es集群的数据量较小的情况下elasticdump这个工具比较方便,但是当数据量达到一定级别比如上百G的时候,elasticdump速度就很慢了,此时我们可以使用快照的方法进行备份 elasticd ...
Web 开发和数据科学家仍是 Python 开发的两大主力
由于 Python 2 即将退役,使用 Python 3 的开发者大约为 90%,Python 2 的使用量正在迅速减少.而去年仍有 1/4 的人使用 Python 2. Web 开发和数据科学家仍是 ...
python、Java、大数据和Android的薪资如何？
莫名其妙,从去年年底开始,Python这个东西在中国,突然一下子就火起来了,直至现在,他的热度更是超越了java,成为软件工程师最为关注的话题.Python之所以能火起来,很大一方面是因为大数据.人工 ...
DB开发之大数据量高并发的数据库优化
一.数据库结构的设计如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. ...
Java开发想尝试大数据和数据挖掘，如何规划学习？
大数据火了几年了,但是今年好像进入了全民大数据时代,本着对科学的钻(zhun)研(bei)精(tiao)神(cao),我在17年年初开始自学大数据,后经过系统全面学习,于这个月跳槽到现任公司. 现在已 ...
MySQL大数据量快速分页实现（转载）
在mysql中如果是小数据量分页我们直接使用limit x,y即可,但是如果千万数据使用这样你无法正常使用分页功能了,那么大数据量要如何构造sql查询分页呢? 般刚开始学SQL语句的时候,会这 ...
MySQL大数据量分页查询
mysql大数据量使用limit分页,随着页码的增大,查询效率越低下. 测试实验 1. 直接用limit start, count分页语句, 也是我程序中用的方法: select * from p ...

随机推荐

springboot与springcloud版本不对应导致报错java.lang.NoSuchMethodError: org.springframework.boot.builder.SpringApplicationBuilder.<init>([Ljava/lang/Object;)V
springboot启动报错: 10:31:50.221 [main] ERROR org.springframework.boot.SpringApplication - Application r ...
USACO14MAR The Lazy Cow(Gold)
题目题意:平面上有 \(n\) 块草地,第 \(i\) 块草地坐标为 \((x_i,y_i)\) ,上面有 \(g_i\) 个单位的草.Bessie 可以吃到距离起始点不超过 \(k\)(这里是曼哈 ...
PHP基础教程-APACHE
兄弟连:如何配置APACHE.首先,安装并配置PHP3 1.解开压缩包到你喜欢的目录如:C:PHP3 2.把C:php3php3.ini-inst文件改名成PHP3.INI并拷贝到C:windows ...
日照学习提高班day3测试
A 思路: 一看到'#''.'什么的就想到搜索怪我怪我... 这道题勉强说是搜索别打我qwq 1)因为不重复,所以首先要判断是否%5==0,若不满足,直接输出NO 2)弄个vis数组记录是否被搜过,如 ...
Python3：Collatz 序列（考拉咨猜想）
编写一个名为collatz()的函数,它有一个名为number的参数: 如果参数是偶数,那么collatz()就打印出number//2,并返回该值: 如果number是奇数,那么collatz()就 ...
AcWing：141. 周期（KMP)
一个字符串的前缀是从第一个字符开始的连续若干个字符,例如”abaab”共有5个前缀,分别是a, ab, aba, abaa, abaab. 我们希望知道一个N位字符串S的前缀是否具有循环节. 换言之, ...
Java集成POI进行Excele的导入导出,以及报错: java.lang.AbstractMethodError..........
报错信息如下 java.lang.AbstractMethodError: org.apache.poi.xssf.usermodel.XSSFCell.setCellType(Lorg/apache ...
C++入门经典-例7.7-对象与复制，菌类的繁殖
1:当函数以相应的类作为形参列表时,对象可以作为函数的参数传入.在学习函数时,我们曾提过,值传递先复制实参产生副本.那么对象的副本是怎样的呢? 复制构造函数是指类的对象被复制时所调用的函数.下面两种情 ...
linux vmware 安装步骤
一.下载vmware软件二.下载centos镜像文件三.安装步骤以上相当于于硬件设备已经准备ok,接下来安装软件
GLSL语法入门
变量 GLSL的变量命名方式与C语言类似.变量的名称可以使用字母,数字以及下划线,但变量名不能以数字开头,还有变量名不能以gl_作为前缀,这个是GLSL保留的前缀,用于GLSL的内部变量.当然还有一些 ...

【Python开发】Python 适合大数据量的处理吗？

Python 适合大数据量的处理吗？

【Python开发】Python 适合大数据量的处理吗？的更多相关文章

随机推荐

热门专题