应用场景:本人需要对200万条网页html格式数据进行清洗,提取文字后将分词结果写入数据库,之前做了一次,大概花费了80多个小时才跑完。机器配置是4核,内存8G;开完会领导让再改点东西重新跑一遍,然后说用多进程或者多线程跑,速度快。

本人接触python不到两个月,以前也基本不怎么编程,所以这种优化什么的东西都不懂,只好求助同事。同事告诉我直接看廖雪峰的教程就ok了。先看了一下廖雪峰写的单个进程代码,比较容易懂,但是我需要开四个进程,把我的cpu都占满来跑,这样效率才最大。

所以又看了多进程的例子,并自己实践了一下:

from multiprocessing import Process
import os
from multiprocessing import Pool
def run_proc(i):
a=i*3
print(a)
if __name__=='__main__':
p = Pool(4)
for i in range(5):
p.apply_async(run_proc, args=(i,))
p.close()
p.join()

看一下上面代码,Pool代表的是一个进程池,里面写几就代表你想跑几个进程,但是你的cpu是几核你就只能开几个进程,而且进程数最好是2的整数倍(同事告诉我的)。查看cpu核数的方法就是打开任务管理器,然后性能里面有几个小窗口就代表几核。

我的是四个小窗口,代表四核。按照上面的例子我用四个核来计算run_proc这个函数,然后每个核计算的是一个i值对应的run_proc函数。

接下来到我的实际场景中,我是想从数据库中读取200万条数据并对所有数据进行一系列操作后再写如数据库,这里我采用四核全跑,每个核分配50万数据来进行:

start = datetime.datetime.now()
p = Pool(4) # 建立进程池
get_data_cmd=['SELECT * FROM 标讯样本_二百万 limit 0,500000',
'SELECT * FROM 标讯样本_二百万 limit 500000,500000',
'SELECT * FROM 标讯样本_二百万 limit 1000000,500000',
'SELECT * FROM 标讯样本_二百万 limit 1500000,500000'
]
for cmd in get_data_cmd: # 将每个命令传入不同的子进程执行相同的代码
p.apply_async(con_seg_word, args=(cmd,))
p.close()
p.join()

我的方法比较笨,就是将四个不同的sql命令放在一个列表中,然后循环读取列表中的语句来分配给每个核要跑的函数,这样就ok了,时间大约比之前少了4倍吧。

apply_async这个方法就是你要将你的这四个sql命令给哪个函数,其中arg就是要传递进函数的参数。

PS:这个多进程的方法其实有很多隐藏的问题在里面的,例如针对limit这个问题,后面会越来越慢,因为limit相当于全表进行过滤,因此不推荐此种方式;

另外在innodb这种引擎数据库中,当limit几千万数据后面的数据时候会报错,(the totle number of locks exceeds the lock table size),这是因为InnoDB表执行大批量数据的更新,插入,删除操作时会出现这个问题,需要调整InnoDB全局的innodb_buffer_pool_size的值来解决这个问题,并且重启mysql服务。

这里还需要进一步来探索多进程的内部机制从而来写一个更好的多进程栗子。

用了python多进程,我跑程序花费的时间缩短了4倍的更多相关文章

  1. python 多进程数量 对爬虫程序的影响

    1. 首先看一下 python 多进程的优点和缺点 多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程.基于这个特性,常常会用多进程来实现守护服务器的功 ...

  2. 程序游戏推荐(C语言贪吃蛇,python天天酷跑(需要安装pygame),js是狠人就坚持30s)

    下面是下载位置,我把他们上传到我的文件下了. C语言贪吃蛇:https://files.cnblogs.com/files/ITXiaoAng/%E8%B4%AA%E5%90%83%E8%9B%87. ...

  3. python 多进程开发与多线程开发

    转自: http://tchuairen.blog.51cto.com/3848118/1720965 博文作者参考的博文:  博文1  博文2 我们先来了解什么是进程? 程序并不能单独运行,只有将程 ...

  4. Python多进程库multiprocessing中进程池Pool类的使用[转]

    from:http://blog.csdn.net/jinping_shi/article/details/52433867 Python多进程库multiprocessing中进程池Pool类的使用 ...

  5. python多进程(二)

    之前实现的数据共享的方式只有两种结构Value和Array.Python中提供了强大的Manager专门用来做数据共享的,Manager是进程间数据共享的高级接口. Manager()返回的manag ...

  6. Python多进程与多线程编程及GIL详解

    介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程. Python的多进程编程与multiprocess模块 python的多进程编程主要依靠multip ...

  7. 一篇文章搞定Python多进程(全)

    1.Python多进程模块 Python中的多进程是通过multiprocessing包来实现的,和多线程的threading.Thread差不多,它可以利用multiprocessing.Proce ...

  8. Python多进程和多线程是鸡肋嘛?【转】

    GIL是什么 Python的代码执行由 Python虚拟机(也叫解释器主循环,CPython版本)来控制,Python在设计之初就考虑到在解释器的主循环中,同时只有一个线程在运行.即每个CPU在任意时 ...

  9. Python多进程库multiprocessing创建进程以及进程池Pool类的使用

    问题起因最近要将一个文本分割成好几个topic,每个topic设计一个regressor,各regressor是相互独立的,最后汇总所有topic的regressor得到总得预测结果.没错!类似bag ...

随机推荐

  1. Spring事务管理 —— readOnly只读事务

    事务是什么?事务是一个原子操作,由一系列动作组成.事务的原子性确保动作要么全部完成,要么完全不起作用. 下面来看一个项目中遇到的问题: 有这么一个需求,我们要查询一些数据,但是在查询这个数据之前我们要 ...

  2. switch-case的用法

    case 值1: 表达式的值和 值1匹配上了,需要执行的代码; break; case 值2: 表达式的值和 值2匹配上了,需要执行的代码; break; case 值3: 表达式的值和 值3匹配上了 ...

  3. 运行SQL文件报错Invalid ON UPDATE clause for 'create_date' column

    Invalid ON UPDATE clause for 'create_date' column   原因: 高版本的mysql导数据到低版本出现的问题 日期类型报错 MySQL 5.5 每个表只允 ...

  4. Python 爬取腾讯招聘职位详情 2019/12/4有效

    我爬取的是Python相关职位,先po上代码,(PS:本人小白,这是跟着B站教学视频学习后,老师留的作业,因为腾讯招聘的网站变动比较大,老师的代码已经无法运行,所以po上),一些想法和过程在后面. f ...

  5. 13.docker 网络 docker NameSpace (networkNamespace)

    一. 案例 1.创建一个 container docker run -d --name test1 busybox /bin/sh -c "while true; do sleep 3600 ...

  6. GCC编译和链接多个文件(包括源文件、目标文件、汇编文件等)

    编译多个源代码文件会生成多个目标文件,每个目标文件都包含一个源文件的机器码和相关数据的符号表.除非使用-c选项指示 GCC 只编译不链接,否则 GCC 会使用临时文件作为目标文件输出: $ gcc - ...

  7. Java--平台版本、跨平台、JVM、JDK、JRE

    Java2平台版本 Java2平台包括标准版(J2SE).企业版(J2EE)和微缩版(J2ME)三个版本 J2SE 包含那些构成Java语言核心的类. J2EE 包含J2SE 中的类,并且还包含用于开 ...

  8. 一、Cookie和Session介绍

    会话跟踪 1. 什么是会话  * 用户拨打10086,从服务台接通后会话开始:  * 用户发出话费查询请求,服务台响应.这是该会话中的一个请求:  * 用户发出套餐变更请求,服务台响应.这是该会话中的 ...

  9. LeetCode——376.摆动序列

    如果连续数字之间的差严格地在正数和负数之间交替,则数字序列称为摆动序列.第一个差(如果存在的话)可能是正数或负数.少于两个元素的序列也是摆动序列. 例如, [1,7,4,9,2,5] 是一个摆动序列, ...

  10. 吴裕雄--天生自然TensorFlow高层封装:解决ImportError: cannot import name 'tf_utils'

    将原来版本的keras卸载了,再安装2.1.5版本的keras就可以了.