Python 程序慢的像蜗牛,我该怎么办?
1.
“一猿小讲”的风格就是多元化,偶尔会真情吐露一下程序猿的内心;偶尔也结合自己的经历畅聊一些经验杂谈;其中也不乏幽默风趣的技术故事。分享是件快乐的事情,工作之余,有时间我就尽力多码字,多推几篇文章。其实讲真,我每次都是抱着分享给那些需要的人,说不定哪篇文章,就戳中了你,扣开了你的心扉,解决了你的困惑。
好了,不扯啦,言归正传,不跑偏。请准备好小板凳,我们的分享开始。
2.
经常理财投资的都清楚,投资的产品周期大概分为 12 个月、24 个月、36 个月。记得上次在信用风险模型项目实现中,为了跑信用风险模型,按照业务要求,需要按照产品周期的维度进行数据逐条拆分、衍生、细化。
站在技术的视角,其实需要针对每条数据,统一执行一个函数,未曾想 Python 天然提供 apply 函数,当时也没管三七二十一,直接拿来主义上来就是用。但是程序跑起来,由于数据量大的原因,一个进程一条一条去执行数据。等输出结果,真是在线等的好着急,就这样程序跑了一整天,苦苦的等出来了结果,你可能不相信,我居然能忍受这么慢的程序,连我自己都不敢相信。
不过当拿到跑出来的结果,却有点不尽人意,于是业务要求加大数据量。但是我的程序这么慢,如果加大数据量,程序跑起来,如果再死等程序的结果,到最后就只能变成了等死啦。
没法,只有技术可以治愈金融危机的创伤;只有技术才能让业务更美好;IT优化没有终点,极致体验没有尽头。那我只能再考虑如何优化一下代码,提升一下程序性能。再三思索,最后决定采取多进程的方式进行了调整。其实和吃包子是一样式的,想想一个人吃 10 个包子和 5 个人吃 10 个包子,那场面效果能一样吗?不过调整后的程序,运行效率确实大幅提升。
唯恐你们也再纠结此种问题,为了你们不再入坑,省出更多时间冲咖啡。作为一个负责任分享的我,岂能只截一张图给你们,还是从实际项目中简单抽取一个 demo 雏形出来,以备你们的不时之需。
if __name__ == '__main__':
# 把36期的数据按照50000条进行分割成小文件
step = split_36_months()
# 注意:采用多进程进行执行,不然真的会很慢呦
# 一个进程处理一个36期的小 csv 文件,进行按照6个月的维度进行细分
p = Pool()
for i in range(1, step + 1):
p.apply_async(add_months_36_months, args=(i,))
print('等待所有36期数据处理的子进程执行完毕...')
p.close()
p.join()
print('所有36期数据处理的子进程执行完成')
然后定义 split_36_months 函数,完成大的 csv 文件拆分成小 csv 文件。
# 把36期的csv文件拆分成若干小文件
def split_36_months():
# TODO 把csv文件拆分成小文件
# TODO 统计拆分的小文件个数,这里假设拆分成为5个小文件
return 5
接着定义 add_months_36_months 函数,完成数据的业务处理(函数名不重要,函数名能起成这样,也是人才,不过这也不是一时的事情,是历史迭代,所以各位看官,莫纠结,莫纠结,莫纠结)。
# 36期的数据逐个以6个月的维度进行拆分
def add_months_36_months(step):
print('step: {0} 进程ID:{1} 开始执行任务'.format(step, os.getpid()))
# TODO 针对每条数据执行apply函数
# chunk = chunk.apply(add_months, axis=1, periods=(36 + 1))
# print("step:{0}-{1}月份处理完成".format(step, count)) # chunk = chunk.apply(format_reserve_tm, axis=1)
# print("step:{0}-{1}开始格式化还款日期".format(step, count))
# TODO 把执行结果输出到csv文件中
print("step:{0} 进程ID: {1} 任务处理完毕".format(step, os.getpgid()))
代码码完了,真金不怕火炼,效果不怕检验,是骡子是马总要牵出来遛一遛。程序运行效果如预期所料,拆分成5个小文件,然后每个文件对应一个进程去完成业务数据处理,着实不错。
但是知其然,知其所以然,容我再多絮叨两句。
第一步:创建进程池。Python 中如果要启动大量的子进程,那么就可以用进程池的方式批量创建子进程。
p = Pool() #默认进程数量是CPU的核数
p = Pool(5) #创建拥有5个进程数量的进程池
第二步:执行子进程。
p.apply_async(add_months_36_months, args=(i,))
第三步:告诉主进程,你等着所有子进程运行完毕后在运行剩余部分。
p.close() #关闭进程池
p.join() #等待所有工作进程退出
友情提示:对 Pool 对象调用 join() 方法会等待所有子进程执行完毕;调用 join() 之前必须先调用 close(),调用 close() 之后就不能继续添加新的 Process 了。
3.
好了,程序从慢到快的步骤只需要一步,那就是实现思路的转变。今天的分享就到这儿,希望对你有帮助。
Python 程序慢的像蜗牛,我该怎么办?的更多相关文章
- 运行python程序
1 在windows下运行python程序 1)从DOS命令行运行python脚本 用python解释器来执行python脚本,在windows下面python解释器是python.exe,我的pyt ...
- 【python之路2】CMD中执行python程序中文显示乱码
在IDLE中执行下面代码,中文显示正常: # -*- coding:utf-8 -*- st=raw_input("请输入内容")print st 但在CMD中执行e:\hello ...
- Python程序高效地调试
现在我在debug python程序就只是简单在有可能错误的地方print出来看一下,不知道python有没像c++的一些IDE一样有单步调试这类的工具?或者说各位python大神一般是怎么debug ...
- python学习笔记-python程序运行
小白初学python,写下自己的一些想法.大神请忽略. 安装python编辑器,并配置环境(见http://www.cnblogs.com/lynn-li/p/5885001.html中 python ...
- python程序一直在后台运行的解决办法
刚写了个python程序,要一直在后台运行,即使断开ssh进程也在,下面是解决办法: 假如Python程序为test.py 编写shell脚本start.sh #!/bin/bash python t ...
- 第一个python程序
一个python程序的两种执行方式: 1.第一种方式是通过python解释器: cmd->python->进入python解释器->编写python代码->回车. 2.第二种方 ...
- Python程序的首行
>问题 >>在一些python程序中的首行往往能够看见下面这两行语句中的一句 >>>#!/usr/bin/Python >>>#!/usr/bin ...
- Python程序员的进化史
各种程序员所写的阶乘算法代码 # -*- coding: utf-8 -*- #新手程序员(递归) def factorial(x): if x == 0: return 1 else: return ...
- Python程序的常见错误(收集篇)
关于Python Python是一门解释性的,面向对象的,并具有动态语义的高级编程语言.它高级的内置数据结构,结合其动态类型和动态绑定的特性,使得它在快速应用程序开发(Rapid Applicatio ...
随机推荐
- 内存:你跑慢点行不行?CPU:跑慢点你养我吗?内存:我不管!(内附超全思维导图)
主存(RAM) 是一件非常重要的资源,必须要认真对待内存.虽然目前大多数内存的增长速度要比 IBM 7094 要快的多,但是,程序大小的增长要比内存的增长还快很多.不管存储器有多大,程序大小的增长速度 ...
- disruptor 多生产者多消费者实战 四
一.创建event类 Order public class Order { private String id; private String name; private double price; ...
- FSBPM流程引擎(002)之表单+自定义流程挂载到引擎
本章节介绍如何将实际业务的表单和自定义流程挂载到FSBPM流程引擎上. 首先进入引擎交互界面: 点击创建:->出差申请 然后根据实际的业务输入对应的数据项即可,比如[姓名,部门,开始时间,结束时 ...
- Simulink仿真入门到精通(十一) 模块的封装
当用户编写了自定义的S函数或者使用Simulink标准库中的模块搭建子系统后,可以通过封装为其设计显示外观,追加参数对话框. 封装是构建一个以对话框为接口的交互界面的过程,它将复杂的模块逻辑关系隐藏起 ...
- Python包的应用
包的简介 你们听到的包,可不是女同胞疯狂喜欢的那个包,我们来看看这个是啥包 官方解释: ? 1 2 3 4 5 6 7 8 9 Packages are a way of structuring Py ...
- 【MVC】使用Jquery缓存数据
前言 最近接手优化页面加载的任务. 分析其中一个原因是菜单页面ajax异步加载,页面很大,但是除非权限更改或者切换角色,否则每次请求返回数据不变,这个完全可以放在客户浏览器内进行缓存. 分析 粗略一分 ...
- 【Python】2.17学习笔记 移位运算符,逻辑运算符
移位运算符 左移运算符 \(<<\),将对应的二进制数末尾补一颗零,高位自然溢出(遁入虚无 print( 5 << 2 ) 把\(5\)的二进制数左移两位 即把\(101\)变 ...
- c#序列化和反系列化json与类型对象转换
先添加程序集: System.Web.Extensions(在 System.Web.Extensions.dll 中) 引用:using System.Web.Script.Serializati ...
- 聊聊count(*)
count(*) 的实现方式 MyISAM 引擎把一个表的总行数存在了磁盘上,因此执行 count(*) 的时候会直接返回这个数,效率很高 InnoDB 引擎就麻烦了,它执行 count(*) 的时候 ...
- 为什么 String 是 immutable 类
二哥,你能给我说说为什么 String 是 immutable 类(不可变对象)吗?我想研究它,想知道为什么它就不可变了,这种强烈的愿望就像想研究浩瀚的星空一样.但无奈自身功力有限,始终觉得雾里看花终 ...