python 多进程数量对爬虫程序的影响

1. 首先看一下 python 多进程的优点和缺点

多进程优点：

        1.稳定性好：  多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。

                    然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。

        2.能充分利用多核cpu：  由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu。为了更好的实现多线程之间数据完整性与状态同步，

          于是设计出了一个全局解析器锁（GIL, global interpreter lock)。

          GIL确保Python进程一次运行一个线程(其它线程处于等待I/O或者睡眠状态)，无论当前cpu有多少核心。这就意味着Python虽然可以实现多线程，

          但是在任意时间点仅有一个核心在执行Python指令（即线程无法并行运算)，无法发挥现代多核cpu的性能。而多进程可以利用多核cpu。

多进程缺点：

        1. 创建进程的代价非常大：   因为操作系统要给每个进程分配固定的资源，并且操作系统对进程的总数会有一定的限制，若进程过多，操作系统调度都会存在问题，会造成假死状态。

        2. 进程间通信成本高：  每个进程都有自己独立的内存空间，不同进程之间的内存空间不共享。进程之间的通信有操作系统传递，导致通讯效率低，切换开销大。

                            通信主要通过信号传递的方式来实现（实现方式有多种，信号量、管道、事件等，通讯都需要过内核，效率低）

        3. 切换开销大：  上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息，开销大。
　　　　 4. 耗内存：  python 使用multiprocessing来创建多进程时，无论数据是否不会被更改，子进程都会复制父进程的状态(内存空间数据等)。
　　　　　　　　　　　　如果主进程耗的资源较多时，不小心就会造成不必要的大量的内存复制，从而可能导致内存爆满的情况。

二：测试服务器情况：

　　　cpu是12核心，内存是128G

三：测试目的：

　　测试目的是因为多进程切换开销大，创建进程的代价大，通过开不同的进程数量，测试是否会出现进程开的越多，爬虫的速度越慢的情况。

四：测试软件条件：

　　1. 用10000个关键词，去爬取微博的搜索接口，通过开不同的进程数据，评估爬虫耗时情况。

五：测试过程：

　　2 .开32个多进程爬虫耗时情况：

　　　　程序耗时：

　　3 .开64个多进程爬虫耗时情况：

　　　　程序耗时：

　　4 .开128个多进程爬虫耗时情况：

　　　　程序耗时：

　　5 .开256个多进程爬虫耗时情况：

　　　　程序耗时：

　　6 .开512个多进程爬虫耗时情况：

　　　　程序耗时：

　　7 .开768个多进程爬虫耗时情况：

　　　　程序耗时：

8 .开1024个多进程爬虫耗时情况：

　　　　程序耗时：

六. 数据统计分析：

七. 结论：多进程数据量在512一下，对程序的提速还是很明显，因为多进程耗内存，所以注意内存的优化。

python 多进程数量对爬虫程序的影响的更多相关文章

用了python多进程，我跑程序花费的时间缩短了4倍
应用场景:本人需要对200万条网页html格式数据进行清洗,提取文字后将分词结果写入数据库,之前做了一次,大概花费了80多个小时才跑完.机器配置是4核,内存8G:开完会领导让再改点东西重新跑一遍,然后 ...
使用Python制作第一个爬虫程序
用到的开发环境 IDE:pycharm python version :2.7 掌握的知识: Pycharm 还能更改Python的版本代码如下:(重点就是正则表达式的学习) # !/u ...
python爬虫__第一个爬虫程序
前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
python爬虫程序
http://blog.csdn.net/pleasecallmewhy/article/details/8922826 此人的博客关于python爬虫程序分析得很好!
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
第一个python爬虫程序
1.安装Python环境官网https://www.python.org/下载与操作系统匹配的安装程序,安装并配置环境变量 2.IntelliJ Idea安装Python插件我用的idea,在工具 ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
我的第一个爬虫程序：利用Python抓取网页上的信息
题外话我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好 ...
Python 多进程爬虫实例
Python 多进程爬虫实例 import json import re import time from multiprocessing import Pool import requests f ...

随机推荐

牛客CSP-S提高组赛前集训营2 ———— 2019.10.31
比赛链接期望得分:100+20+20 实际得分:40+20+30 awa cccc T1 :基于贪心的思路,然后开始爆搜(雾那必然是会死的,好吧他就是死了 #include<iostrea ...
新电脑安装操作系统一定要注意硬盘是否被bitlocker加密！
新电脑安装操作系统一定要注意硬盘是否被bitlocker加密! 前段时间帮一MM的戴尔灵越14燃5488装机,购买不久的电脑,硬盘是被bitlocker加密的,鬼知道戴尔为什么这么过分.按照常规思路, ...
oracle--18C操作指南（一）
一,安装清单用户环境配置查看Oracle Inventory(oraInventory)和OINSTALL组要求您指定为Oracle Inventory目录的物理组是系统上安装的Oracle软件 ...
QLayout及其子类清除添加的widget
起初,我的思路是,先取得Layout的items数量, 然后通过索引来移除每一个items,代码如下: QHBoxLayout * hly = new QHBoxLayout; ; i < ; ...
dataGridView1.Rows[i].DefaultCellStyle.BackColor = Color.Gold;第一次无效
private void dgv_CellFormatting(object sender, DataGridViewCellFormattingEventArgs e) {}//修改DataGrid ...
pyqt中pyrcc和pyuic的使用
一.pyrcc的使用 1.1 作用将资源文件转换成py文件,并在主程序引入 1.2 资源文件编写说明新建resource.qrc,代码如下: <!DOCTYPE RCC><RCC ...
centos7 安装docker(手动和脚本安装）换源卸载
centos7 安装docker(手动和脚本安装)换源卸载 Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker ...
sql server锁表、查询被锁表、解锁被锁表的相关语句
MSSQL(SQL Server)在我的印象中很容易锁表,大致原因就是你在一个窗口中执行的DML语句没有提交,然后又打开了一个窗口对相同的表进行CRUD操作,这样就会导致锁表.锁表是一种保持数据一致性 ...
EF连接mysql，出现A call to SSPI failed错误，解决办法
我的使用场景是用EF连接AWS的mysql RDS,会偶发性的出现A call to SSPI failed错误, System.AggregateException: One or more err ...
NoSQL之redis用法
什么是NoSQL? 泛指非关系型的数据库不支持SQL语法存储结构跟传统关系型数据库中的那种关系表完全不同,nosql中存储的数据都是Key-Value(即键值对关系)形式 NoSQL的世界中没有一 ...

python 多进程数量 对爬虫程序的影响

python 多进程数量 对爬虫程序的影响的更多相关文章

随机推荐

热门专题

python 多进程数量对爬虫程序的影响

python 多进程数量对爬虫程序的影响的更多相关文章