Python 多进程一分钟下载二百张图片是什么样子的体验

需要爬取国内某个网站，但是这个网站封ip，没办法，只能用代理了，然后构建自己的代理池，代理池维护了20条进程，

所用的网络是20M带宽，实际的网速能达到2.5M，考虑到其他原因，网速未必能达到那么多。爬虫对网速的要求挺高的。

首先把 URL 图片的链接抓取下来保存到数据库中去，然后使用多进程进行图片的抓取。

经过测试开40个进程，一分钟能采集200张图片，但是开60个进程，图片下降到了一分钟120张。

注意：抓取图片的时候，或者抓取视频的时候，一定要加上请求头，实现图片的压缩传输。

下面直接粘贴出来代码：

# coding:utf-8

from common.contest import *

def save_img(source_url, dir_path, file_name,maxQuests= 11):

    maxQuests =maxQuests

    headers = {

                "Host":"img5.artron.net",

                "Connection":"keep-alive",

                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36",

                "Accept":"image/webp,image/apng,image/*,*/*;q=0.8",

                "Referer":"http://auction.artron.net/paimai-art5113610001/",

                "Accept-Encoding":"gzip, deflate",

                "Accept-Language":"zh-CN,zh;q=0.8",

                }

    proxies = r.get(str(random.randint(1,10)))

    proxies = {"http": "http://" + str(proxies)}

    print "使用的代理是：",proxies

    try:

        response = requests.get(url=source_url, headers=headers,verify=False,proxies=proxies,timeout=15)

        if response.status_code == 200:

            if not os.path.exists(dir_path):

                os.makedirs(dir_path)

            total_path = dir_path + '/' + file_name

            with open(total_path, 'wb') as f:

                for chunk in response.iter_content(1024):

                    f.write(chunk)

            print "图片保存到本地"

            return ""

        else:

            print "图片没有保存到本地"

            return ""

    except Exception as e:

        print e

        if maxQuests > 0 and response.status_code != 200:

            save_img(source_url, dir_path, file_name, maxQuests-1)

def getUpdataImage(item):

    item_imgurl = item['item_imgurl']

    url = item_imgurl

    item_href = item_imgurl

    print "正在采集的 url 是",url

    filenamelist = url.split('/')

    filename1 = filenamelist[len(filenamelist) - 4]

    filename2 = filenamelist[len(filenamelist) - 3]

    filename3 = filenamelist[len(filenamelist) - 2]

    filename4 = filenamelist[len(filenamelist) - 1]

    filename = filename1 + "_" + filename2 + "_" + filename3 + "_" + filename4

    filenamestr = filename.replace('.jpg', '')

    filenamestr = filenamestr.replace('.JPG', '')

    filenamestr = filenamestr.replace('.JPEG', '')

    filenamestr = filenamestr.replace('.jpeg', '')

    filenamestr = filenamestr.replace('.png', '')

    filenamestr = filenamestr.replace('.bmp', '')

    filenamestr = filenamestr.replace('.tif', '')

    filenamestr = filenamestr.replace('.gif', '')

    localpath = 'G:/helloworld/' + filenamestr

    save_localpath = localpath + "/" + filename

    print "图片保存路径是:",save_localpath

    try:

        result = save_img(url, localpath, filename,item_href)

        if result == "":

            print "图片采集成功"

        else:

            print "图片采集失败"

    except IOError:

        pass

if __name__ == "__main__":

    time1 = time.time()

    sql = """SELECT item_id, item_imgurl FROM 2017_xia_erci_pic  """

    resultList = select_data(sql)

    print len(resultList)

    pool = multiprocessing.Pool(60)

    for item in resultList:

        pool.apply_async(getUpdataImage, (item,))

    pool.close()

    pool.join()

Python 多进程一分钟下载二百张图片是什么样子的体验的更多相关文章

python多进程断点续传分片下载器
python多进程断点续传分片下载器标签:python 下载器多进程因为爬虫要用到下载器,但是直接用urllib下载很慢,所以找了很久终于找到一个让我欣喜的下载器.他能够断点续传分片下载,极大提 ...
Office_PPT_让你一分钟完成上百张图片的快速保存
1 方式修改PPT文件格式,由PPT修改为rar,再进行解压操作进入到ppt->media中找到你在PPT为文件中使用的图片. 2 PPT北京图片下载网址别样网:https://www.s ...
Python中的多进程与多线程（二）
在上一章中,学习了Python多进程编程的一些基本方法:使用跨平台多进程模块multiprocessing提供的Process.Pool.Queue.Lock.Pipe等类,实现子进程创建.进程池(批 ...
【Python从入门到精通】（二十五）Python多进程的使用
您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本篇重点介绍Python多进程的使用,读者朋友们可以将多进程和多线程两者做一个对比学习. 干货满满,建议收藏,需要用到时常看看. 小伙伴们如有问题 ...
Python 多进程多线程协程 I/O多路复用
引言在学习Python多进程.多线程之前,先脑补一下如下场景: 说有这么一道题:小红烧水需要10分钟,拖地需要5分钟,洗菜需要5分钟,如果一样一样去干,就是简单的加法,全部做完,需要20分钟:但是, ...
Qt+Python开发百度图片下载器
一.资源下载地址 https://www.aliyundrive.com/s/jBU2wBS8poH 本项目路径:项目->收费->百度图片下载器(可试用5分钟) 安装包直接下载地址:htt ...
python多进程详解
目录 python多进程序.multiprocessing 一.Process process介绍例1.1:创建函数并将其作为单个进程例1.2:创建函数并将其作为多个进程例1.3:将进程定义为 ...
一篇文章搞定Python多进程(全)
1.Python多进程模块 Python中的多进程是通过multiprocessing包来实现的,和多线程的threading.Thread差不多,它可以利用multiprocessing.Proce ...
进击的Python【第五章】：Python的高级应用（二）常用模块
Python的高级应用(二)常用模块学习本章学习要点: Python模块的定义 time &datetime模块 random模块 os模块 sys模块 shutil模块 ConfigPar ...

随机推荐

SQL Server 附加数据库提示5120错误
怎么样是不是跟你的错误是一样的,心里是不是有点小激动? T_T 终于有办法了!!!! 第一步先关掉你的SQLserver 然后在菜单上找找到SQLSERVER右键选择“以管理员运行” 第二步给你的数据 ...
（回溯法）和为n的所有不增正整数和式分解算法
题目: 利用递归算法输出正整数和为n的所有不增的正整数和式.例如当n=5时,不增的和式如下: 5=5 5=4+1 5=3+2 5=3+1+1 5=2+2+1 5=2+1+1+1 5=1+1+1+1+1 ...
Android混合开发，html5自己主动更新爬过的坑
如今使用混合开发的公司越来越多,尽管出现了一些新技术,比方Facebook的react native.阿里的weex,但依旧阻挡不了一些公司採用h5的决心.当然,这也是从多方面考虑的选择. 在三年前就 ...
使用Editplus配置PHP调试环境
工欲善其事必先利其器.近期看了非常多PHP的IDE介绍.最后选择了Editplus.以下说说一些PHP的调试环境配置问题. 1. 加入PHP模板第一步新建->其他->php 第二步输 ...
SqlServer日常积累（二）
1.Like运算符:将字符串表达式与 SQL表达式中的模式进行比较匹配. 语法 :expression Like 'pattern' ,expression为匹配字段,pattern为匹配字符串.可以 ...
UVA 357 Let Me Count The Ways(全然背包)
UVA 357 Let Me Count The Ways(全然背包) http://uva.onlinejudge.org/index.php?option=com_onlinejudge& ...
PowerMock介绍
一.为什么要使用Mock工具在做单元测试的时候,我们会发现我们要测试的方法会引用很多外部依赖的对象,比如:(发送邮件,网络通讯,远程服务, 文件系统等等). 而我们没法控制这些外部依赖的对象,为了解 ...
如何设置mysql登陆密码？
此情况用于mysql密码为空. 命令如下: Mysqladmin –uroot password root1234 Root是用户名,root1234是新设置的密码
maven org.apache.tomcat.util.bcel.classfile.ClassFormatException: Invalid byte tag in constant pool: 60
maven org.apache.tomcat.util.bcel.classfile.ClassFormatException: Invalid byte tag in constant poo ...
TRIZ系列-创新原理-25-自服务原理
自服务原理的详细表述例如以下:1)物体在实施辅助和维修操作时.必须能自我服务:2)利用废弃的材料和能量: 自服务原理的第1)个比較好理解,假设一个系统在执行过程中须要进行辅助和维护操作时,最好不要借助 ...

Python 多进程 一分钟下载二百张图片 是什么样子的体验

Python 多进程 一分钟下载二百张图片 是什么样子的体验的更多相关文章

随机推荐

热门专题

Python 多进程一分钟下载二百张图片是什么样子的体验

Python 多进程一分钟下载二百张图片是什么样子的体验的更多相关文章