爬虫篇-python爬虫中多线程的使用

queue介绍

queue是python的标准库，俗称队列.可以直接import引用,在python2.x中,模块名为Queue。python3直接queue即可
在python中，多个线程之间的数据是共享的，多个线程进行数据交换的时候，不能够保证数据的安全性和一致性，所以当多个线程需要进行数据交换的时候，队列就出现了，队列可以完美解决线程间的数据交换，保证线程间数据的安全性和一致性。

#多线程实战栗子（糗百）

#用一个队列Queue对象，

#先产生所有url，put进队列；

#开启多线程，把queue队列作为参数传入

#主函数中读取url

import requests

from queue import Queue

import re,os,threading,time

# 构造所有ip地址并添加进queue队列

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

}

urlQueue = Queue()

[urlQueue.put('http://www.qiumeimei.com/image/page/{}'.format(i)) for i in range(1,14)]

def get_image(urlQueue):

    while True:

        try:

            # 不阻塞的读取队列数据

            url = urlQueue.get_nowait()

            # i = urlQueue.qsize()

        except Exception as e:

            break

        print('Current Thread Name %s, Url: %s ' % (threading.currentThread().name, url))

        try:

            res = requests.get(url, headers=headers)

            url_infos = re.findall('data-lazy-src="(.*?)"', res.text, re.S)

            for url_info in url_infos:

                if os.path.exists(img_path + url_info[-20:]):

                    print('图片已存在')

                else:

                    image = requests.get(url_info, headers=headers)

                    with open(img_path + url_info[-20:], 'wb') as fp:

                        time.sleep(1)

                        fp.write(image.content)

                    print('正在下载:' + url_info)

        except Exception as e:

            print(e)

if __name__ == '__main__':

    startTime = time.time()

    # 定义图片存储路径

    img_path = './img/'

    if not os.path.exists(img_path):

        os.mkdir(img_path)

    threads = []

    # 可以调节线程数， 进而控制抓取速度

    threadNum = 4

    for i in range(0, threadNum):

        t = threading.Thread(target=get_image, args=(urlQueue,))

        threads.append(t)

    for t in threads:

        t.start()

    for t in threads:

        # 多线程多join的情况下，依次执行各线程的join方法, 这样可以确保主线程最后退出， 且各个线程间没有阻塞

        t.join()

    endTime = time.time()

    print('Done, Time cost: %s ' % (endTime - startTime))

爬虫篇-python爬虫中多线程的使用的更多相关文章

【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
【爬虫】python爬虫
爬虫章节 1.python如何访问互联网 URL(网页地址)+lib=>urllib 2.有问题查文档:python document. 3.response = urllib.request. ...
第七篇: python高级之多线程
21 interest=0.05 22 count=amount+amount*interest 23 24 self.withdraw(count) 25 26 27 def transfer(_f ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
Python爬虫入门教程 50-100 Python3爬虫爬取VIP视频-Python爬虫6操作
爬虫背景原计划继续写一下关于手机APP的爬虫,结果发现夜神模拟器总是卡死,比较懒,不想找原因了,哈哈,所以接着写后面的博客了,从50篇开始要写几篇python爬虫的骚操作,也就是用Python3通过 ...
Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了常见爬虫框 ...
python爬虫集合
逐渐也写了有二十余篇博文,内容一多就导致有些内容不能够方便快捷定位. 虽然博客有标签进行分类,实际查找时也并不如做一个同类文章的集合来得直观. 这里就对python爬虫相关博文做个集合: 爬虫基础知识 ...
Python爬虫-百度模拟登录（二）
上一篇-Python爬虫-百度模拟登录(一) 接上一篇的继续参数 codestring codestring jxG9506c1811b44e2fd0220153643013f7e6b1898075 ...
Python爬虫编程常见问题解决方法
Python爬虫编程常见问题解决方法: 1.通用的解决方案: [按住Ctrl键不送松],同时用鼠标点击[方法名],查看文档 2.TypeError: POST data should be bytes ...

随机推荐

第09组 Beta冲刺（1/5）
队名:观光队链接组长博客作业博客组员实践情况王耀鑫过去两天完成了哪些任务文字/口头描述任务分配展示GitHub当日代码/文档签入记录接下来的计划完成短租车,页面美化还剩下哪些任 ...
oracle--数据库扩容后出现ORA-27102
一,问题描述 Connected to an idle instance. SQL> startup nomount ORA: obsolete or deprecated parameter( ...
【前端知识体系-CSS相关】CSS布局知识强化
1.实现两栏/三栏布局的方法? 表格布局 float + margin布局 inline-block布局 flexbox布局(兼容性的问题) 1.1 基础布局 <style> * { ma ...
转《深入理解 Java 内存模型》读书笔记
转:https://mp.weixin.qq.com/s/2hA6u4hLEPWlTPdD-XB-bg 前提 <深入理解 Java 内存模型>程晓明著,该书在以前看过一遍,现在学的东西越多 ...
Java 常用知识点汇总(数据类型之间转换、字符串的相关操作-截取、转换大小写等)
1.Java四类八种数据类型 byte:Java中最小的数据类型,在内存中占8位(bit),即1个字节,取值范围-128~127,默认值0 short:短整型,在内存中占16位,即2个字节,取值范围- ...
Hash函数浅谈
Hash函数是指把一个大范围映射到一个小范围.把大范围映射到一个小范围的目的往往是为了节省空间,使得数据容易保存. 除此以外,Hash函数往往应用于查找上.所以,在考虑使用Hash函数之前,需要明白它 ...
RFID相关知识总结(超高频UHF)
RFID标签分类 1.LF(Low frequency) 低频频段范围: 125 KHz-135KHz(ISO18000-2) 常见应用:该频段特点是具有良好的物体穿透能力.广泛应用于进出管理.门禁 ...
阿里云开发工具包（SDK）
参考: 阿里云开发工具包(SDK)For Python Alibaba Cloud SDK for Go
PHP之面向对象(下)
1,类的创建 class 2,对象的创建 new关键字 3,成员的添加修饰符添加成员需要三个修饰符 public 公开的定义公共的属性和方法,类的外部,内部,子类都可以使用 protected ...
docker启动,重启,关闭命令
docker启动命令,docker重启命令,docker关闭命令启动 systemctl start docker守护进程重启 sudo systemctl daemon-relo ...

爬虫篇-python爬虫中多线程的使用

queue介绍

爬虫篇-python爬虫中多线程的使用的更多相关文章

随机推荐

热门专题