Python多线程爬取某网站表情包

# 爬取网络图片
import requests
from lxml import etree
from urllib import request
from queue import Queue # 导入队列
import threading
import os
import re

class Producer(threading.Thread):
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
    }
    def __init__(self,page_Queue,image_Queue,*args,**kwargs):
        super(Producer,self).__init__(*args,**kwargs)
        self.page_Queue = page_Queue
        self.image_Queue = image_Queue

    def run(self):
        while True:
            if self.page_Queue.empty():
                break
            url = self.page_Queue.get()
            self.parse_page(url) # 取URL

    def parse_page(self,url):
        respone = requests.get(url,headers=self.headers)
        text = respone.text
        html = etree.HTML(text)
        imgs = html.xpath("//div[@class='page-content text-center']//a//img")
        for img in imgs:
            # img_url = img.xpath(".//@data-original")[0]
            img_url = img.get("data-original")
            # alt = img.xpath(".//@alt")[0] # 提取文件名称
            alt = img.get("alt") # 提取文件名称
            suffix = os.path.splitext(img_url)[1] # 提取扩展名称
            alt = re.sub(r'[\/ :*?"<>|]','',alt) # 使用正则来替换alt名称的特殊字符
            filename = alt + suffix
            self.image_Queue.put((img_url,filename))

class Consumer(threading.Thread):
    def __init__(self,page_Queue,image_Queue,*args,**kwargs):
        super(Consumer,self).__init__(*args,**kwargs)
        self.page_Queue = page_Queue
        self.image_Queue = image_Queue

    def run(self):
        while True:
            if self.page_Queue.empty() and self.image_Queue.empty():
                break
            image_url,filename = self.image_Queue.get()
            path = 'E:\\image\\'
            request.urlretrieve(image_url,path+filename)
            print('正在存储文件%s'%filename)

def main():
    page_Queue = Queue(10)
    image_Queue = Queue(10)

    # 爬取100页图片
    for x1 in range(1,4):
        url = 'https://www.doutula.com/photo/list/?page=%d'%x1
        page_Queue.put(url)

    for x in range(5):
        t1 = Producer(page_Queue,image_Queue)
        t1.start()

    for x in range(5):
        t2 = Consumer(page_Queue,image_Queue)
        t2.start()

if __name__ == '__main__':
    main()

Python多线程爬取某网站表情包的更多相关文章

python多线程爬取斗图啦数据
python多线程爬取斗图啦网的表情数据使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...
python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
python多线程爬取世纪佳缘女生资料并简单数据分析
一. 目标作为一只万年单身狗,一直很好奇女生找对象的时候都在想啥呢,这事也不好意思直接问身边的女生,不然别人还以为你要跟她表白啥的,况且工科出身的自己本来接触的女生就少,即使是挨个问遍,样本量也 ...
Python 多线程爬取站酷（zcool.com.cn）图片
极速爬取下载站酷(https://www.zcool.com.cn/)设计师/用户上传的全部照片/插画等图片. 项目地址:https://github.com/lonsty/scraper 特点: 极 ...
[原创]python+beautifulsoup爬取整个网站的仓库列表与仓库详情
from bs4 import BeautifulSoup import requests import os def getdepotdetailcontent(title,url):#爬取每个仓库 ...
用python实现多线程爬取影视网站全部视频方法【笔记】
我拿这个站点作为案例:https://91mjw.com/ 其他站点方法都是差不多的. 第一步:获得整站所有的视频连接 html = requests.get("https://91mjw ...
【Python爬虫案例学习2】python多线程爬取youtube视频
转载:https://www.cnblogs.com/binglansky/p/8534544.html 开发环境: python2.7 + win10 开始先说一下,访问youtube需要那啥的,请 ...
python多线程爬取-今日头条的街拍数据（附源码加思路注释）
这里用的是json+re+requests+beautifulsoup+多线程 1 import json import re from multiprocessing.pool import Poo ...

随机推荐

TensorFlow XLA加速编译器
TensorFlow XLA加速编译器加速线性代数器(Accelerated linear algebra,XLA)是线性代数领域的专用编译器.根据 https://www.tensorflow.o ...
HarmonyOS系统概述
HarmonyOS系统概述系统定位 HarmonyOS是一款"面向未来".面向全场景(移动办公.运动健康.社交通信.媒体娱乐等)的分布式操作系统.在传统的单设备系统能力的基础上, ...
MinkowskiEngine多GPU训练
MinkowskiEngine多GPU训练目前,MinkowskiEngine通过数据并行化支持Multi-GPU训练.在数据并行化中,有一组微型批处理,这些微型批处理将被送到到网络的一组副本中. ...
RGBD动作识别的多视图层融合模型
摘要基于视觉的动作识别在实践中遇到了不同的挑战,包括从任何角度识别主题,实时处理数据以及在现实环境中提供隐私.甚至识别基于配置文件的人类动作(基于视觉的动作识别的一个子集),在计算机视觉中也是一个巨 ...
Python_selenium PO模式下 Tesecase 的相同执行代码做成selenium_base_case公共模块及调用
作用: PO模式下 Tesecase 的相同执行代码做成selenium_base_case公共模块及调用,提高代码简洁度,实现同样效果. 框架结构: 代码简单实践: common模块下 seleni ...
【NX二次开发】Block UI 线性尺寸
属性说明常规类型描述 BlockID String 控件ID Enable Logical 是否可操作 Group Logical ...
【SQLite】教程09-VBA读取SQLite数据之ODBC，及中文乱码问题
VBA使用ODBC Driver for SQLite读SQLite 如下图有这么一个SQlite数据库,我们要读取它需要先安装ODBC,可以从这里下载: SQLite 3 ODBC Driver ...
如果你这么去理解HashMap就会发现它真的很简单
Java中的HashMap相信大家都不陌生,也是大家编程时最常用的数据结构之一,各种面试题更是恨不得掘地三尺的去问HashMap.HashTable.ConcurrentHashMap,无论面试题多么 ...
注册中心ZooKeeper,Eureka,Consul,Nacos对比
简介服务注册中心本质上是为了解耦服务提供者和服务消费者.对于任何一个微服务,原则上都应存在或者支持多个提供者,这是由微服务的分布式属性决定的.更进一步,为了支持弹性扩缩容特性,一个微服务的提供者 ...
Vue（9）购物车练习
购物车案例经过一系列的学习,我们这里来练习一个购物车的案例需求:使用vue写一个表单页面,页面上有购买的数量,点击按钮+或者-,可以增加或减少购物车的数量,数量最少不得少于0,点击移除按钮,会 ...

Python多线程爬取某网站表情包

Python多线程爬取某网站表情包的更多相关文章

随机推荐

热门专题