爬虫多线程模板，xpath，etree

class QuiShi:
    def __init__(self):
        self.temp_url = "http://www.lovehhy.net/Joke/Detail/QSBK/{0}"
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"}
        #1.Queue url队列
        self.url_query = Queue()
        #　html网页队列
        self.html_query = Queue()
        # content内容队列
        self.content_query = Queue()
    def get_url_list(self):
         for i in range(1,5):
             self.url_query.put(self.temp_url.format(i))

    def parse_url(self):
        while True:
            url = self.url_query.get()
            self.html_query.put(requests.get(url,headers=self.headers).content.decode("gbk"))
            self.url_query.task_done()

    def get_content_list(self):
        # print(html_str)
        #etree.HTML 变成树状结构
        while True:
            html_str = self.html_query.get()
            html_str = html_str.replace("<br />","").strip("")
            html = etree.HTML(html_str)
            # s = html.xpath('//div[@id="footzoon"]')
            h3_list = html.xpath('//div[@id="footzoon"]/h3')
            content_list=[]
            for h3 in h3_list:
                item = {}
                item["title"] = h3.xpath("./a/text()")
                item["title_href"] = h3.xpath("./a/@href")
                item["content"] =[]
                s = h3.xpath('./following-sibling::div/text()')
                for i in s:
                    item["content"].append(i.replace("\u3000",""))
                content_list.append(item)
            self.content_query.put(content_list)
            self.html_query.task_done()

    def save_content_list(self):
        while True:
            cons = self.content_query.get()
            print(cons)
            self.content_query.task_done()

    def run(self):
        # 1.获取url地址列表

        t1 = threading.Thread(target=self.get_url_list)
        t21 = threading.Thread(target=self.parse_url)
        t22 = threading.Thread(target=self.parse_url)
        t23 = threading.Thread(target=self.parse_url)
        t3 = threading.Thread(target=self.get_content_list)
        t4 = threading.Thread(target=self.save_content_list)
        t1.start()
        t21.start()
        t22.start()
        t23.start()
        t3.start()
        t4.start()
        self.url_query.join()
        self.html_query.join()
        self.content_query.join()

if __name__ == '__main__':
    t1 = time.time()
    quishi = QuiShi()
    quishi.run()
    print(time.time() - t1)

爬虫多线程模板，xpath，etree的更多相关文章

爬虫系列(九) xpath的基本使用
一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: &l ...
从0开始学爬虫3之xpath的介绍和使用
从0开始学爬虫3之xpath的介绍和使用 Xpath:一种HTML和XML的查询语言,它能在XML和HTML的树状结构中寻找节点安装xpath: pip install lxml HTML 超文本标 ...
爬虫 xpath etree自动补全页面
aa = etree.HTML(response.content) bb = etree.tostring(aa) doc = etree.HTML(bb)
python动态网站爬虫实战(requests+xpath+demjson+redis)
目录前言一.主要思路 1.观察网站 2.编写爬虫代码二.爬虫实战 1.登陆获取cookie 2.请求资源列表页面,定位获得左侧目录每一章的跳转url(难点) 3.请求每个跳转url,定位右侧下载 ...
爬虫之BS&Xpath
BeautifulSoup 一简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单的.p ...
爬虫——BeautifulSoup和Xpath
爬虫我们大概可以分为三部分:爬取——>解析——>存储一 Beautiful Soup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功 ...
sumafan:python爬虫多线程爬取数据小练习（附答案）
抓取 https://www.cnbeta.com/ 首页中新闻内容页网址, 抓取内容例子: https://hot.cnbeta.com/articles/game/825125 将抓取下来的内容页 ...
python3 多线程采集 xpath
#!/usr/bin/python # -*- coding: UTF-8 -*- '''Thread3 多线程测试采集''' import threading,time,queue,Mongo_ut ...
爬虫解析库xpath
# xpath简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言.用于在 XML 文档中通过元素和属性进行导航. XPath基于XM ...

随机推荐

vue使用封装websocket心跳包
---恢复内容开始--- 这套代码可以拿过去直接用一些注意我会在下面代码中加上注释: 谢谢支持核心代码 //这里需要引入vuex import store from './store'; let ...
OSI七层模型和五层TCP/IP协议
1.查公网ip的方法: windows,打开浏览器,访问百度,搜IP即可 linux:curl ifconfig.me 2.OSI七层模型 ==网络工程师:== 物理层 1层,通信介质的信号到数字信号 ...
IOT设备的7大安全问题
IOT设备的7大安全问题串口安全 IOT设备一般包含各类串口,并且这些串口缺乏认证机制.一旦暴露给了hacker,hacker可以很容易的查找敏感信息和dump固件,从而导致各类安全问题.建议厂家在 ...
python-Debug、函数装饰器
Debug操作: 程序出问题的时候可以用debug来看一下代码运行轨迹,然后找找问题在哪里 1.先给即将debug的代码打上断点: 2.打完断点之后右键点击debug: 3.然后依次点击开始按钮让 ...
Kafka权威指南阅读笔记（第五章）
Kafka Broker kafka 第一个启动的Broker在ZooKeeper中创建一个临时节点/controller,让自己成为控制器.其他Broker启动后在控制器节点上创建Watch对象,便 ...
【构建工具】《Maven实战》读书笔记
Maven是我们在做Java开发过程中用经常用到的一个辅助工具.本篇博客是我学习Maven的一个记录博客,学习过程主要参考<Maven实战>这本书.同时也参考了Maven的官方文档. 1. ...
NetworkManager网络通讯_Example（一）
---恢复内容开始--- 用户手册,范例精讲. 用户手册上给出了一个简单的范例,并指出可以以此为基础进行相开发,再次对范例进行精讲.(NetworkManager对使用unity的轻量级游戏开发有很大 ...
爬虫链接mongodb 以及多线程多进程的操作
一.连接mongodb 1. 设置数据库 client=pymongo.MongoClient(‘localhost’) 2. db=client[‘lag ...
[apue] 如何处理 tcp 紧急数据（OOB）？
在上大学的时候,我们可能就听说了OOB(Out Of Band 带外数据,又称紧急数据)这个概念. 当时老师给的解释就是在当前处理的数据流之外的数据,用于紧急的情况.然后就没有然后了…… 毕业这么多年 ...
R.Swift优雅加载资源文件
在新的项目中,接触到了一个很不错的框架R.swift,可以帮助更方便安全的使用资源文件,相信已经使用过的或者还没有接触过的,一旦使用过了解过它,会爱上这个框架工具! 一.R.swift特点当项目bu ...

爬虫多线程模板，xpath，etree

爬虫多线程模板，xpath，etree的更多相关文章

随机推荐

热门专题