python3 多线程获取数据实例

import requests
import json
from retrying import retry
from lxml import etree
from queue import Queue
import threading

class QiuShi:
　　def __init__(self):
　　　　# 定义三个队列
　　　　self.url_queue = Queue()
　　　　self.html_queue = Queue()
　　　　self.content_list_queue = Queue()
　　　　self.headers = {
　　　　"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
　　　　}

　　def get_url_list(self):
　　　　url_list = ['https://www.qiushibaike.com/8hr/page/{}/'.format(i) for i in range(1, 14)]
　　　　for url in url_list:
　　　　　　# 将url使用put方法放入队列
　　　　　　self.url_queue.put(url)

　　@retry(stop_max_attempt_number=3)
　　def _parse_url(self, url):
　　　　response = requests.get(url, headers=self.headers, timeout=3)
　　　　assert response.status_code == 200
　　　　return etree.HTML(response.content)

　　def parse_url(self):
　　# 这里需要一个url。
　　# 因为url = self.url_queue.get()只会从队列里取一次url.所以这里需要加while True循环来取。
　　# 当url队列里没有url的时候这里会堵塞等待，只要有就取。
　　# 但是取过后队列的基数并没有减１（并没有减去刚取走的url），所以要在下面使用task_done()
　　while True:
　　　　url = self.url_queue.get()
　　　　print(url)
　　　　try:
　　　　　　html = self._parse_url(url)
　　　　except:
　　　　　　html = None
　　　　# 将html添加到队列里
　　　　self.html_queue.put(html)
　　　　self.url_queue.task_done()

　　def get_content_list(self):
　　　　# 和上面一样
　　　　while True:
　　　　　　html = self.html_queue.get()
　　　　　　if html is not None:
　　　　　　　　div_list = html.xpath('//div[@id="content-left"]/div')
　　　　　　　　content_list = []
　　　　　　　　for div in div_list:
　　　　　　　　　　item = {}
　　　　　　　　　　item['name'] = div.xpath('.//h2/text()')[0].replace("\n", "") if len(div.xpath('.//h2/text()')) > 0 else None
　　　　　　　　　　item['content'] = div.xpath('.//div[@class="content"]/span/text()')[0].replace("\n", "") if len(div.xpath('.//div[@class="content"]/span/text()')) > 0 else None
　　　　　　　　　　item['comment'] = div.xpath('.//i[@class="number"]/text()')[1] if len(div.xpath('.//i[@class="number"]/text()')) > 0 else None
　　　　　　　　　　item['img'] = div.xpath('.//img/@src') if len(div.xpath('.//img/@src')) > 0 else None

　　　　　　　　　　content_list.append(item)
　　　　　　　　　self.content_list_queue.put(content_list)
　　　　　　self.html_queue.task_done()

　　def save_content_list(self):
　　　　while True:
　　　　　　content_list = self.content_list_queue.get()

　　　　　　with open("qiubai.json", "a", encoding="utf-8") as f:
　　　　　　　　for content in content_list:
　　　　　　　　　　json.dump(content, f, ensure_ascii=False, indent=2)
　　　　　　　　　　f.write(',\n')

　　　　　　self.content_list_queue.task_done()

　　def run(self):
　　　　thread_list = []
　　　　# 创建一个提取url的线程
　　　　t_url = threading.Thread(target=self.get_url_list)
　　　　thread_list.append(t_url)
　　　　# 因为发送请求比较耗时，这里我们就用多线程来做
　　　　for i in range(5):
　　　　　　t_parse = threading.Thread(target=self.parse_url)
　　　　　　thread_list.append(t_parse)
　　　　# 提取数据也比较耗时，这里我们也使用多线程
　　　　for i in range(3):
　　　　　　t_get_content_list = threading.Thread(target=self.get_content_list)
　　　　　　thread_list.append(t_get_content_list)
　　　　# 保存数据必须用一个线程要数据就会乱
　　　　t_save = threading.Thread(target=self.save_content_list)
　　　　thread_list.append(t_save)
　　　　for t in thread_list:
　　　　　　t.setDaemon(True) # 守护线程
　　　　　　t.start()
　　　　# 当所有队列里没有数据，基数都等于０的时候主线程结束。否则一直堵塞在q.join()
　　　　for q in [self.content_list_queue, self.html_queue, self.url_queue]:
　　　　　　q.join()

if __name__ == '__main__':
qiubai = QiuShi()
qiubai.run()

python3 多线程获取数据实例的更多相关文章

PHP中使用CURL模拟登录并获取数据实例
cURL 是一个功能强大的PHP库,使用PHP的cURL库可以简单和有效地抓取网页并采集内容,设置cookie完成模拟登录网页,curl提供了丰富的函数,开发者可以从PHP手册中获取更多关于cURL信 ...
ios 异步多线程获取数据
简介 iOS有三种多线程编程的技术,分别是: (一)NSThread (二)Cocoa NSOperation (三)GCD(全称:Grand Central Dispatch) 这三种编程方式 ...
HBase 高性能获取数据(多线程批量式解决办法) + MySQL和HBase性能测试比较
摘要: 在前篇博客里已经讲述了通过一个自定义 HBase Filter来获取数据的办法,在末尾指出此办法的性能是不能满足应用要求的,很显然对于如此成熟的HBase来说,高性能获取数据应该不是问题. ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
Datatables插件1.10.15版本服务器处理模式ajax获取分页数据实例解析
一.问题描述前端需要使用表格来展示数据,找了一些插件,最后确定使用dataTables组件来做. 后端的分页接口已经写好了,不能修改.接口需要传入页码(pageNumber)和页面显示数据条数(pa ...
第五章 “我要点爆”微信小程序云开发实例之从云端获取数据制作首页
下面我们来实现从云端获取数据,完成首页世界页面index的制作,首页分为4个数据列表导航页面,页面具体内容如下: 推荐:为用户推荐最新的点爆信息,它包含文本点爆内容和语音点爆内容. 文爆:筛选出文字点 ...
Java获取http和https网址对应html数据实例
由于之前在公司一直用的C#做的软件开发,近些天有同学需要用Java做一个从指定网址获取信息的Java程序.正好不是很难,顺便复习了一下Java的知识. 要求如下,在https://www.marine ...
python3实践-从网站获取数据(Carbon Market Data-BJ) （pandas，bs4）
自己边看边实践一些简单的实际应用,下面的程序是从某个网站上获取需要的数据. 在编写的过程中,通过学习陆续了解到一些方法,发现Python真的是很便捷. 尤其是用pandas获取网页中的表格数据,真的是 ...
BlockingQueue阻塞队列（解决多线程中数据安全问题可用于抢票，秒杀）
案例:一个线程类中 private static BlockingQueue<Map<String, String>> dataQueue = new LinkedBlocki ...

随机推荐

bzoj1051（明星奶牛）
这道就是明星奶牛,A了一次又一次了,(⊙o⊙)-(⊙o⊙)- 去年pas就打了不下5次,就是强联通缩点,然后求出度为0的块判断有多个的话就无解,一个就输出块的大小. #include<cstd ...
codeforces 8c Looking for Order
https://vjudge.net/problem/CodeForces-8C 题意: 一个平面上放着许多东西,每个东西都有一个坐标,最开始一个人在一个起始坐标,她出发去拿东西,一次要么拿一件东西, ...
802.1Q VLAN技术原理
文章出处:http://hi.baidu.com/x278384/item/d56b0edfd4f56a4eddf9be79 在数据通信和宽带接入设备里,只要涉及到二层技术的,就会遇到VLAN.而且, ...
HDU2036 改革春风吹满地
第一次看到这题果断放弃,毕竟几何白痴,第二次刷没做的题的时候突然想到这个三角形面积的向量法:S=|x1*y2-x2*y1| 但是此题可能是凹多边形,所以不能加绝对值,可以画个凹四边形看看. HDU2 ...
算法-找出与目标数字相同的digit组成的整数中比该数字大的数集中的最小数字
题目: 给出1个正整数,找到用与这个数字相同的digit组成的整数中比这个数字大的数集中的最小数字.比如:12352874 的结果是 12354278 分析: 这道题目的考虑目标是数组的查找与排序. ...
Spring 源码剖析IOC容器（一）概览
目录一.容器概述二.核心类源码解读三.模拟容器获取Bean ======================= 一.容器概述 spring IOC控制反转,又称为DI依赖注入:大体是先初始化bean ...
设置QT应用程序图标方法(Windows下)
学习笔记,言简意赅. 1- 新建文本文件,编辑输入 IDI_ICON1 ICON DISCARDABLE "./image/WindowIco.ico" 注意: ...
Ubuntu软件中心卡在正在应用更改的解决办法
http://forum.ubuntu.org.cn/viewtopic.php?t=374037 http://forum.ubuntu.org.cn/viewtopic.php?p=2743994 ...
js的解析顺序作用域严格模式
一.javascript的解析顺序我们大家所理解的代码的执行顺序都是从上到下的,但是实际上确不是这样的.我们看一下下面的代码. 1 alert(a); 2 var a = 1; 如果执行顺序是从上到 ...
Redis 学习笔记-5种数据类型的基本操作
1.string类型基本操作列表: GET 获取指定键对应的值 SET 设定键值 DEL 删除指定键对应的值(对所有数据类型都有效) > set hello world OK > get ...

python3 多线程获取数据实例

python3 多线程获取数据实例的更多相关文章

随机推荐

热门专题