【Python爬虫实战】多线程爬虫---糗事百科段子爬取

多线程爬虫：即程序中的某些程序段并行执行，
合理地设置多线程，可以让爬虫效率更高
糗事百科段子普通爬虫和多线程爬虫
分析该网址链接得出：
https://www.qiushibaike.com/8hr/page/页码/

多线程爬虫也就和JAVA的多线程差不多，直接上代码

 '''

 #此处代码为普通爬虫

 import urllib.request

 import urllib.error

 import re

 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

 opener = urllib.request.build_opener()

 opener.addheaders = [headers]

 urllib.request.install_opener(opener)

 for i in range(1,2):

     url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"

     pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")

     pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'

     datalist = re.compile(pattern,re.S).findall(pagedata)

     for j in range(0,len(datalist)):

         print("第"+str(i)+"页第"+str(j)+"个段子内容是：")

         print(datalist[j])

 '''

 '''

 #此处为多线程介绍代码

 import threading   #导入多线程包

 class A(threading.Thread):  #创建一个多线程A

     def __init__(self):     #必须包含的两个方法之一:初始化线程

         threading.Thread.__init__(self)

     def run(self):          #必须包含的两个方法之一：线程运行方法

         for i in range(0,11):

             print("我是线程A")

 class B(threading.Thread):  #创建一个多线程A

     def __init__(self):     #必须包含的两个方法之一:初始化线程

         threading.Thread.__init__(self)

     def run(self):          #必须包含的两个方法之一：线程运行方法

         for i in range(0,11):

             print("我是线程B")

 t1 = A()    #线程实例化

 t1.start()  #线程运行

 t2 = B()

 t2.start()

 '''

 #此处为修改后的多线程爬虫

 #使用多线程进行奇偶页的爬取

 import urllib.request

 import urllib.error

 import re

 import threading

 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

 opener = urllib.request.build_opener()

 opener.addheaders = [headers]

 urllib.request.install_opener(opener)

 class one(threading.Thread):   #爬取奇数页内容

     def __init__(self):

         threading.Thread.__init__(self)

     def run(self):

         for i in range(1,12,2):

             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"

             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")

             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'

             datalist = re.compile(pattern,re.S).findall(pagedata)

             for j in range(0,len(datalist)):

                 print("第"+str(i)+"页第"+str(j)+"段子内容为：")

                 print(datalist[j])

 class two(threading.Thread):   #爬取奇数页内容

     def __init__(self):

         threading.Thread.__init__(self)

     def run(self):

         for i in range(2,12,2):

             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"

             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")

             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'

             datalist = re.compile(pattern,re.S).findall(pagedata)

             for j in range(0,len(datalist)):

                 print("第"+str(i)+"页第"+str(j)+"段子内容为：")

                 print(datalist[j])

 t1 = one()

 t2 = two()

 t1.start()

 t2.start()

【Python爬虫实战】多线程爬虫---糗事百科段子爬取的更多相关文章

Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

随机推荐

piwik高负载加速之切换session存储位置
默认情况下,piwik的session是存储于根目录下面的tmp/sessions/路径下面的.而官方文档里面说,如果由于本地硬盘的原因,这种设置可能会导致系统被变慢,这在高负载系统应用中可能是不可以 ...
PHP 解压 ZIP 文件到指定文件夹
本类实现参考 php manual 评论 [php] view plain copy /** * function: 解压zip 格式的文件 * author:friker * date:2015-1 ...
Delphi调用DLL中的接口
问题描述: 具体问题就是在隐式使用接口变量后,在FreeLibrary执行后,就会出现一个非法访址的错误. 这个错误的原因就是在FreeLibrary后,DLL以的代码均为不可用状态,而在代码执行完整 ...
最新证明面临质疑：P/NP问题为什么这么难？
转自:http://tech.sina.com.cn/d/2017-08-16/doc-ifyixias1432604.shtml 编译 | 张林峰(普林斯顿大学应用数学专业博士研究生) 责编 | 陈 ...
java rsa 公钥加密
注意JAVA 的STRING .getBytes() 默认取的是操作系统的编码,最好统一UTF-8. -- /* * To change this license header, choose Lic ...
mass种子模块看完了
作者当然也不容易,要考虑各种兼容问题,要考虑效率问题(他真的考虑过吗,我表示强烈怀疑,貌似仅仅是风格上模仿其他源码) 相当无语. 本来我是知道的,代码调试的过程中逐渐完善,逐渐与各种兼容问题和预想不 ...
JS一行代码，生成一个16进制随机颜色，简单粗暴。
var color = '#'+ Math.random().toString(16).substr(-6); document.body.style.backgroundColor = color; ...
Python如何查询Mysql
Python查询Mysql使用 fetchone() 方法获取单条数据, 使用fetchall() 方法获取多条数据. fetchone(): 该方法获取下一个查询结果集.结果集是一个对象 fetch ...
1.汇编指令介绍(arm)
本文作为本人学习过程中的记录及时不时的突发奇想偶记.鄙人菜鸟一只,文中如有错误或疏漏,若读者肯不吝赐教,在下感激零涕.文章一直不断更新中一.汇编语言汇编语言是一种应用计算机.微处理器.微控制器或其 ...
itertools库中product函数用法 (即可以随机出所有组合，因果图那样的)

【Python爬虫实战】多线程爬虫---糗事百科段子爬取

【Python爬虫实战】多线程爬虫---糗事百科段子爬取的更多相关文章

随机推荐

热门专题