【Python爬虫实战】多线程爬虫---糗事百科段子爬取

多线程爬虫：即程序中的某些程序段并行执行，
合理地设置多线程，可以让爬虫效率更高
糗事百科段子普通爬虫和多线程爬虫
分析该网址链接得出：
https://www.qiushibaike.com/8hr/page/页码/

多线程爬虫也就和JAVA的多线程差不多，直接上代码

 '''

 #此处代码为普通爬虫

 import urllib.request

 import urllib.error

 import re

 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

 opener = urllib.request.build_opener()

 opener.addheaders = [headers]

 urllib.request.install_opener(opener)

 for i in range(1,2):

     url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"

     pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")

     pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'

     datalist = re.compile(pattern,re.S).findall(pagedata)

     for j in range(0,len(datalist)):

         print("第"+str(i)+"页第"+str(j)+"个段子内容是：")

         print(datalist[j])

 '''

 '''

 #此处为多线程介绍代码

 import threading   #导入多线程包

 class A(threading.Thread):  #创建一个多线程A

     def __init__(self):     #必须包含的两个方法之一:初始化线程

         threading.Thread.__init__(self)

     def run(self):          #必须包含的两个方法之一：线程运行方法

         for i in range(0,11):

             print("我是线程A")

 class B(threading.Thread):  #创建一个多线程A

     def __init__(self):     #必须包含的两个方法之一:初始化线程

         threading.Thread.__init__(self)

     def run(self):          #必须包含的两个方法之一：线程运行方法

         for i in range(0,11):

             print("我是线程B")

 t1 = A()    #线程实例化

 t1.start()  #线程运行

 t2 = B()

 t2.start()

 '''

 #此处为修改后的多线程爬虫

 #使用多线程进行奇偶页的爬取

 import urllib.request

 import urllib.error

 import re

 import threading

 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

 opener = urllib.request.build_opener()

 opener.addheaders = [headers]

 urllib.request.install_opener(opener)

 class one(threading.Thread):   #爬取奇数页内容

     def __init__(self):

         threading.Thread.__init__(self)

     def run(self):

         for i in range(1,12,2):

             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"

             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")

             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'

             datalist = re.compile(pattern,re.S).findall(pagedata)

             for j in range(0,len(datalist)):

                 print("第"+str(i)+"页第"+str(j)+"段子内容为：")

                 print(datalist[j])

 class two(threading.Thread):   #爬取奇数页内容

     def __init__(self):

         threading.Thread.__init__(self)

     def run(self):

         for i in range(2,12,2):

             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"

             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")

             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'

             datalist = re.compile(pattern,re.S).findall(pagedata)

             for j in range(0,len(datalist)):

                 print("第"+str(i)+"页第"+str(j)+"段子内容为：")

                 print(datalist[j])

 t1 = one()

 t2 = two()

 t1.start()

 t2.start()

【Python爬虫实战】多线程爬虫---糗事百科段子爬取的更多相关文章

Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

随机推荐

Centos7 环境下 Python2.7 换成 Python3.7 运行 scrapy 应用所遇到的问题记录
参考网友的安装过程 Linux系统Centos安装Python3.7 设置Python默认为Python3.7 mv /usr/bin/python /usr/bin/python.bak ln -s ...
php限制文件下载速度的代码
有时候你会出于某种目的而要求把下载文件的速度放慢一些,例如你想实现文件下载进度条功能.限制下载速度最大的好处是节省带宽,避免瞬时流量过大而造成网络堵塞.本文将和你分享如何通过php代码来实现限制文件的 ...
[Windows Hook] 屏蔽键盘按键
//该例程为在系统级屏蔽一些系统键.如WIN.TAB.CAP.POWER.SLEEP.HOME等! //屏蔽组合键下面例程不适用!(比如CTRL+ESC需要在钩子函数中用(p.vkCode = VK_ ...
ASP.NET Web APIs 基于令牌TOKEN验证的实现(保存到DB的Token)
http://www.cnblogs.com/niuww/p/5639637.html 保存到DB的Token 基于.Net Framework 4.0 Web API开发(4):ASP.NET We ...
ubuntu 16.04 安装VS CODE时此软件来自第三方且可能包含非自由组件
先安装gdebi: sudo apt-get install gdebi 然后执行: sudo apt install ./vscode.deb
ToString()、Convert.ToString()、(string)、as string 的区别
通常 object 到 string 有四种方式(假设有object obj):obj.ToString().Convert.ToString().(string)obj.obj as string. ...
[视频播放] HLS协议之M3U8、TS流详解
本文转载自:<hls之m3u8.ts流格式详解> HLS,Http Live Streaming 是由Apple公司定义的用于实时流传输的协议,HLS基于HTTP协议实现,传输内容包括两部 ...
vagrant box保存路径修改
add box的时候默认保存在C盘用户文件夹 C:\Users\xxx.vagrant.d,通过设置VAGRANT_HOME环境变量改变默认位置 WIN setx VAGRANT_HOME “X:/y ...
Notepad++ 中使用tail -f功能
想要notepad++中有tail -f的功能吗? 可以如下配置 Settings > Preferences > MISC 在 File Status Auto-Detection下 “ ...
python之路——1
王二学习python的笔记以及记录,如有雷同,那也没事,欢迎交流,wx:wyb199594 学习内容 python的历史: python2 源码不标准,混乱,重复代码太多, python3 统一标准 ...

【Python爬虫实战】多线程爬虫---糗事百科段子爬取

【Python爬虫实战】多线程爬虫---糗事百科段子爬取的更多相关文章

随机推荐

热门专题