python网络爬虫之使用scrapy自动爬取多个网页

前面介绍的scrapy爬虫只能爬取单个网页。如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页

对应的网页代码：

我们再看进入后面章节的网页，可以看到增加了上一页

对应的网页代码：

通过对比上面的网页代码可以看到. 上一页，目录，下一页的网页代码都在<div>下的<a>元素的href里面。不同的是第一章只有2个<a>元素，从二章开始就有3个<a>元素。因此我们可以通过<div>下<a>元素的个数来判决是否含有上一页和下一页的页面。代码如下

最终得到生成的网页链接。并调用Request重新申请这个网页的数据

那么在pipelines.py的文件中。我们同样需要修改下存储的代码。如下。可以看到在这里就不是用json. 而是直接打开txt文件进行存储

class Test1Pipeline(object):

    def __init__(self):

        self.file=''

    def process_item(self, item, spider):

        self.file=open(r'E:\scrapy_project\xiaoshuo.txt','wb')

        self.file.write(item['content'])

        self.file.close()

        return item

完整的代码如下：在这里需要注意两次yield的用法。第一次yield后会自动转到Test1Pipeline中进行数据存储，存储完以后再进行下一次网页的获取。然后通过Request获取下一次网页的内容

class testSpider(Spider):

    name="test1"

    allowd_domains=['http://www.xunsee.com']

start_urls=["http://www.xunread.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/1.shtml"]

def parse(self, response):

init_urls="http://www.xunread.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615"

      sel=Selector(response)

      context=''

      content=sel.xpath('//div[@id="content_1"]/text()').extract()

for c in content:

        context=context+c.encode('utf-8')

items=Test1Item()

items['content']=context

count = len(sel.xpath('//div[@id="nav_1"]/a').extract())

if count > 2:

next_link=sel.xpath('//div[@id="nav_1"]/a')[2].xpath('@href').extract()

      else:

next_link=sel.xpath('//div[@id="nav_1"]/a')[1].xpath('@href').extract()

      yield items

for n in next_link:

url=init_urls+'/'+n

        print url

        yield Request(url,callback=self.parse)

对于自动爬取网页scrapy有个更方便的方法：CrawlSpider

前面介绍到的Spider中只能解析在start_urls中的网页。虽然在上一章也实现了自动爬取的规则。但略显负责。在scrapy中可以用CrawlSpider来进行网页的自动爬取。

爬取的规则原型如下：

classscrapy.contrib.spiders.Rule(link_extractor, callback=None, cb_kwargs=None, follow=None,process_links=None, process_request=None)

LinkExtractor.：它的作用是定义了如何从爬取到的的页面中提取链接

Callback指向一个调用函数，每当从LinkExtractor获取到链接时将调用该函数进行处理，该回调函数接受一个response作为第一个参数。注意：在用CrawlSpider的时候禁止用parse作为回调函数。因为CrawlSpider使用parse方法来实现逻辑，因此如果使用parse函数将会导致调用失败

Follow是一个判断值，用来指示从response中提取的链接是否需要跟进

在scrapy shell中提取www.sina.com.cn为例

LinkExtractor中的allow只针对href属性：

例如下面的链接只针对href属性做正则表达式提取

结构如下：可以得到各个链接。

可以通过restrict_xpaths对各个链接加以限制，如下的方法：

实例2：还是以之前的迅读网为例

提取网页中的下一节的地址：

网页地址：

http://www.xunread.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/1.shtml

下一页的的相对URL地址为2.shtml。

通过如下规则提取出来

>>> item=LinkExtractor(allow=('\d\.shtml')).extract_links(response)

>>> for i in item:

... print i.ur

...

http://www.xunread.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/2.shtml

也通过导航页面直接获取所有章节的链接：

C:\Users\Administrator>scrapy shell http://www.xunread.com/article/8c39f5a0-ca54

-44d7-86cc-148eee4d6615/index.shtml

from scrapy.linkextractors import LinkExtractor

>>> item=LinkExtractor(allow=('\d\.shtml')).extract_links(response)

>>> for i in item:

... print i.url

得到如下全部的链接

那么接下来构造在scrapy中的代码，如下

class testSpider(CrawlSpider):

    name="test1"

    allowd_domains=['http://www.xunsee.com']

    start_urls=["http://www.xunsee.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/1.shtml"]

    rules=(Rule(LinkExtractor(allow=('\d\.shtml')),callback='parse_item',follow=True),)

    print rules

    def parse_item(self, response):

        print response.url

        sel=Selector(response)

        context=''

        content=sel.xpath('//div[@id="content_1"]/text()').extract()

        for c in content:

            context=context+c.encode('utf-8')

        items=Test1Item()

        items['content']=context

        yield items

关键的是rules=(Rule(LinkExtractor(allow=('\d\.shtml')),callback='parse_item',follow=True),) 这个里面规定了提取网页的规则。以上面的例子为例。爬取的过程分为如下几个步骤：

1 从http://www.xunsee.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/1.shtml开始，第一调用parse_item，用xpath提取网页内容，然后用Rule提取网页规则，在这里提取到2.shtml。

2 进入2.shtml.进入2.shtml后再重复运行第一步的过程。直到Rules中提取不到任何规则

我们也可以做一下优化，设置start_urls为页面索引页面

http://www.xunsee.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/index.shtml

这样通过Rule可以一下提取出所有的链接。然后对每个链接调用parse_item进行网页信息提取。这样的效率比从1.shtml要高效很多。

python网络爬虫之使用scrapy自动爬取多个网页的更多相关文章

python网络爬虫之使用scrapy自动登录网站
前面曾经介绍过requests实现自动登录的方法.这里介绍下使用scrapy如何实现自动登录.还是以csdn网站为例. Scrapy使用FormRequest来登录并递交数据给服务器.只是带有额外的f ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
【Python网络爬虫四】通过关键字爬取多张百度图片的图片
最近看了女神的新剧<逃避虽然可耻但有用>,同样男主也是一名程序员,所以很有共鸣被大只萝莉萌的一脸一脸的,我们来爬一爬女神的皂片. 百度搜索结果:新恒结衣本文主要分为4个部分: 1.下载 ...
Python网络爬虫案例（二）——爬取招聘信息网站
利用Python,爬取 51job 上面有关于 IT行业的招聘信息版权声明:未经博主授权,内容严禁分享转载案例代码: # __author : "J" # date : 20 ...
python网络爬虫之使用scrapy爬取图片
在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存 ...
【python 网络爬虫】之scrapy系列
网络爬虫之scripy系列 [scrapy网络爬虫]之0 爬虫与反扒 [scrapy网络爬虫]之一 scrapy框架简介和基础应用 [scrapy网络爬虫]之二持久化操作 [scrapy网络爬虫]之 ...
Python 网络爬虫 008 (编程) 通过ID索引号遍历目标网页里链接的所有网页
通过 ID索引号遍历目标网页里链接的所有网页使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyChar ...
python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...

随机推荐

C# 在iis windows authentication身份验证下，如何实现域用户自动登录
前言: 该博文产生的背景是有个项目在客户那部署方式为iis windows身份验证,而客户不想每次登录系统都要输入帐号和密码来登录. 因此需要得到域用户,然后进行判断该用户是否可以进入系统. 解决方法 ...
Ajax与Pjax请求在服务端是如何识别的
我在后台处理ajax和一般的网页请求时,一般是需要额外加个参数进行区分的.比如使用get参数的is_ajax=1,后台判断有is_ajax=1成立时,表明该请求是ajax请求,遂可区分处理.我正在使用 ...
使用 onpropertychange 和 oninput 检测 input、textarea输入改变
检测input.textarea输入改变事件有以下几种: 1.onkeyup/onkeydown 捕获用户键盘输入事件. 缺陷:复制粘贴时无法检测 2.onchenge 缺陷:要满足触发条件:当前对象 ...
hdu4681 String DP(2013多校第8场)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4681 思路: 我是胡搞过的就是先预处理出(i,j)的正向的最大连续子串和逆向最大连续子串然后对于A ...
Windows安装Mysql5.7.10绿色版
今天在Windows上安装Mysql的时候,去官网上下了一个最新版本的Mysql5.7.10绿色版,但是之前网上安装方式都过时了,比如会报一些常见的错误“[ERROR] Fatal error: Ca ...
swift 可选类型（optional）
可选类型定义 Swift 标准库中定义后缀 ?为可选类型 Optional<Wrapped> 的语法糖,这里语法糖可以简单理解为一种便捷的书写语法.也就是说,下面两个声明是等价的: va ...
分辨率、像素和PPI
屏幕尺寸是指屏幕对角线的长度,一般以英寸为单位,1英寸(inch)=2.54厘米(cm).传统意义上的照片尺寸也是这个概念.所以同样尺寸(指对角线)的屏幕,也可能长宽比率不同.像素(Pixel):是位 ...
VBS
1.msgbox脚本显示回车语法:msgbox"123"&vbcrlf&"456"
struts2.1.6教程九、文件上传下载（了解）
首先建立struts2UpDownLoad项目,搭建好struts2基本的开发环境. 上传实例步骤一:upload.jsp代码如下: <s:form action="upload&q ...
LVM学习
LVM Logical Volume Manager Volume management creates a layer of abstraction over physical storage, a ...

python网络爬虫之使用scrapy自动爬取多个网页

python网络爬虫之使用scrapy自动爬取多个网页的更多相关文章

随机推荐

热门专题