scrapy之盗墓笔记三级页面爬取

#今日目标

**scrapy之盗墓笔记三级页面爬取**

今天要爬取的是盗墓笔记小说，由分析该小说的主要内容在三级页面里，故需要我们

一一解析

*代码实现*

daomu.py

```

import scrapy

from ..items import DaomuItem

class DaomuSpider(scrapy.Spider):

    name = 'daomu'

    allowed_domains = ['daomubiji.com']

    start_urls = ['http://www.daomubiji.com/']

    # 解析一级页面的parse函数

    def parse(self, response):

        # link_list: ['http://xxx/dao-mu-bi-ji-1','','','']

        link_list = response.xpath('//ul[@class="sub-menu"]/li/a/@href').extract()

        for link in link_list:

            # 交给调度器

            yield scrapy.Request(

                url = link,

                callback = self.parse_two_html

            )

    # 解析二级页面函数(圈名 章节数 章节名 链接)

    def parse_two_html(self,response):

        # 基准xpath

        article_list = response.xpath('//article')

        for article in article_list:

            # 创建item对象

            item = DaomuItem()

            # info_list: ['七星鲁王','第一章','血尸']

            info_list = article.xpath('./a/text()').get().split()

            if len(info_list) == 3:

                item['volume_name'] = info_list[0]

                item['zh_num'] = info_list[1]

                item['zh_name'] = info_list[2]

            else:

                item['volume_name'] = info_list[0]

                item['zh_name'] = info_list[1]

                item['zh_num'] = ''

            # 提取链接并发给调度器入队列

            item['zh_link'] = article.xpath('./a/@href').get()

            yield scrapy.Request(

                url = item['zh_link'],

                # meta参数: 传递item对象到下一个解析函数

                meta = {'item':item},

                callback = self.parse_three_html

            )

    # 解析三级页面(小说内容)函数

    def parse_three_html(self,response):

        # 获取上一个函数传递过来的item对象

        item = response.meta['item']

        # content_list: ['段落1','段落2','','']

        content_list = response.xpath(

            '//article[@class="article-content"]//p/text()'

        ).extract()

        item['zh_content'] = '\n'.join(content_list)

        yield item

```

items.py

```

import scrapy

class DaomuItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    # 卷名

    volume_name = scrapy.Field()

    # 章节数

    zh_num = scrapy.Field()

    # 章节名称

    zh_name = scrapy.Field()

    # 章节链接

    zh_link = scrapy.Field()

    # 小说内容

    zh_content = scrapy.Field()

```

pipelines.py

```

class DaomuPipeline(object):

    def process_item(self, item, spider):

        filename = '/home/tarena/daomu/{}_{}_{}'.format(

            item['volume_name'],

            item['zh_num'],

            item['zh_name']

        )

        with open(filename,'w') as f:

            f.write(item['zh_content'])

        return item

```

scrapy之盗墓笔记三级页面爬取的更多相关文章

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
爬虫系列4：scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
使用requests简单的页面爬取
首先安装requests库和准备User Agent 安装requests直接使用pip安装即可 pip install requests 准备User Agent,直接在百度搜索"UA查询 ...
python爬爬爬之单网页html页面爬取
python爬爬爬之单网页html页面爬取作者:vpoet mail:vpoet_sir@163.com 注:随意copy 不用告诉我 #coding:utf-8 import urllib2 Re ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...

随机推荐

linux中的selinux到底是什么
一文彻底明白linux中的selinux到底是什么 2018年06月29日 14:17:30 yanjun821126 阅读数 58877 标签: SElinux 更多个人分类: Linux 一 ...
#pragma once vs #ifndef
最后编辑: 2019-11-20 #pragma once 是一个非标准但被广泛支持的预处理符号, 其主要作用是防止文件重复引入问题. 在头文件中,可以定义 #pragma once 或者 #ifnd ...
perl基础-1
基础向函数中传递两个数组,使用指针 sub getSql{(my a,my b)=@_;my @array=@$a;} my @a;my @b; getSql(\@a,\@b); length($s ...
C++入门经典-例3.22-循环嵌套打印三角形
1:代码如下: // 3.22.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include <iostream> usin ...
RocketMQ存储系统概要设计和源码解读
普遍消息存储技术的选型分布式KV存储 NewSQL存储:TiDB 文件系统:RocketMQ,kafka,RabbitMQ RocketMQ:所有的message存储在一个log里,不区分topic ...
opencart升级各种坑没有主题，没有扩展，权限等问题
1.后台导航菜单没有扩展功能(扩展不显示) 2.只要是报错显示DIR_XXXX 基本都是config.php 和 admin/config.php 这两配置文件有关我这问题是config.ph ...
php面向对象练习
实例一:求一个圆环的面积,大圆半径:10 小圆半径:5 造一个圆的类: class Yuan { public $r; function __construct($r) //半径初始化 { $t ...
scp 传输命令
scp -r 文件名用户名@地址:路径 -r 代表上传文件夹
Application 使用分析
一. Application 分析 1. Application 简介 (1) Application 概念 Application 概念 : Application 属于组件范畴; -- 本质 : ...
java 深入HashTable
在java中与有两个类都提供了一个多种用途的hashTable机制,他们都可以将可以key和value结合起来构成键值对通过put(key,value)方法保存起来,然后通过get(key)方法获取相 ...

scrapy之盗墓笔记三级页面爬取

scrapy之盗墓笔记三级页面爬取的更多相关文章

随机推荐

热门专题