使用scrapy爬虫,爬取起点小说网的案例

爬取的页面为https://book.qidian.com/info/1010734492#Catalog

爬取的小说为凡人修仙之仙界篇，这边小说很不错。

正文的章节如下图所示

其中下面的章节为加密部分，现在暂时无法破解加密的部分。ε=(´ο｀*)))唉..

下面直接上最核心的代码（位于spiders中的核心代码）

# -*- coding: utf-8 -*-

import scrapy

from qidian.items import QidianItem

import enum

class Qidian1Spider(scrapy.Spider):

    name = 'qidian1'

    allowed_domains = ['qidian.com']

    start_urls = ['https://book.qidian.com/info/1010734492#Catalog']

    def parse(self, response):

        #div[@class="volume"][1或者2或者3或者4]中的数值，这些数值自定义一个变量替代，目前一共是4个部分，随着后续章节的增加，会出现第五部分或者第六部分 依次累加

        ###div[@class="volume"]["num"] ，num是自定义的变量，你可以换成自己想要的abc或者bb等变量，把这些变量放进去，就能得到所有章节的title？？（不知道为什么）

        for aa in response.xpath(

                '//div[@class="volume-wrap"]/div[@class="volume"]["'

                '这里填啥都行，不填就报错，或者去掉class=volume后面的这个中括号就得不到a标签中的标题，我也不知道什么原因！！！"]'

                '/ul[@class="cf"]/li'):

            title=aa.xpath("a/text()").extract()

            link=aa.xpath("a/@href").extract() 
            for new_link in link:

                new_links="https:"+str(new_link)

                yield scrapy.Request(new_links, callback=self.parse_content)

    def parse_content(self,response):

        for bb in response.xpath('//div[@class="main-text-wrap"]'):

            title=bb.xpath('//div[@class="text-head"]/h3[@class="j_chapterName"]/text()').extract()

            content = bb.xpath('//div[@class="read-content j_readContent"]/p/text()').extract()

            kong_list=list(''.join(title))

            item=QidianItem()

            item['title']=title                
　　　　　　　item['content']=content

            yield item

在items.py中的核心代码为

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class QidianItem(scrapy.Item):

    title = scrapy.Field()

    link = scrapy.Field()

    content = scrapy.Field()

在pipelines.py中的核心代码为

# -*- coding: utf-8 -*-

import json

class QidianPipeline(object):

    def process_item(self, item, spider):

        return item

    #初始化时指定要操作的文件

    def __init__(self):

        self.file = open('item.json', 'w', encoding='utf-8')

    # 存储数据，将 Item 实例作为 json 数据写入到文件中

    def process_item(self, item, spider):

        lines = json.dumps(dict(item), ensure_ascii=False) + '\n'

        self.file.write(lines)

        return item

    # 处理结束后关闭 文件 IO 流

    def close_spider(self, spider):

        self.file.close()

我们最后得到的结果为像这种的。

........

使用scrapy爬虫,爬取起点小说网的案例的更多相关文章

使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
使用scrapy爬虫,爬取17k小说网的案例-方法二
楼主准备爬取此页面的小说,此页面一共有125章我们点击进去第一章和第一百二十五章发现了一个规律我们看到此链接的 http://www.17k.com/chapter/271047/6336386 ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
scrapy实例:爬取中国天气网
1.创建项目在你存放项目的目录下,按shift+鼠标右键打开命令行,输入命令创建项目: PS F:\ScrapyProject> scrapy startproject weather # w ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
python利用scrapy框架爬取起点
先上自己做完之后回顾细节和思路的东西,之后代码一起上. 1.Mongodb 建立一个叫QiDian的库,然后建立了一个叫Novelclass(小说类别表)Novelclass(可以把一级类别二级类别都 ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...

随机推荐

周末学习笔记——day02（带参装饰器，wraps修改文档注释，三元表达式，列表字典推导式，迭代器，生成器，枚举对象，递归）
一,复习 ''' 1.函数的参数:实参与形参形参:定义函数()中出现的参数实参:调用函数()中出现的参数形参拿到实参的值,如果整体赋值(自己改变存放值的地址),实参不会改变,(可变类型)如果修改 ...
win10下安装ubuntu18.04
在win10下安装Ubuntu18.04,双系统共存.Ubuntu 18.04 使用的是Gnome桌面. 查看系统的启动模式: Win+R打开运行,输入msinfo32,回车查看系统信息.在BIOS模 ...
windows系统下的特殊目录导致的FileNotFoundException
环境:下面只有JDK(内含jre),没有外在的jre 读取的两个文件都是存在的,只是文件名不同运行结果1 运行结果2 切换JDK 运行结果3: 运行结果4: 请留意:C:\windows\syste ...
Acitiviti数据库表设计（学习笔记）
ACT_ID_*:与权限,用户与用户组,以及用户与用户组关系相关的表 ACT_RU_*:代表了流程引擎运行时的库表,RU表示Runtime ACT_HI_*:HI表示History当流程完成了节点以后 ...
熟悉常用的HDFS操作
编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件 ...
Linux 系统从入门到精通的学习大纲；
以前没有接触过Linux,生产环境需要,有时候遇到问题,百度一下,问题解决了,在遇到问题,在百度,有时候问题是如何解决的,为什么会解决有点丈二的和尚摸不着头脑, 为此,想用一段时间,系统的学习下Lin ...
使用apidoc生成项目文档
[1]npm install apidoc -g 全局安装apidoc [2]apidoc -v 查看是否安装成功 [3]apidoc.json apidoc的项目级配置文件,它必须位于整个工程目录顶 ...
input密码框输入后设置显示为星号或其他样式
预览效果核心代码 <div class="text-input" :class="right?'textinput-right':''"> < ...
[LVM]创建LVM卷
https://www.cnblogs.com/softidea/p/5147090.html
How to expand Azure VM OS Disk
There are three main disk roles in Azure: the data disk, the OS disk, and the temporary disk. 1. OS ...

使用scrapy爬虫,爬取起点小说网的案例

使用scrapy爬虫,爬取起点小说网的案例的更多相关文章

随机推荐

热门专题