继续上一篇,这一次的爬取了小说内容

pipelines.py

import csv

class ScrapytestPipeline(object):

# 爬虫文件中提取数据的方法每yield一次item，就会运行一次

# 该方法为固定名称函数

def process_item(self, item, spider):

# csv保存

with open(item['book_name'] + '.csv', "a", newline='', encoding='gb18030') as csvfile:

# print(item)

writer = csv.writer(csvfile)

name = item['section_name']

content = item['section_content']

writer.writerows([[name, content]])

return item

==============================

item.py

import scrapy

设置爬取的key field

class BiqugeItem_detail(scrapy.Item):

section_link = scrapy.Field()

section_name = scrapy.Field()

section_content = scrapy.Field()

book_name = scrapy.Field()

==============================

biquge.py

-- coding: utf-8 --

import time

import copy

import scrapy

自定义spider类，继承scrapy.spider

from scrapytest.items import BiqugeItem_detail

class BiqugeSpider(scrapy.Spider):

# 爬虫名字

name = 'biquge'

# 允许爬取的范围，防止爬虫爬到别的网站

allowed_domains = ['xbiquge.la']

# 开始爬取的url地址

start_urls = ['http://www.xbiquge.la/xiaoshuodaquan/']

# 数据提取的方法，接受下载中间件传过来的response

def parse(self, response):

    # 分组

    li_list = response.xpath('//div[@class="novellist"]//a')

    i = 0

    for li in li_list:

        # 创建一个数据字典

        dict_data = {}

        # 利用scrapy封装好的xpath选择器定位元素，并通过extract()或extract_first()来获取结果

        dict_data['name'] = li.xpath('.//text()').extract_first()  # 书名

        dict_data['link'] = li.xpath('.//@href').extract_first()  # 书链接

        # yield dict_data

        if i < 3:

            yield scrapy.Request(dict_data['link'], callback=self.parse_detail, meta={'dict_data': dict_data})

        i += 1  书籍计数

def parse_detail(self, response):

    book = {}

    # book['book_name'] = response.meta['dict_data']['name']

    section_data = BiqugeItem_detail()

    section_data['book_name'] = response.meta['dict_data']['name']

    section_list = response.xpath('//*[@id="list"]/dl/dd/a')

    i = 0

    for section in section_list:

        section_data['section_link'] = 'http://www.xbiquge.la' + section.xpath('./@href').extract_first()

        section_data['section_name'] = section.xpath('./text()').extract_first()

        # book['detail'] = section_data

        # yield book

        # if i < 3:

        time.sleep(0.01)

        yield scrapy.Request(section_data['section_link'], callback=self.parse_content, meta=copy.deepcopy({'section_data': section_data}))

        i += 1  # 章节计数

def parse_content(self, response):

    section_data = response.meta['section_data']

    section_data['section_content'] = response.xpath('//*[@id="content"]/text()').extract()

    yield section_data

=======================================================================================

保存的表格格式,因为是异步,所以章节是乱序的,按章节排序即可

scrapy框架爬取笔趣阁完整版的更多相关文章

scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
bs4爬取笔趣阁小说
参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问U ...
Python爬取笔趣阁小说，有趣又实用
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...
python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
scrapycrawl 爬取笔趣阁小说
前言第一次发到博客上..不太会排版见谅最近在看一些爬虫教学的视频,有感而发,大学的时候看盗版小说网站觉得很能赚钱,心想自己也要搞个,正好想爬点小说能不能试试做个网站(网站搭建啥的都不会...) 站 ...
爬虫入门实例：利用requests库爬取笔趣小说网
w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...

随机推荐

matlab练习程序（弧形投影）
这个其实也算是圆柱体投影了,不过上一篇文章是从正面看,得到的是凸形的结果,而这个是从反面看,得到的是凹形的结果. 计算公式就不写了,大致介绍一下,计算公式中关于x坐标求法和上篇一样,y坐标则正好是上篇 ...
浅谈SQL Server中的事务日志(五)----日志在高可用和灾难恢复中的作用
简介日志的作用是保证持久性和数据一致性,通过日志可以实现数据的Undo与Redo,因此通过日志,SQL Server不仅仅可以实现灾难恢复,还可以通过日志的Redo来实现高可用性.本篇文章主要讲述日 ...
IT小小鸟读书笔记2
Part4: 一. 大学的时光真的很容易荒废,自己的实力到头来和自己的成绩单一样空虚,其实自己也是深有同感的. 二. 这个观点我十分的认同:在某个方面比别人多5%的深度,可能拿到的报酬就是 ...
Selenium2学习（十八）-- js处理内嵌div滚动条
前言前面有篇专门用js解决了浏览器滚动条的问题,生活总是多姿多彩,有的滚动条就在页面上,这时候又得仰仗js大哥来解决啦. 一.内嵌滚动条 1.下面这张图就是内嵌div带有滚动条的样子,记住它的长相. ...
caffe实现focal loss层的一些理解和对实现一个layer层易犯错的地方的总结
首先要在caffe.proto中的LayerParameter中增加一行optional FocalLossParameter focal_loss_param = 205;,然后再单独在caffe. ...
webapi2返回已拒绝为此请求授权。
开始用的webapi2中是没有问题的,后来再项目中加了个过滤器并继承了AuthorizeAttribute 然后在全球文件中注册你的过滤器,让每次执行的时候都会进来我项目中只重写了OnAuthori ...
LeetCode15.三数之和 JavaScript
给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组. 注意:答案中不可以包含重复的三元组. ...
Openresty最佳案例 | 第6篇：OpenResty连接Mysql
转载请标明出处: http://blog.csdn.net/forezp/article/details/78616698 本文出自方志朋的博客 centos 安装mysl Centos系统下安装my ...
CTRL+F5 和F5 两种刷新有什么区别
spring入门(八) spring mvc设置默认首页
1.web.xml配置如下 <!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.//DTD Web Application 2.3// ...

scrapy框架爬取笔趣阁完整版

继续上一篇,这一次的爬取了小说内容

pipelines.py

============================== item.py

设置 爬取的key field

============================== biquge.py