创建项目

scrapy startproject quotetutorial

cd quotetutorial

scrapy genspider quotes www.snwx3.com

项目结构如下：

quotetutorial/start.py文件内容

目的是直接运行这个文件从而运行爬虫，就不用在命令行中运行爬虫了

#!/usr/bin/env python

#-*- coding: utf-8 -*-

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'quotes']) # quotes为quotes.py文件中的name变量的值

quotetutorial/quotetutorial/spiders/quotes.py文件内容

#!/usr/bin/env python

#-*- coding: utf-8 -*-

import scrapy

from quotetutorial.items import QuotetutorialItem

class QuotesSpider(scrapy.Spider):

    name = 'quotes'

    allowed_domains = ['www.snwx3.com']

    base_url = "https://www.snwx3.com/book/434/434282/9279"

    pages = list(range(2998,3104)) # 遍历页数

    def start_requests(self):

        # 遍历循环图书索引页

        for page in self.pages:

            url = self.base_url + str(page) + ".html" # 构造请求地址

            print('请求第%s页' % (url))

            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):

        res = response.css('#BookText::text').extract() # 使用浏览器的css选择器功能

        # print(res)

        item = QuotetutorialItem()

        item['text'] = res

        yield item

使用浏览器的css选择器功能

quotetutorial/quotetutorial/items.py文件内容

#!/usr/bin/env python

#-*- coding: utf-8 -*-

import scrapy

class QuotetutorialItem(scrapy.Item):

    text = scrapy.Field() # 只获取内容，章节标题最后添加

quotetutorial/quotetutorial/pipelines.py文件内容

#!/usr/bin/env python

#-*- coding: utf-8 -*-

import os

class QuotetutorialPipeline:

    def process_item(self, item, spider):

        base_dir = os.getcwd()

        fiename = base_dir + '/new2.txt' # 保存文件到当前目录

        with open(fiename, 'a',encoding='utf-8') as f: # 防止乱码

            text = "".join(item['text']) # list转str

            f.write(text + '\n')

        return item

quotetutorial/quotetutorial/settings.py文件内容

ROBOTSTXT_OBEY = False # 设置为False，表示不准收robots.txt规则

ITEM_PIPELINES = {

   'quotetutorial.pipelines.QuotetutorialPipeline': 300, # 调用下载

}

最终效果

爬取后的结果是一行一个章节，使用notepad++软件操作，删除空白行，删除掉三个重复的章节，正好103行，表示103个章节，根据目标网站的地址，获取每章的名称，然后使用块编辑复制粘贴到每行的开头，完美。

使用scrapy爬取长安有妖气小说的更多相关文章

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
小说免费看！python爬虫框架scrapy 爬取纵横网
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 风,又奈何 PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
以豌豆荚为例，用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
scrapy 爬取纵横网实战
前言闲来无事就要练练代码,不知道最近爬取什么网站好,就拿纵横网爬取我最喜欢的雪中悍刀行练手吧准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目两条命 ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...

随机推荐

04.nvue开发
nvue开发注意项 nvue专用内置组件跟api https://uniapp.dcloud.io/nvue-outline?id=_2开发nvue页面网络示例 https://www.cnblog ...
吐泡泡_via牛客网
题目链接:https://ac.nowcoder.com/acm/contest/28537/E 来源:牛客网时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 32768K,其他语言 ...
我也是醉了，Eureka 延迟注册还有这个坑！
Eureka 有个延迟注册的功能,也就是在服务启动成功之后不立刻注册到 Eureka Server,而是延迟一段时间再去注册,这样做的主要目的是因为虽然服务启动成功了,可能还有一些框架或者业务的代码没 ...
第十五天python3 文件IO(一)
一.文件打开 open(path,flag[,encoding][,errors]) 参数说明: path:要打开文件的路径 flag:打开方式( r:以只读的方式打开文件,文件的描述符放在文件开头 ...
0202年，您真的需要Thrift这样一个RPC微服务框架来拯救一下传统HTTP接口(api)了
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_104 目前市面上类似Django的drf框架基于json的http接口解决方案大行其道,人们也热衷于在接口不多.系统与系统交互较少 ...
Eplan创建符号详细解说
如何创建新的符号库以及在项目里面导入这个新的符号库这个就不详细的赘述了网上很多教程和我一样的萌新可以参考 https://wenku.baidu.com/view/18c16641e45c3b3 ...
【点击云游台湾省】今天，老子云在台湾省建了个3D房子！
今日热搜仍然聚焦台湾省,中国新闻网发文:地图已经可以显示台湾省的每个街道.网友一片叫好! 台湾省通过平面图观察,难免看的不够真切,其实现在已经可以通过3D视角云游台湾省了! 老子云这次通过自研技术,还 ...
使用 Vagrant 在 VirtualBox 安装 Linux 虚拟机
GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. 目录 1. 导入 2.工具介绍 3.通过Vagrant为VirtualBox安装CentOS 7 4.总结文章推荐: 关 ...
web前端要学些什么，学习思路
有没有Web前端大神给个意见我已学了 html css JS 马上要学Vue或React不知道那个好需不需要先了解一下jQuery 还需要学些什么
BZOJ3732 （Kruskal重构树）
Kruskal重构树上\(x\)和\(v\)的\(lca\)的权值即为它们最长路最小值 #include <cstdio> #include <iostream> #inclu ...

使用scrapy爬取长安有妖气小说

创建项目

quotetutorial/start.py文件内容

quotetutorial/quotetutorial/spiders/quotes.py文件内容

quotetutorial/quotetutorial/items.py文件内容

quotetutorial/quotetutorial/pipelines.py文件内容

quotetutorial/quotetutorial/settings.py文件内容

最终效果

使用scrapy爬取长安有妖气小说的更多相关文章

随机推荐

热门专题