小说免费看！python爬虫框架scrapy 爬取纵横网

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：风，又奈何

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

准备

python3
scrapy

项目创建：

cmd命令行切换到工作目录创建scrapy项目两条命令 scarpy startproject与scrapy genspider 然后用pycharm打开项目

D:\pythonwork>scrapy startproject zongheng

New Scrapy project 'zongheng', using template directory 'c:\users\11573\appdata\local\programs\python\python36\lib\site-packages\scrapy\templates\project', created in:

    D:\pythonwork\zongheng



You can start your first spider with:

    cd zongheng

    scrapy genspider example example.com



D:\pythonwork>cd zongheng



D:\pythonwork\zongheng>cd zongheng



D:\pythonwork\zongheng\zongheng>scrapy genspider xuezhong http://book.zongheng.com/chapter/189169/3431546.html

Created spider 'xuezhong' using template 'basic' in module:

  zongheng.spiders.xuezhong

确定内容

首先打开网页看下我们需要爬取的内容

其实小说的话结构比较简单只有三大块卷章节内容

因此 items.py代码：

内容提取spider文件编写

还是我们先创建一个main.py文件方便我们测试代码

然后我们可以在spider文件中先编写

运行main.py看看有没有输出

发现直接整个网页的内容都可以爬取下来，说明该网页基本没有反爬机制，甚至不用我们去修改user-agent那么就直接开始吧

打开网页 F12查看元素位置并编写xpath路径然后编写spider文件

需要注意的是我们要对小说内容进行一定量的数据清洗，因为包含某些html标签我们需要去除

有时候我们会发现无法进入下个链接，那可能是被allowed_domains过滤掉了我们修改下就可以

唉突然发现了到第一卷的一百多章后就要VIP了那我们就先只弄一百多章吧不过也可以去其他网站爬取免费的这次我们就先爬取一百多章吧

内容保存

接下来就是内容的保存了，这次就直接保存为本地txt文件就行了

首先去settings.py文件里开启 ITEM_PIPELINES

然后编写pipelines.py文件

由于选址失误导致了我们只能爬取免费的一百多章节，尴尬，不过我们可以类比运用到其他网站爬取全文免费的书籍

怎么样使用scrapy爬取是不是很方便呢

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！

小说免费看！python爬虫框架scrapy 爬取纵横网的更多相关文章

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
Python爬虫框架Scrapy安装使用步骤
一.爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...

随机推荐

hdu1253胜利大逃亡（城堡的怪物太狠，主角难免天天逃亡）
题目链接:http://icpc.njust.edu.cn/Problem/Hdu/1253/ 其实就是二维扩展到三维了,增加了搜索方向,其他的没什么不同. 代码如下: #include<bit ...
直径问题 Diameter Problems
2019-11-03 21:37:59 一.Diameter of Binary Tree 问题描述: 问题求解: 解法一.第一反应是树上动归,每个节点保存一下左右的最大深度,最后以每个节点作为中枢计 ...
VMware workstation 下Hadoop伪分布式模式安装
详细过程: 1.VMware安装: 2.centos 6 安装 3.jdk下载安装配置 4.Hadoop 安装配置 1.VMware Workstation 安装: https://www.vmwar ...
Google AI推出新的大规模目标检测挑战赛
来源 | Towards Data Science 整理 | 磐石就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛.当今计算 ...
Pandas 精简实例入门
目录 0. 案例引入 1. Pandas 主要数据结构 1.1 DataFrame 1.1.1 设置索引 1.1.2 重设索引 1.1.3 以某列为索引 1.2 MultiIndex 1.3 Seri ...
coding++：mybatis update foreach （SQL循环）批量更新
今天要做批量更新的业务,采用 mybaits 的 foreach 动态语句,遇到一些问题做下记录. 参考示例(1): <update id="" parameterType= ...
coding++：快速构建 kindeditor 富文本编辑器（一）
此案例 demo 为 SpringBoot 开发 1.官网下载相关资源包:http://kindeditor.net/down.php 2.编写页面(引入相关JS) <!DOCTYPE html ...
SpringBoot环境搭建及第一个程序运行（详细！）
spring boot简介 spring boot框架抛弃了繁琐的xml配置过程,采用大量的默认配置简化我们的开发过程. 所以采用Spring boot可以非常容易和快速地创建基于Spring 框架的 ...
LM拟合算法
一. Levenberg-Marquardt算法 (1)y=a*e.^(-b*x)形式拟合 clear all % 计算函数f的雅克比矩阵,是解析式 syms a b y x real; f=a*e ...
Python——Pandas库入门
一.Pandas库介绍 Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas as pd Pandas基于NumPy实现,常与NumPy和Matplotli ...

小说免费看！python爬虫框架scrapy 爬取纵横网

前言

准备

内容保存

小说免费看！python爬虫框架scrapy 爬取纵横网的更多相关文章

随机推荐

热门专题