scrapy的入门使用（一）

1. scrapy项目实现流程

创建一个scrapy项目:scrapy startproject mySpider
生成一个爬虫:scrapy genspider
提取数据:完善spider，使用xpath等方法
保存数据:pipeline中保存数据

2. 创建scrapy项目

命令：scrapy startproject +<项目名字>

示例：scrapy startproject myspider

3. 创建爬虫

命令：scrapy genspider +<爬虫名字> + <允许爬取的域名>

示例：scrapy genspider

4. 完善spider

完善spider即通过方法进行数据的提取等操作。

注意：

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None
spider中的parse方法必须有
需要抓取的url地址必须属于allowed_domains,但是start_urls中的url地址没有这个限制
启动爬虫的时候注意启动的位置，是在项目路径下启动

5. 数据传递到pipeline

为什么要使用yield？

让整个函数变成一个生成器，有什么好处呢？
遍历这个函数的返回值的时候，挨个把数据读到内存，不会造成内存的瞬间占用过高
python3中的range和python2中的xrange同理

注意：

yield能够传递的对象只能是：BaseItem,Request,dict,None

6. 完善pipeline

pipeline在settings中能够开启多个，为什么需要开启多个？

不同的pipeline可以处理不同爬虫的数据
不同的pipeline能够进行不同的数据处理的操作，比如一个进行数据清洗，一个进行数据的保存

pipeline使用注意点

使用之前需要在settings中开启
pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过
有多个pipeline的时候，process_item的方法必须return item,否则后一个pipeline取到的数据为None值
pipeline中process_item的方法必须有，否则item没有办法接受和处理
process_item方法接受item和spider，其中spider表示当前传递item过来的spider

7. 输出日志LOG的设置

为了让我们自己希望输出到终端的内容能容易看一些，我们可以在setting中设置log级别

在setting中添加一行（全部大写）：LOG_LEVEL = "WARNING”

默认终端显示的是debug级别的log信息

scrapy的入门使用（一）的更多相关文章

[转]Scrapy简单入门及实例讲解
Scrapy简单入门及实例讲解中文文档: http://scrapy-chs.readthedocs.io/zh_CN/0.24/ Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用 ...
Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性
抓取到的item 会被发送到Item Pipeline进行处理 Item Pipeline常用于 cleansing HTML data validating scraped data (checki ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
Scrapy 爬虫入门 +实战
爬虫,其实很早就有涉及到这个点,但是一直没有深入,今天来搞爬虫.选择了,scrapy这个框架 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tut ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
Scrapy简单入门及实例讲解
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...
Scrapy简单入门及实例讲解-转载
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...
10，Scrapy简单入门及实例讲解
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...
Scrapy 框架入门简介
一.Scrapy框架简介 Scrapy 是用 Python 实现的一个为了爬取网站数据.提取结构性数据而编写的应用框架. Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. ...
Scrapy 框架入门教程
Scrapy入门教程在本篇教程中,我已经安装好Scrapy 本篇教程中将带您完成下列任务: 创建一个Scrapy项目定义提取的Item 编写爬取网站的 spider 并提取 Item 编写 Ite ...

随机推荐

angular.min.js:118 Error: [ng:areq] http://errors.angularjs.org/1.5.8/ng/areq?
1,错误如图所示简单说下错误原因是:没有js没有注册进去. 解决方法: 1.看下index.html有没有引入你的js文件. 2.看下app.js有没有注册js,比如我这次就是这步没做好,合并代码时 ...
SpringCloud-day06-Ribbon负载均衡
6.3.Ribbon负载均衡为了实现真正的负载均衡,我们需要集群3个服务提供给者,而在这之前我们只有一个服务提供者1001,那么我们新建模块microservice-station-provider ...
WCF基础_使用svcutil.exe 工具来生成调用文件
右键单击一个服务在浏览器中打开时,通常会有这么一段话: ServiceDemo 服务已创建服务. 若要测试此服务,需要创建一个客户端,并将其用于调用该服务.可以使用下列语法,从命令行中使用 svcu ...
forEach() 和 map() 遍历
1.forEach() 没有返回值. arr[].forEach(function(value,index,array){ //do something }) 参数:value数组中的当前项, i ...
command not found解决方案
如果新装的系统,运行一些很正常的诸如:shutdown,fdisk的命令时,悍然提示:bash:command not found.那么首先就要考虑root 的$PATH里是否已经包含了这些环境变量 ...
input下拉框
用Html5和css.js写的,引用的bootstrap和jquery文件请各位看客自己去下载
json转换对象中出现null属性的解决方法
前言:当数据进行json转换时,当属性值为null时,json解析就会中断,导致接下来的数据无法正确获取.原则上来讲服务器端发送的json字符串不允许存在属性值为空的情况,但是如果服务器端发送了nul ...
SPA
为什么用SPA 1. 减少服务器压力如果不用spa 那么每次切换页面的时候,就会向服务器发送一个请求服务器返回一个html文件如果使用了SPA 在切换时,不需要请求服务器,只要通过本地 ...
分别用for、while和do-while循环语句以及递归方法计算n！，并输出算式
一.用for循环实现实验过程: 实验结果: 二.用while循环实现实验结果: 三.用do while循环实现实验结果: 四.用递归算法实现实验结果: 实验心得: 此次实验中必须熟悉for循环 ...
windows server 2012 FTP连接报530 User 用户名 cannot log in home directory inaccessible的解决方法
我最近在创建个人网站,经过了万网购买域名注册(www.lingcup.xyz ,www.lingcup.com),在主机屋购买免费云服务器(ip是49.4.142.41),域名别名解析(cname)到 ...