爬虫之scrapy安装与基本使用

安装

pip install scrapy

基本使用　

创建项目

scrapy startproject 项目名

cd 项目名

生成爬虫

创建spider爬虫：scrapy genspider 爬虫名允许的域名

爬虫类需要继承scrapy.Spider
爬虫的名字: name
允许的域名: allowed_domains
起始的url: start_urls
解析函数:

创建crawlspider爬虫：scrapy genspider -t crawl 爬虫名称允许的域

完善提取URL的规则
Rule表示规则
1. rules是一个元组或者是列表 --> Rule对象
2. rules = (Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),)

LinkExtractor[必选]:连接提取器，可以通过正则或者是xpath来提取URL

allow: 用于指定一个正则表达, 只有与该正则匹配的链接才被提取出来

restrict_xpaths: 用于指定一个XPATH, 只有该XPATH指定的区域中链接才被提取出来

callback[可选]: 表示经过连接提取器提取出来的url对应响应的解析函数，可以没有，表示该响应不需要解析函数来处理

follow[可选]：连接提取器提取的url地址对应的响应是否还会继续被rules中的规则进行提取，True表示会，False表示不会

完善爬虫

response.xpath('xpath语法') --> 返回selector对象
extract() --> 返回提取到的字符串列表 --> 无数据[]
extract_first() --> 返回提取到的第一个字符串 --> 无数据None

注意： yield后不可以接列表

保存数据　

完善Pipeline类
在settings.py中开启管道

运行项目

scrapy crawl 爬虫名

CrawlSpider 与 Spider如何选择

　　自定义爬虫, 是继承CrawlSpider 还是 Spider呢?

一般当一类页面中可以获取所有数据的时候, 使用CrawlSpider
需要从多类页面中提取数据, 进行组合, 使用Spider

爬虫之scrapy安装与基本使用的更多相关文章

python爬虫框架—Scrapy安装及创建项目
linux版本安装 pip3 install scrapy 安装完成 windows版本安装 pip install wheel 下载twisted,网址:http://www.lfd.uci.edu ...
Python爬虫框架--Scrapy安装以及简单实用
scrapy框架框架 -具有很多功能且具有很强通用性的一个项目模板环境安装: Linux: pip3 install scrapy Windows: ...
python爬虫的scrapy安装+pymongo的安装
我的:python2.7版本 32位注意scrapy只支持2.7及以上的版本. 1.安装python 2.安装pip 安装pip就不赘述了,网上很多教学 pip安装时要注意更新,如果pip版本 ...
Python爬虫框架Scrapy安装使用步骤
一.爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python ...
python爬虫之scrapy安装（一）
简介: Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrap ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
转：Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...

随机推荐

Scala Try Catch Finally
Scala Try Catch Finally: 在Java中返回值优先级顺序:finally最高, try,catch 选其一,try中抛异常,返回catch,不抛异常,返回try,. public ...
PID算法的理解及场景模拟
增量式PID算法的简化版之后的公式: △u(t)=Ae(t)-Be(t-1)+Ce(t-2) △u:PID控制器输出的下一时刻的调整量 e(t):PID控制器在当前时刻的状态变化量-给定值 e(t-1 ...
Java如何安装JDK，配置环境变量。超级详细图及操作
突然想起自己大学刚接触java的时候,要下载JDK和配置环境变量,那时候我上网找了很多教学,结果发现很多的博主都是表达不太清晰,或者是我理解能力差点,导致我那时候搞了一个多小时才搞定,而且事后每次我重 ...
一篇文章教会你jQuery应用
一认识jQuery jQuery是JavaScript Query的缩写形式.jQuery是一款非常优秀的JavaScript库,即便是MVVM框架盛行的今天,也有超过半数的网页及应用直接或间接的使 ...
[JLOI2014]天天酷跑
请允许我对记忆化搜索进行一个总结,我认为所有的搜索只要数据范围允许,都可以转化为记忆化搜索, 只是,用处的多与少的关系,其本身是求出设出状态之后,为求出当前状态进行递推(搜索),推到已知状态,之后再 ...
C# 获取顶级（一级）域名方法
/// <summary> /// 获取域名的顶级域名 /// </summary> /// <param name="domain">< ...
Java工程师学习指南（入门篇）
Java工程师学习指南入门篇最近有很多小伙伴来问我,Java小白如何入门,如何安排学习路线,每一步应该怎么走比较好.原本我以为之前的几篇文章已经可以解决大家的问题了,其实不然,因为我之前写的文章都 ...
ASP.NET Core API ——Dapper的使用
ASP.NET Core API ——Dapper的使用简介:Dapper是一个ORM框架,负责数据库和程序语言之间的映射. 使用步骤: l 创建一个IDBConnection的接口对象 l 编 ...
Kali Linux开启ssh服务设置自启
几天没写水一些今天遇到的问题 0x01 配置SSH参数修改sshd_config文件,命令为: vi /etc/ssh/sshd_config 将#PasswordAuthentication ...
2019.4.22 python_Flag
想了很久最后觉得还是对编程的知识点好好重新的拉一边回炉重造并不可笑虽然从C到java到php到python 有两年的时间了但是很多知识点都是零零碎碎,没有花时间复习和记录所以决定从pyth ...

爬虫之scrapy安装与基本使用

安装

基本使用

创建项目

生成爬虫

完善爬虫

保存数据

运行项目

CrawlSpider 与 Spider如何选择

爬虫之scrapy安装与基本使用的更多相关文章

随机推荐

热门专题

基本使用　

保存数据