scrapy基础教程
1. 安装Scrapy包
- pip install scrapy, 安装教程
- Mac下可能会出现:OSError: [Errno 13] Permission denied: '/Library/Python/2.7/site-packages/pyasn1'
- 应该是权限问题,解决方案:sudo pip install scrapy
2. 使用教程
1. 创建一个Scrapy工程
scrapy startproject tutorial
tutorial/
scrapy.cfg # 配置文件
tutorial/ # 工程的python模块,你将从这里引入你的代码
__init__.py
items.py # 工程的项目文件
pipelines.py # 工程的流水线文件
settings.py # 工程的设置文件
spiders/ # 你将安放爬虫程序的目录
__init__.py
2. 定义Item
- Items是将要被爬虫数据加载的容器,工作方式类似于Python的字典(dict),在Scrapy中,也可以使用原生的Python字典,但是Iterms提供了一些额外的保护机制防止写未申明的域和防止拼写错误。
- 创建一个scrapy.Item类,然后定义它的属性scrapy.Field(),类似于ORM(关系对象模型)
- 爬quotes.toscrape.com中的文本和作者为例,在items.py中编辑如下代码:
import scrapy
class QuoteItem(scrapy.Item):
text = scrapy.Field()
author = scrapy.Field()
3. 定义爬虫程序
创建一个爬虫,首先要继承scrapy.Spider,并且定义一些属性:
- name: 定义这个爬虫的名字,在同一个工程中必须是唯一的。
- start_urls: 开始爬虫的url列表
- parse(): 定义爬虫的方法,也叫做下载每个url的响应(Response)对象,response作为此方法第一个也是唯一一个参数。 此方法的主要作用是:解析响应数据和提取爬取数据中更多的url
- 在spiders目录中创建quotes_spider.py文件,并编写以下代码:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
def parse(self, response):
filename = 'quotes-' + response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
4. 开始爬虫
在工程的顶层目录执行以下命令:
scrapy crawl quotes
解释过程:其实是对start_urls中的链接进行http请求,然后对请求的结果进行解析,也就是执行parse()函数。
5. 提取其中的Item
(1). 引入选择器(Selectors)
有许多方法从web页面中提取数据,Scrapy采用的是一种基于XPath和CSS表达式的机制,叫做Scrapy Selector。
以下是几个XPath的表达式及其含义:
- /html/head/title : 从html标签中的head标签中选择title元素, 等价的CSS选择器: html > head > title
- /html/head/title/text() : 选择title中的text, 等价的CSS选择器:html > head > title ::text
- //td : 从文档中选择所有的
元素, 等价的CSS选择器: td - //div[@class="mine"] : 选择一个包含属性 class="mine"的div, 等价的CSS选择器: div.mine, @表示属性
CSS VS XPath: 提取数据可以只用CSS选择器,但是XPath的功能更加强大,因为除了可以定位结构以外,它还可以查询内容,例如选择那些链接内容中包含"Next Page"的链接。所以鼓励使用XPath。
为了方便CSS和XPath的表达,Scrapy提供了Selector类和方便的快捷键来避免当每次从响应中选择某些文本时候都自己写选择器。
你可以将选择器看作是文档结构中表示节点的对象。所以第一个需要写的选择器是和根节点有关的。
选择器有以下四个基本的方法:- xpath(): 返回一个选择器列表,每一个都表示xpath表达式作为参数选择的节点。
- css(): 返回一个选择列表,同上。
- extract(): 返回选择数据的统一编码字符串。
- re(): 返回一个利用正则表达式作为参数所提取的统一编码的字符串的列表。
(2). 在shell中尝试选择器
好处就是可以直接得到一个response变量,然后可以直接执行一些选择器即可看到响应的结果,例如:
scrapy shell "http://quotes.toscrape.com"(链接一定要用引号引起来)[ ... Scrapy log here ... ] 2016-09-01 18:14:39 [scrapy] DEBUG: Crawled (200) <GET http://quotes.toscrape.com> (referer: None)
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x109001c90>
[s] item {}
[s] request <GET http://quotes.toscrape.com>
[s] response <200 http://quotes.toscrape.com>
[s] settings <scrapy.settings.Settings object at 0x109001610>
[s] spider <DefaultSpider 'default' at 0x1092808d0>
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser >>> In [1]: response.xpath('//title')
Out[1]: [<Selector xpath='//title' data=u'<title>Quotes to Scrape</title>'>] In [2]: response.xpath('//title').extract()
Out[2]: [u'<title>Quotes to Scrape</title>'] In [3]: response.xpath('//title/text()')
Out[3]: [<Selector xpath='//title/text()' data=u'Quotes to Scrape'>] In [4]: response.xpath('//title/text()').extract()
Out[4]: [u'Quotes to Scrape'] In [11]: response.xpath('//title/text()').re('(\w+)')
Out[11]: [u'Quotes', u'to', u'Scrape']
(3). 提取数据
代码如下:
import scrapy class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
"http://quotes.toscrape.com/page/1/",
"http://quotes.toscrape.com/page/2/",
] def parse(self, response):
for quote in response.xpath('//div[@class="quote"]'):
text = quote.xpath('span[@class="text"]/text()').extract_first()
author = quote.xpath('span/small/text()').extract_first()
print(u'{}: {}'.format(author, text))
(4). 利用我们的Item
代码如下:
import scrapy
from tutorial.items import QuoteItem class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
] def parse(self, response):
for quote in response.xpath('//div[@class="quote"]'):
item = QuoteItem()
item['text'] = quote.xpath('span[@class="text"]/text()').extract_first()
item['author'] = quote.xpath('span/small/text()').extract_first()
yield item
(5). 跟踪链接
代码如下:
import scrapy
from tutorial.items import QuoteItem class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
] def parse(self, response):
for quote in response.xpath('//div[@class="quote"]'):
item = QuoteItem()
item['text'] = quote.xpath('span[@class="text"]/text()').extract_first()
item['author'] = quote.xpath('span/small/text()').extract_first()
yield item
next_page = response.xpath('//li[@class="next"]/a/@href').extract_first()
if next_page:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)
(6). 存储爬到的数据
scrapy crawl quotes -o items.json将产生items.json文件,并且是JSON格式的数据。
在大的项目中,可能需要写Item Pipeline.scrapy基础教程的更多相关文章
- 0.Python 爬虫之Scrapy入门实践指南(Scrapy基础知识)
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
- matlab基础教程——根据Andrew Ng的machine learning整理
matlab基础教程--根据Andrew Ng的machine learning整理 基本运算 算数运算 逻辑运算 格式化输出 小数位全局修改 向量和矩阵运算 矩阵操作 申明一个矩阵或向量 快速建立一 ...
- <<Bootstrap基础教程>> 新书出手,有心栽花花不开,无心插柳柳成荫
并非闲的蛋疼,做技术也经常喜欢蛋疼,纠结于各种技术,各种需求变更,还有一个很苦恼的就是UI总是那么不尽人意.前不久自己开源了自己做了多年的仓储项目(开源地址:https://github.com/he ...
- Memcache教程 Memcache零基础教程
Memcache是什么 Memcache是danga.com的一个项目,来分担数据库的压力. 它可以应对任意多个连接,使用非阻塞的网络IO.由于它的工作机制是在内存中开辟一块空间,然后建立一个Hash ...
- Selenium IDE 基础教程
Selenium IDE 基础教程 1.下载安装 a 在火狐浏览其中搜索附件组件,查找 Selenium IDE b 下载安装,然后重启firefox 2.界面讲解 在菜单- ...
- html快速入门(基础教程+资源推荐)
1.html究竟是什么? 从字面上理解,html是超文本标记语言hyper text mark-up language的首字母缩写,指的是一种通用web页面描述语言,是用来描述我们打开浏览器就能看到的 ...
- [转]Scrapy入门教程
关键字:scrapy 入门教程 爬虫 Spider 作者:http://www.cnblogs.com/txw1958/ 出处:http://www.cnblogs.com/txw1958/archi ...
- 转发-UI基础教程 – 原生App切图的那些事儿
UI基础教程 – 原生App切图的那些事儿 转发:http://www.shejidaren.com/app-ui-cut-and-slice.html 移动APP切图是UI设计必须学会的一项技能,切 ...
- 【Unity3D基础教程】给初学者看的Unity教程(四):通过制作Flappy Bird了解Native 2D中的RigidBody2D和Collider2D
作者:王选易,出处:http://www.cnblogs.com/neverdie/ 欢迎转载,也请保留这段声明.如果你喜欢这篇文章,请点[推荐].谢谢! 引子 在第一篇文章[Unity3D基础教程] ...
随机推荐
- ibatis输入多个参数
ibatis输入多个参数 在ibatis中,会发现其输入参数只能有一个,于是当出现需要进行多个输入参数的时候,就要想点办法了,我看到的有以下两种比较好的方法能够解决这个问题1) 用String ...
- appframework3.0(JQmobi)入门教程
2015-03-31 22:02 2011人阅读 评论(0) 收藏 举报 版权声明:本文为博主原创文章,未经博主允许不得转载. appframework3.0好像是3月24日发布的,今天31号,发现和 ...
- Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
- 与资源库同步时,我的svn报错 Previous operation has not finished; run 'cleanup' if it was interrupted
解决办法:选择你的项目,右键,小组(Team),刷新或清理(Refresh or Clean)即可.
- Apache+Tomcat实现负载均衡
反向代理负载均衡 (Apache2+Tomcat7/8) 使用代理服务器可以将请求转发给内部的Web服务器,让代理服务器将请求均匀地转发给多台内部Web服务器之一上,从而达到负载均衡的目的.这种代理方 ...
- mysql 常用语句模板
插入INSERT IGNORE INTO test (`f1`, `f2`, `f3`) VALUES (v1,v2,v3); 更新update test set f1=v1,f2=v2 where ...
- 五步教你实现使用Nginx+uWSGI+Django方法部署Django程序
Django的部署可以有很多方式,采用nginx+uwsgi的方式是其中比较常见的一种方式. 在这种方式中,我们的通常做法是,将nginx作为服务器最前端,它将接收WEB的所有请求,统一管理请求.ng ...
- python 学习(二)--关于类
1.没有权限控制,在类方法或变量前加 "__" 两下划线,则变为"私有"变量(实际通过_<类名>__<变量或方法名> 可以访问) 2.类 ...
- centos5安装salt-master
本篇文档主要解决2个问题: 1. centos5通过yum安装的master版本肯定低于centos6安装的minion,所以必须升级salt-master 2. zeromq版本太低会报这个错 20 ...
- [译]Dynamics AX 2012 R2 BI系列-分析的架构
https://msdn.microsoft.com/EN-US/library/dd309691.aspx 下图显示了包含在AX中的SSAS Cube,和用于访问他们的组件. 下面的 ...