Python 爬虫 —— scrapy
0. 创建网络爬虫的常规方法
进入命令行(操作系统的命令行,不是 python 的命令行)
- windows:
cmd⇒c:\Uses\Adminstrator> - Linux:
$
- windows:
执行:
scrapy startproject myfirstproj会自动创建一些文件:
- __init__.py items.py
- pipelines.py settings.py spiders
1. settings.py
settings.py 是爬虫的主要配置文件,其中的几个配置项为:
USER_AGENT(用户代理,简称 UA),也即向 http 发请求时,表明自己的身份,这里为了演示的需要,我们将其(真实身份是爬虫)伪造成浏览器,改成:
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'ROBOTSTXT_OBEY表示是否遵守robots协议(被封禁的不抓取),因为我们的目的不纯,所以我们不遵守,改成
ROBOTSTXT_OBEY = FalseDOWNLOAD_DELAY 表示对同一个站点抓取延迟,也就是抓一个,歇一会,再抓一个,再歇一会,为了对对方站点冲(yi)击(bei)太(fa)大(xian),我们调整为1,也就是一秒抓一个
CONCURRENT_REQUESTS_PER_DOMAIN 表示对同一个站点并发有多少个线程抓取,同样道理,我们也调整为 1
CONCURRENT_REQUESTS_PER_IP 同理也调整为 1
2. 爬虫程序的编写
接着我们进入 spiders 文件夹,创建第一个爬虫程序,如下:
import scrapy
class MySpider(scrapy.Spider):
name = 'zhang'
# 该项目名,启动时也用这个名字
allowed_domains= ['blog.csdn.net']
start_urls = [
'http://blog.csdn.net/lanchunhui'
]
# response.url ⇒ 'http://blog.csdn.net/lanchunhui'
def parse(self, response):
filename = response.url.split('/')[-2] + '.html'
with open(filename, 'wb') as f:
f.write(respobse.body)
这里面 start_urls 是初始抓取时的种子链接(seed),parse 方法在抓取完成后自动调用,会把抓取回来的 body 内容写到以 .html 为结尾的文件中。
然后退到上一级目录执行:
> scrapy crawl zhang
执行完成后会多出来一个 blog.csdn.net.html 文件,内容就是http://blog.csdn.net/lanchunhui 网页的内容
3. items.py
items.py 是抓取结果解析出来的结构体;
4. 页面解析
页面解析,这是所有的网络爬虫不能忽略的功能,而且是最核心的部分。python 库用于页面解析的有 BeautifulSoup(速度慢)和 Ixml(非标准库),Scrapy 基于 Ixml 实现了一套页面解析工具,叫做 Selectors。
其使用也十分简单,创建 TestSelectors.py 文件如下:
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
body = '<html><body>hello<span>world</span></body></html>'
span_text = Selector(text=body).xpath('//span/text()').extract()
print(span_text)
进入终端,执行:
> python TestSelectors.py
[u'world']
注意:
如果想获取文本,调用 selector 的 xpath 方法后要调用 extract() 方法
如果想找到第一个匹配 xpath 的内容,需要调用 extract_first() 方法
5. 调试页面解析
scrapy 提供了极为简单的页面解析方法,直接执行
> scrapy shell www.baidu.com
...
In [1]:
进入调试终端,可以直接使用 request、response 等变量来做各种操作尝试.
Python 爬虫 —— scrapy的更多相关文章
- python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
- python爬虫Scrapy(一)-我爬了boss数据
一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
- python爬虫scrapy项目详解(关注、持续更新)
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
- Python爬虫Scrapy框架入门(0)
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
- 安装python爬虫scrapy踩过的那些坑和编程外的思考
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时 ...
- Python 爬虫-Scrapy爬虫框架
2017-07-29 17:50:29 Scrapy是一个快速功能强大的网络爬虫框架. Scrapy不是一个函数功能库,而是一个爬虫框架.爬虫框架是实现爬虫功能的一个软件结构和功能组件集合.爬虫框架是 ...
- python爬虫scrapy学习之篇二
继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...
- Python爬虫Scrapy(二)_入门案例
本章将从案例开始介绍python scrapy框架,更多内容请参考:python学习指南 入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的Spider并提 ...
- python爬虫----scrapy框架简介和基础应用
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...
随机推荐
- OC学习篇之---Foundation框架中的NSString对象和NSMutableString对象
今天在在来继续看一下Foundation框架中的常用对象:NSString和NSMutableString 在OC中NSString对象是不可变的,和Java中的String一样的,而NSMutabl ...
- c++读取lua配置基础类
一.内容介绍 把lua作为配置文件,里面的参数值的获取,在他人基础上做了修改,并且补充了一维数组的处理方式. 若有不足之处请多多指教. 对于二维数组,没有成功.希望大家继续补充和修改,非常感谢! 二. ...
- 小型机与pc服务器区别
按CPU的类型来区分,小型机是基于RISC(精简指令集)架构的专用服务器,而服务器是基于CISC(复杂指令集)架构的PC服务器.小型机相对于普通服务器来说,一直有不可比拟的优势.(1)如必能稳定,它具 ...
- windows关闭进程 批处理端口占用
cmd 关闭进程java taskkill /F /IM java.exe taskkill /f /im java.exe 如何用dat批处理文件关闭某端口对应程序-Windows自动化命令 如何用 ...
- Lucene学习总结之三:Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读 评论(0) 收藏
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
- [Docker] Prune Old Unused Docker Containers and Images
In this lesson, we will look at docker container prune to remove old docker containers. We can also ...
- echart.gl.js实现动态3D柱状图
echart.gl.js实现动态3D柱状图 一.总结 一句话总结:演示页面的源代码里面一定有所需的所有的js. 二.[js实践篇]——echart.gl.js实现动态3D柱状图 前言 本公司的项目需求 ...
- 不使用left-join等多表关联查询,只用单表查询和Java程序,简便实现“多表查询”效果
上次我们提到,不使用left-loin关联查询,可能是为了提高效率或者配置缓存,也可以简化一下sql语句的编写.只写单表查询,sql真得太简单了.问题是,查询多个表的数据还是非常需要的. 因此,存在这 ...
- NSOperationQueue小结
将建立的线程增加队列之中.他们都是并发运行的 假设想有一个线程在另外一个线程之后再运行的话 有一个方法能够实现- (void)addDependency:(NSOperation *)op; 这一个 ...
- error: invalid abbreviation code [25] for DIE at 0x0000003e in Assertion failed: (*offset_ptr == end_prologue_offset), function ParsePrologue, file /S
error: invalid abbreviation code [25] for DIE at 0x0000003e in '/Users/mac/Desktop/MYiosfiles/test/X ...