Python 爬虫 —— scrapy
0. 创建网络爬虫的常规方法
进入命令行(操作系统的命令行,不是 python 的命令行)
- windows:
cmd⇒c:\Uses\Adminstrator> - Linux:
$
- windows:
执行:
scrapy startproject myfirstproj会自动创建一些文件:
- __init__.py items.py
- pipelines.py settings.py spiders
1. settings.py
settings.py 是爬虫的主要配置文件,其中的几个配置项为:
USER_AGENT(用户代理,简称 UA),也即向 http 发请求时,表明自己的身份,这里为了演示的需要,我们将其(真实身份是爬虫)伪造成浏览器,改成:
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'ROBOTSTXT_OBEY表示是否遵守robots协议(被封禁的不抓取),因为我们的目的不纯,所以我们不遵守,改成
ROBOTSTXT_OBEY = FalseDOWNLOAD_DELAY 表示对同一个站点抓取延迟,也就是抓一个,歇一会,再抓一个,再歇一会,为了对对方站点冲(yi)击(bei)太(fa)大(xian),我们调整为1,也就是一秒抓一个
CONCURRENT_REQUESTS_PER_DOMAIN 表示对同一个站点并发有多少个线程抓取,同样道理,我们也调整为 1
CONCURRENT_REQUESTS_PER_IP 同理也调整为 1
2. 爬虫程序的编写
接着我们进入 spiders 文件夹,创建第一个爬虫程序,如下:
import scrapy
class MySpider(scrapy.Spider):
name = 'zhang'
# 该项目名,启动时也用这个名字
allowed_domains= ['blog.csdn.net']
start_urls = [
'http://blog.csdn.net/lanchunhui'
]
# response.url ⇒ 'http://blog.csdn.net/lanchunhui'
def parse(self, response):
filename = response.url.split('/')[-2] + '.html'
with open(filename, 'wb') as f:
f.write(respobse.body)
这里面 start_urls 是初始抓取时的种子链接(seed),parse 方法在抓取完成后自动调用,会把抓取回来的 body 内容写到以 .html 为结尾的文件中。
然后退到上一级目录执行:
> scrapy crawl zhang
执行完成后会多出来一个 blog.csdn.net.html 文件,内容就是http://blog.csdn.net/lanchunhui 网页的内容
3. items.py
items.py 是抓取结果解析出来的结构体;
4. 页面解析
页面解析,这是所有的网络爬虫不能忽略的功能,而且是最核心的部分。python 库用于页面解析的有 BeautifulSoup(速度慢)和 Ixml(非标准库),Scrapy 基于 Ixml 实现了一套页面解析工具,叫做 Selectors。
其使用也十分简单,创建 TestSelectors.py 文件如下:
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
body = '<html><body>hello<span>world</span></body></html>'
span_text = Selector(text=body).xpath('//span/text()').extract()
print(span_text)
进入终端,执行:
> python TestSelectors.py
[u'world']
注意:
如果想获取文本,调用 selector 的 xpath 方法后要调用 extract() 方法
如果想找到第一个匹配 xpath 的内容,需要调用 extract_first() 方法
5. 调试页面解析
scrapy 提供了极为简单的页面解析方法,直接执行
> scrapy shell www.baidu.com
...
In [1]:
进入调试终端,可以直接使用 request、response 等变量来做各种操作尝试.
Python 爬虫 —— scrapy的更多相关文章
- python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
- python爬虫Scrapy(一)-我爬了boss数据
一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
- python爬虫scrapy项目详解(关注、持续更新)
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
- Python爬虫Scrapy框架入门(0)
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
- 安装python爬虫scrapy踩过的那些坑和编程外的思考
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时 ...
- Python 爬虫-Scrapy爬虫框架
2017-07-29 17:50:29 Scrapy是一个快速功能强大的网络爬虫框架. Scrapy不是一个函数功能库,而是一个爬虫框架.爬虫框架是实现爬虫功能的一个软件结构和功能组件集合.爬虫框架是 ...
- python爬虫scrapy学习之篇二
继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...
- Python爬虫Scrapy(二)_入门案例
本章将从案例开始介绍python scrapy框架,更多内容请参考:python学习指南 入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的Spider并提 ...
- python爬虫----scrapy框架简介和基础应用
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...
随机推荐
- EL表达式.md
操作符 描述 . 访问一个Bean属性或者一个映射条目 [] 访问一个数组或者链表的元素 ( ) 组织一个子表达式以改变优先级 + 加 - 减或负 * 乘 / or div 除 % or mod 取模 ...
- [Nuxt] Add Arrays of Data to the Vuex Store and Display Them in Vue.js Templates
You add array of todos to the store simply by adding them to the state defined in your store/index.j ...
- [Angular2 Router] Preload lzay loading modules
From router v3.1.0, we have preloading system with router. PreloadAllModules After the init module l ...
- 杭电ACM1197——Specialized Four-Digit Numbers
题目的意思是从2992開始的四位数.每个四位数的10.12,16进制的数的每一位加起来都相等,就输出该数. 非常easy的一道题目. 以下的是AC的代码: #include <iostream& ...
- PatentTips - Modified buddy system memory allocation
BACKGROUND Memory allocation systems assign blocks of memory on request. A memory allocation system ...
- 几种常见web 容器比较 (tomcat、 jboss 、resin、 weblogic、 websphere、 glassfish)(转)
点击打开PDF下载链接 web 容器比较 tomcat jboss resin weblogic websphere glassfish 1. Tomcat是Apache鼎力支持的Java Web应用 ...
- 【9207&&b701】统计数字(NOIP2007)
问题描述 某次科研调查时得到了n个自然数,每个数均不超过1500000000 (1.5*109).已知不相同的数不超过10000个,现在需要统计这些自然数各自出现的次数,并按照自然数从小到大的顺序输出 ...
- [Compose] 13. Lift into a Pointed Functor with of
We examine the of function we've seen on a few types and discover it's the Pointed interface. Instea ...
- 2016.3.14__CSS 定位__第六天
假设您认为这篇文章还不错.能够去H5专题介绍中查看很多其它相关文章. CSS 定位机制 CSS中一共同拥有三种基本定位机制:普通流.浮动.绝对定位. 假设不进行专门指定.全部的标签都在普通流中定位. ...
- NOIP 模拟 序列操作 - 无旋treap
题意: 一开始有n个非负整数h[i],接下来会进行m次操作,第i次会给出一个数c[i],要求选出c[i]个大于0的数并将它们-1,问最多可以进行多少次? 分析: 首先一个显然的贪心就是每次都将最大的c ...