0. 创建网络爬虫的常规方法

  • 进入命令行(操作系统的命令行,不是 python 的命令行)

    • windows:cmdc:\Uses\Adminstrator>
    • Linux:$
  • 执行:scrapy startproject myfirstproj

    会自动创建一些文件:

    • __init__.py items.py
    • pipelines.py settings.py spiders

1. settings.py

settings.py 是爬虫的主要配置文件,其中的几个配置项为:

  • USER_AGENT(用户代理,简称 UA),也即向 http 发请求时,表明自己的身份,这里为了演示的需要,我们将其(真实身份是爬虫)伪造成浏览器,改成:

    USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
  • ROBOTSTXT_OBEY表示是否遵守robots协议(被封禁的不抓取),因为我们的目的不纯,所以我们不遵守,改成

    ROBOTSTXT_OBEY = False
  • DOWNLOAD_DELAY 表示对同一个站点抓取延迟,也就是抓一个,歇一会,再抓一个,再歇一会,为了对对方站点冲(yi)击(bei)太(fa)大(xian),我们调整为1,也就是一秒抓一个

  • CONCURRENT_REQUESTS_PER_DOMAIN 表示对同一个站点并发有多少个线程抓取,同样道理,我们也调整为 1

  • CONCURRENT_REQUESTS_PER_IP 同理也调整为 1

2. 爬虫程序的编写

接着我们进入 spiders 文件夹,创建第一个爬虫程序,如下:

import scrapy
class MySpider(scrapy.Spider):
name = 'zhang'
# 该项目名,启动时也用这个名字
allowed_domains= ['blog.csdn.net']
start_urls = [
'http://blog.csdn.net/lanchunhui'
]
# response.url ⇒ 'http://blog.csdn.net/lanchunhui'
def parse(self, response):
filename = response.url.split('/')[-2] + '.html'
with open(filename, 'wb') as f:
f.write(respobse.body)

这里面 start_urls 是初始抓取时的种子链接(seed),parse 方法在抓取完成后自动调用,会把抓取回来的 body 内容写到以 .html 为结尾的文件中。

然后退到上一级目录执行:

> scrapy crawl zhang

执行完成后会多出来一个 blog.csdn.net.html 文件,内容就是http://blog.csdn.net/lanchunhui 网页的内容

3. items.py

items.py 是抓取结果解析出来的结构体;

4. 页面解析

页面解析,这是所有的网络爬虫不能忽略的功能,而且是最核心的部分。python 库用于页面解析的有 BeautifulSoup(速度慢)和 Ixml(非标准库),Scrapy 基于 Ixml 实现了一套页面解析工具,叫做 Selectors。

其使用也十分简单,创建 TestSelectors.py 文件如下:

from scrapy.selector import Selector
from scrapy.http import HtmlResponse
body = '<html><body>hello<span>world</span></body></html>'
span_text = Selector(text=body).xpath('//span/text()').extract()
print(span_text)

进入终端,执行:

> python TestSelectors.py
[u'world']

注意:

  1. 如果想获取文本,调用 selector 的 xpath 方法后要调用 extract() 方法

  2. 如果想找到第一个匹配 xpath 的内容,需要调用 extract_first() 方法

5. 调试页面解析

scrapy 提供了极为简单的页面解析方法,直接执行

> scrapy shell www.baidu.com
...
In [1]:

进入调试终端,可以直接使用 request、response 等变量来做各种操作尝试.

Python 爬虫 —— scrapy的更多相关文章

  1. python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

    操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...

  2. python爬虫Scrapy(一)-我爬了boss数据

    一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...

  3. python爬虫scrapy项目详解(关注、持续更新)

    python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...

  4. Python爬虫Scrapy框架入门(0)

    想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...

  5. [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍

    前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...

  6. 安装python爬虫scrapy踩过的那些坑和编程外的思考

    这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时 ...

  7. Python 爬虫-Scrapy爬虫框架

    2017-07-29 17:50:29 Scrapy是一个快速功能强大的网络爬虫框架. Scrapy不是一个函数功能库,而是一个爬虫框架.爬虫框架是实现爬虫功能的一个软件结构和功能组件集合.爬虫框架是 ...

  8. python爬虫scrapy学习之篇二

    继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...

  9. Python爬虫Scrapy(二)_入门案例

    本章将从案例开始介绍python scrapy框架,更多内容请参考:python学习指南 入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的Spider并提 ...

  10. python爬虫----scrapy框架简介和基础应用

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...

随机推荐

  1. OC学习篇之---Foundation框架中的NSString对象和NSMutableString对象

    今天在在来继续看一下Foundation框架中的常用对象:NSString和NSMutableString 在OC中NSString对象是不可变的,和Java中的String一样的,而NSMutabl ...

  2. c++读取lua配置基础类

    一.内容介绍 把lua作为配置文件,里面的参数值的获取,在他人基础上做了修改,并且补充了一维数组的处理方式. 若有不足之处请多多指教. 对于二维数组,没有成功.希望大家继续补充和修改,非常感谢! 二. ...

  3. 小型机与pc服务器区别

    按CPU的类型来区分,小型机是基于RISC(精简指令集)架构的专用服务器,而服务器是基于CISC(复杂指令集)架构的PC服务器.小型机相对于普通服务器来说,一直有不可比拟的优势.(1)如必能稳定,它具 ...

  4. windows关闭进程 批处理端口占用

    cmd 关闭进程java taskkill /F /IM java.exe taskkill /f /im java.exe 如何用dat批处理文件关闭某端口对应程序-Windows自动化命令 如何用 ...

  5. Lucene学习总结之三:Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读 评论(0) 收藏

    Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...

  6. [Docker] Prune Old Unused Docker Containers and Images

    In this lesson, we will look at docker container prune to remove old docker containers. We can also ...

  7. echart.gl.js实现动态3D柱状图

    echart.gl.js实现动态3D柱状图 一.总结 一句话总结:演示页面的源代码里面一定有所需的所有的js. 二.[js实践篇]——echart.gl.js实现动态3D柱状图 前言 本公司的项目需求 ...

  8. 不使用left-join等多表关联查询,只用单表查询和Java程序,简便实现“多表查询”效果

    上次我们提到,不使用left-loin关联查询,可能是为了提高效率或者配置缓存,也可以简化一下sql语句的编写.只写单表查询,sql真得太简单了.问题是,查询多个表的数据还是非常需要的. 因此,存在这 ...

  9. NSOperationQueue小结

    将建立的线程增加队列之中.他们都是并发运行的  假设想有一个线程在另外一个线程之后再运行的话 有一个方法能够实现- (void)addDependency:(NSOperation *)op; 这一个 ...

  10. error: invalid abbreviation code [25] for DIE at 0x0000003e in Assertion failed: (*offset_ptr == end_prologue_offset), function ParsePrologue, file /S

    error: invalid abbreviation code [25] for DIE at 0x0000003e in '/Users/mac/Desktop/MYiosfiles/test/X ...