Scrapy是一个流行的Python爬虫框架, 用途广泛.

使用pip安装scrapy:

pip install scrapy

scrapy由一下几个主要组件组成:

scheduler: 调度器, 决定下一个要抓取的url, 核心是一个任务队列
scrapy engine: 引擎, 用于控制整个系统的任务和数据流
downloader: 下载器, 下载目标url的内容并交给spider处理
spider: 爬虫, 用于分析下载内容, 提取数据项(item)包括获取要继续爬取的url.
pipeline: 项管道, 接受spider获得item并进行处理.
downloader middleware: 下载器中间件, 处理engine与downloader之间的请求响应
spider middleware: 爬虫中间件, 处理engine与spider之间的数据流
scheduler middleware: 调度器中间件, 处理engine与scheduler之间的数据流

首先engine从scheduler中获得一项任务(url), 并将其封装为一个请求(request)交给downloader.

downloader下载链接内容, 封装为响应(response)交给spider,spider获得item交给pipeline进行处理, 并将需要继续爬取的url交给scheduler.

scrapy使用twisted提供的网络IO异步支持, 性能出色.

第一个Scrapy爬虫

在实际编写爬虫之前,首先要建立一个项目. 在项目目录的父目录中执行命令:

scrapy startproject ScrapyDemo

建立一个名为ScrapyDemo的项目, 目录结构如下:

|- scrapy.cfg

|- ScrapyDemo

	|- __init__.py

    |- items.py

    |- pipelines.py

    |- settings.py

    |- spiders

    	|- __init__.py

spider用于解析页面内容, 生成item.

在spiders包下建立python脚本MySpider:

from scrapy import Spider

class MySpider(Spider):

    name = "cnblogs"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        "http://www.cnblogs.com/Finley/",

    ]

    def parse(self, response):

        filename = response.url.split("/")[-2]

        with open(filename, 'wb') as f:

            f.write(response.body)

重写Spider类需要定义几个必须的成员:

name: spider的名字, 必须是唯一的
start_urls: 起始的url, 爬取时首先从该列表中开始爬取.从这些页面中得到的复合要求的url将被添加到队列中.
parse(): 负责解析downloader得到的response, 得到items交给pipeline处理.当然上述示例中只是保存了爬取的内容.

parse方法是spider的核心, parse方法可以yield或返回两类对象:

scrapy.item.Item: item实例将被送入Pipeline进行处理
scrapy.Request: 请求将加入任务队列, 常用于爬取页内链接

在项目根目录中执行命令开始爬取:

scrapy crawl cnblogs

使用selector分析内容

在spider.parse中使用选择器(selector)来解析html(xml), selector采用XPath表达式来选择XML中的元素.

    def parse(self, response):

        for e in response.xpath('//ul/li'):

            title = e.xpath('a/text()').extract()

            link = e.xpath('a/@href').extract()

            desc = e.xpath('text()').extract()

            print title, link, desc

选择器提供了四个方法:

xpath(pattern): 通过xpath选择元素
css(pattern): 通过css选择元素
extract(): 从元素中提取内容字符串
re(pattern): 使用正则表达式提取内容, 返回匹配的字符串

常用xpath表达式:

'html/head/title' 选择HTML文档中<head>标签内的<title>元素
'/html/head/title/text()': 选择<title>元素内的文本
'//div' 选择所有<div>元素
'//div[@class="panel"]' 选取class属性panel的<div>元素.
'//div[@id=d1]'; 选取id属性为d1的<div>元素.

css()方法则是使用css选择器进行选择:

'#id': id选择器
'.class' class选择器
'div' 标签选择器

更多关于XPath的内容参见菜鸟教程

更多关于Selector的讲解

使用 item

item的行为类似dict, 用于存储spider解析得到的数据:

from scrapy.item import Item, Field

class MyItem(Item):

	name = Field()

    content = Field()

    url = Field()

在spider.parse中将结果以item的形式返回:

def parse(self, response):

    items = []

    for post in response.xpath('//a[@class="postTitle2"]'):

        item = MyItem()

        name = post.xpath('text()').extract()[0]

        url = post.xpath('@href').extract()[0]

        print('post:', name, url)

        item['name'] = name

        item['url'] = url

        items.append(item)

    return items

更多关于item的内容参见这里

使用Item PipeLine

定义一个Python类,然后实现process_item(self, item, spider)方法即可作为一个PipeLine中一个过滤器的实现.

process_item的item参数为要处理的项目, spider则是相应的spider对象.process_item返回的item对象将交给下个过滤器处理, 或者或者抛出DropItem异常丢弃这个item.

from scrapy.exceptions import DropItem

class StopWordPipeline:

	def process_item(self, item, spider):

    	if item['name'] in stop_words:

        	raise DropItem(item['name'])

	return item

注册item只需要在settings.py中添加:

ITEM_PIPELINES = {

    'ScrapyDemo.StopWordPipeline': 300,

    'ScrapyDemo.JsonWriterPipeline': 800,

}

值表示Pipeline的执行顺序，从低到高执行，范围0-1000.

Scrapy Shell

scrapy使用engine调度spider, 不便于调试.scrapy提供了shell, 在python shell环境中建立上下文以便于调试. 启动shell:

scrapy shell <url>

url为要爬取的网址.终端中建立了相关对象:

crawler: 当前 Crawler 对象.
spider : 处理URL的spider。对当前URL没有处理的Spider时则为一个 Spider 对象。
request : 最近获取到的页面的 Request 对象。您可以使用 replace() 修改该request。或者使用 fetch 快捷方式来获取新的request。
response: 包含最近获取到的页面的 Response 对象。
sel : 根据最近获取到的response构建的 Selector 对象。
settings - 当前的 Scrapy settings

可以在shell下调试选择器:

$scrapy shell www.cnblogs.com/Finley

>>> response

<200 http://www.cnblogs.com/Finley>

>>> response.xpath('//a[@class="postTitle2"]')

...

scrapy.org

Python爬虫框架Scrapy的更多相关文章

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
Python爬虫框架Scrapy获得定向打击批量招聘信息
爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这样的说法不够专业,更专业的描写叙述就是.抓取特定站点网页的HTML数据.只是因为一个站点的网页非常多,而我们又不可能事先知道全部网页的URL地址, ...
Python爬虫框架Scrapy安装使用步骤
一.爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python ...

随机推荐

Gitlab 赋予某台机器git clone的权限 Deploy key
开发项目CI(持续化部署)的时候,需要赋予jeckins所在的机器从gitlab远程仓库克隆代码到本地的权限. 之前我们基本都是通过管理gitlab某个项目的成员的方式,管理gitlab的权限. 但是 ...
[jquery]如何实现页面单块DIV区域滚动展示
// 未实现功能的代码 1(自己写的代码) var _cur_top = $(window).scrollTop(); var num = $(".class_section"). ...
64位进程调用32位dll的解决方法
64位进程调用32位dll的解决方法最近做在Windows XP X64,VS2005环境下做32位程序编译为64位程序的工作,遇到了一些64位编程中可能遇到的问题:如内联汇编(解决方法改为C/ ...
[译]C#和.NET中的字符串
原文地址:Jon Skeet:Strings in C# and .NET System.String 类型(在C#语言中对应的别名是string)是.NET最重要的类型之一,不幸的是在它身上存在了太 ...
C#项目学生选课系统 C#窗口 Winform项目项目源码及使用说明
这是一个学生选课信息管理系统,使用VS2010+SQL2008编写,VS2017正常使用. 项目源码下载地址 https://gitee.com/whuanle/xkgl 笔者录了两个视频,打开项目源 ...
GridControl简单属性操作
1.单行记录整行选中 GridView->OptionsBehavior->EditorShowMode 设置为:Click 2.如何让行只能选择而不能编辑(或编辑某一单元格) 只读 Gr ...
MVC5控制器传值的三种方式（ViewData，ViewBag，TempData），刚刚学习MVC5的新手，希望各位大神多多指教
mvc传值的三种方式:1.ViewData 在使用过程中需要类型转换例子: ViewData["MyTitle"]="ViewData传值"; 引用: @Vi ...
ROC，AUC，Precision，Recall，F1的介绍与计算
1. 基本概念 1.1 ROC与AUC ROC曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,ROC曲线称为受试者工作特征曲线 (receiver operatin ...
Redis---基础数据结构
1.String(字符串) 1.1 概述字符串 string 是 Redis 最简单的数据结构.Redis 所有的数据结构都是以唯一的 key 字符串作为名称,然后通过这个唯一 key 值来获取相应 ...
MyBatis框架介绍及其实操
一.基本概念和介绍数据持久化的概念数据持久化是将内存中的数据模型转换为存储模型,以及将存储模型转换为内存中的数据模型的统称.例如,文件的存储.数据的读取等都是数据持久化操作.数据模型可以是任何数据 ...

Python爬虫框架Scrapy