Scrapy笔记01- 入门篇

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓取)所设计的，也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫。

　　Scrapy也能帮你实现高阶的爬虫框架，比如爬取时的网站认证、内容的分析处理、重复抓取、分布式爬取等等很复杂的事。

安装scrapy

　　我的测试环境是centos6.5

　　升级python到最新版的2.7，下面的所有步骤都切换到root用户

　　由于scrapy目前只能运行在python2上，所以先更新centos上面的python到最新的 Python 2.7.11，具体方法请google下很多这样的教程。

先安装一些依赖软件

yum install python-devel

yum install libffi-devel

yum install openssl-devel

然后安装pyopenssl库

pip install pyopenssl

安装xlml

yum install python-lxml

yum install libxml2-devel

yum install libxslt-devel

安装service-identity

pip install service-identity

安装twisted

pip install scrapy

安装scrapy

pip install scrapy -U

测试scrapy

scrapy bench

最终成功，太不容易了！

简单示例

　　创建一个python源文件，名为stackoverflow.py，内容如下：

import scrapy

class StackOverflowSpider(scrapy.Spider):

    name = 'stackoverflow'

    start_urls = ['http://stackoverflow.com/questions?sort=votes']

    def parse(self, response):

        for href in response.css('.question-summary h3 a::attr(href)'):

            full_url = response.urljoin(href.extract())

            yield scrapy.Request(full_url, callback=self.parse_question)

    def parse_question(self, response):

        yield {

            'title': response.css('h1 a::text').extract()[0],

            'votes': response.css('.question .vote-count-post::text').extract()[0],

            'body': response.css('.question .post-text').extract()[0],

            'tags': response.css('.question .post-tag::text').extract(),

            'link': response.url,

        }

运行：

scrapy runspider stackoverflow_spider.py -o top-stackoverflow-questions.json

结果类似下面：

[{

    "body": "... LONG HTML HERE ...",

    "link": "http://stackoverflow.com/questions/11227809/why-is-processing-a-sorted-array-faster-than-an-unsorted-array",

    "tags": ["java", "c++", "performance", "optimization"],

    "title": "Why is processing a sorted array faster than an unsorted array?",

    "votes": ""

},

{

    "body": "... LONG HTML HERE ...",

    "link": "http://stackoverflow.com/questions/1260748/how-do-i-remove-a-git-submodule",

    "tags": ["git", "git-submodules"],

    "title": "How do I remove a Git submodule?",

    "votes": ""

},

...]

　　当你运行scrapy runspider somefile.py这条语句的时候，Scrapy会去寻找源文件中定义的一个spider并且交给爬虫引擎来执行它。 start_urls属性定义了开始的URL，爬虫会通过它来构建初始的请求，返回response后再调用默认的回调方法parse并传入这个response。我们在parse回调方法中通过使用css选择器提取每个提问页面链接的href属性值，然后yield另外一个请求，并注册parse_question回调方法，在这个请求完成后被执行。

处理流程图：

　　Scrapy的一个好处是所有请求都是被调度并异步处理，就算某个请求出错也不影响其他请求继续被处理。

　　我们的示例中将解析结果生成json格式，你还可以导出为其他格式（比如XML、CSV），或者是将其存储到FTP、Amazon S3上。你还可以通过pipeline 将它们存储到数据库中去，这些数据保存的方式各种各样。

Scrapy特性一览

　　你已经可以通过Scrapy从一个网站上面爬取数据并将其解析保存下来了，但是这只是Scrapy的皮毛。 Scrapy提供了更多的特性来让你爬取更加容易和高效。比如：

内置支持扩展的CSS选择器和XPath表达式来从HTML/XML源码中选择并提取数据，还能使用正则表达式
提供交互式shell控制台试验CSS和XPath表达式，这个在调试你的蜘蛛程序时很有用
内置支持生成多种格式的订阅导出（JSON、CSV、XML）并将它们存储在多个位置（FTP、S3、本地文件系统）
健壮的编码支持和自动识别，用于处理外文、非标准和错误编码问题
可扩展，允许你使用signals 和友好的API(middlewares, extensions, 和pipelines)来编写自定义插件功能。
大量的内置扩展和中间件供使用：
- cookies and session handling
- HTTP features like compression, authentication, caching
- user-agent spoofing
- robots.txt
- crawl depth restriction
- and more
还有其他好多好东东，比如可重复利用蜘蛛来爬取Sitemaps和XML/CSV订阅，一个跟爬取元素关联的媒体管道来自动下载图片，一个缓存DNS解析器等等。

Scrapy笔记（1）- 入门篇的更多相关文章

微信小程序笔记整理--入门篇。
7-2 微信小程序入门篇准备篇 1.登录网址,https://mp.weixin.qq.com 注册一个微信小程序. 2.获取微信小程序appid,登录自己的小程序后台,在开发者设置中获得appid ...
Asp.Net Core学习笔记：入门篇
Asp.Net Core 学习基于.Net Core 2.2版本的学习笔记. 常识像Django那样自动检查代码更新,自动重载服务器(太方便了) dotnet watch run 托管设置设置项 ...
Sass学习笔记之入门篇
Sass又名SCSS,是CSS预处理器之一,,它能用来清晰地.结构化地描述文件样式,有着比普通 CSS 更加强大的功能. Sass 能够提供更简洁.更优雅的语法,同时提供多种功能来创建可维护和管理的样 ...
pytest 学习笔记一入门篇
前言之前做自动化测试的时候,用的测试框架为Python自带的unittest框架,随着工作的深入,发现了另外一个框架就是pytest (官方地址文档http://www.pytest.org/en/ ...
现代C++学习笔记之一入门篇：智能指针（C++ 11）
原始指针:通过new建立的*指针智能指针:通过智能指针关键字(unique_ptr, shared_ptr ,weak_ptr)建立的指针在现代 C++ 编程中,标准库包含智能指针,该指针用于确保 ...
[慕课笔记]mongodb入门篇
一:对mongodb有一个系统的完备的了解,只有概念清楚了,才能更好的使用二:学会mongodb数据库的搭建首先:了解如何部署数据库的服务搭建简单的单机服务到搭建具有冗余容错功能的复制集再到搭建 ...
vue框架学习笔记(vue入门篇)
vue框架 - 构建用户界面的渐进式框架 - 采用自底层向上增量开发的设计 - 核心库只关注视图层 - 当与单文件组件和vue生态系统支持的库结合使用时,也完全能够为复杂的单页应用程序提供驱动 - v ...
Scrapy笔记09- 部署
Scrapy笔记09- 部署本篇主要介绍两种部署爬虫的方案.如果仅仅在开发调试的时候在本地部署跑起来是很容易的,不过要是生产环境,爬虫任务量大,并且持续时间长,那么还是建议使用专业的部署方法.主要是 ...
jQuery学习笔记 - 基础知识扫盲入门篇
jQuery学习笔记 - 基础知识扫盲入门篇 2013-06-16 18:42 by 全新时代, 11 阅读, 0 评论, 收藏, 编辑 1.为什么要使用jQuery? 提供了强大的功能函数解决浏览器 ...

随机推荐

100教程-100jc.cn
个人编程笔记网站(持续更新) http://100jc.cn
Oracle Hint用法整理笔记
目录 1./+ result_cache / 2./+ connect_by_filtering / 3./+ no_unnset / 4./+ index(表别名索引名) / 5./+ INDEX ...
ext.net 这两个id不是同一个对象，小心！
今天遇到了一个很奇怪的问题,查到最后发现是下面代码原因代码中使用store存储js对象 mcp_liststore.data.items[3].id mcp_liststore.data.get(3 ...
通过消息总线Spring Cloud Bus实现配置文件刷新（使用Kafka或RocketMQ）
如果需要客户端获取到最新的配置信息需要执行refresh,我们可以利用webhook的机制每次提交代码发送请求来刷新客户端,当客户端越来越多的时候,需要每个客户端都执行一遍,这种方案就不太适合了.使用 ...
像修改本机代码一样修改远端服务器的PHP网站
映射vps目录到自己电脑的摸索记录最近拿discuz做了一个网站,需要修改模板文件之类的,还需要调试微信和QQ登陆的接口.都是些位置零散的小修改,但是有些需要在线上才能调试(QQ微信的oauth登陆 ...
Bootstrap3-导航
Bootstrap 导航 1. 定义导航组件基本结构:  <ul class="nav"> <li class=&qu ...
连root也干不掉的文件
在你的印象中,是不是root用户就可以为所欲为呢?随便一个rm -rf *,一波骚操作走人?可能没那么容易. 来啊,删我啊! 先来个示例,创建一个文本文件test.txt $ touch test.t ...
vi/vim的快捷操作(2)
1.拷贝当前行[yy],拷贝当前行向下的5行[5yy],并粘贴[p] 2.删除当前行[dd],删除当前行向下的5行[5dd] 3.在文件中查找某个单词,命令行模式下输入[/关键字],回车查找,输入[n ...
Spring MVC处理参数Convert
Springmvc.xml 配置convert,xml中配置多个相同的泛型时,xml里配置的convert会从上到下挨个执行.  < ...
Spring Boot 使用 JWT 进行身份和权限验证
上周写了一个适合初学者入门 Spring Security With JWT 的 Demo,这篇文章主要是对代码中涉及到的比较重要的知识点的说明. 适合初学者入门 Spring Security W ...

Scrapy笔记（1）- 入门篇

Scrapy笔记01- 入门篇

安装scrapy

先安装一些依赖软件

然后安装pyopenssl库

安装xlml

安装service-identity

安装twisted

安装scrapy

测试scrapy

简单示例

Scrapy特性一览

Scrapy笔记（1）- 入门篇的更多相关文章

随机推荐

热门专题