Python下用Scrapy和MongoDB构建爬虫系统(1)
本文由 伯乐在线 - 木羊 翻译,xianhu 校稿。未经许可,禁止转载!
英文出处:realpython.com。欢迎加入翻译小组。
这篇文章将根据真实的兼职需求编写一个爬虫,用户想要一个Python程序从Stack Overflow抓取数据,获取新的问题(问题标题和URL)。抓取的数据应当存入MongoDB。值得注意的是,Stack Overflow已经提供了可用于读取同样数据的API。但是用户想要一个爬虫,那就给他一个爬虫。
像往常一样,在开始任何抓取工作前,一定要先查看该网站的使用/服务条款,要尊重 robots.txt 文件。抓取行为应该遵守道德,不要在很短时间内发起大量请求,从而导致网站遭受泛洪攻击。对待那些你要抓取的网站,要像对待自己的一样。
安装
我们需要Scrapy库(v0.24.4),以及用于在MongoDB中存储数据的PyMongo库(v2.7.2)。同样需要安装MongoDB。
Scrapy
如果使用OSX或某种Linux,使用pip安装Scrapy(激活命令行):
|
1
|
$ pip install Scrapy |
如果使用Windows的机器,你需要手动安装一堆依赖库(木羊吐槽:Win下也是有pip的po主你不要黑她,经测可以用上面命令直接安装成功)。请参考官方文档详细说明以及我创建的Youtube视频。
一旦Scrapy安装完毕,可在Python命令行中使用这个命令验证:
|
1
2
|
>>> import scrapy>>> |
如果没有出错,安装就完成了。
PyMongo
下一步,使用pip安装PyMongo:
|
1
|
$ pip install pymongo |
现在可以开始构建爬虫了。
Scrapy工程
先创建一个新的Scrapy工程:
|
1
|
$ scrapy startproject stack |
这条命令创建了许多文件和文件夹,其中包含一套有助于你快速开始的基本模板:
|
1
2
3
4
5
6
7
8
|
├── scrapy.cfg└── stack ├── __init__.py ├── items.py ├── pipelines.py ├── settings.py └── spiders └── __init__.py |
提取数据
items.py文件用于定义存储“容器”,用来存储将要抓取的数据。
StackItem()类继承自Item (文档),主要包含一些Scrapy已经为我们创建好的预定义对象:
|
1
2
3
4
5
6
|
import scrapyclass StackItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() pass |
添加一些想要收集的项。用户想要每条问题的标题和URL。那么,照这样更新items.py:
|
1
2
3
4
5
|
from scrapy.item import Item, Fieldclass StackItem(Item): title = Field() url = Field() |
创建蜘蛛
在“spiders”目录下建立一个名为stack_spider.py的文件。这里是见证奇迹发生的地方—-比如在这里告诉Scrapy怎么去找到我们想要的指定数据。正如你想的那样,对于每一个独立的网页,stack_spider.py都是不同的。
我们从定义一个类开始,这个类继承Scrapy的Spider,并添加一些必须的属性:
|
1
2
3
4
5
6
7
8
9
|
from scrapy import Spiderclass StackSpider(Spider): name = "stack" allowed_domains = ["stackoverflow.com"] start_urls = [ "http://stackoverflow.com/questions?pagesize=50&sort=newest", ] |
最初一些变量的含义很容易理解(文档):
- 定义蜘蛛的名字。
allowed_domains包含构成许可域的基础URL,供蜘蛛去爬。start_urls是一个URL列表,蜘蛛从这里开始爬。蜘蛛从start_urls中的URL下载数据,所有后续的URL将从这些数据中获取。
XPath选择器
接下来,Scrapy使用XPath选择器在一个网站上提取数据。也就是说,我们可以通过一个给定的XPath选择HTML数据的特定部分。正如Scrapy所称,“XPath是一种选择XML节点的语言,也可以用于HTML。”
使用Chrome的开发者工具,可以很容易找到一个特定的Xpath。简单地检查一个特定的HTML元素,复制XPath,然后修改(如有需要)。

开发者工具同时为用户提供在JavaScript控制台测试XPath选择器的功能,使用$x,如$x("//img"):

继续,通过定义的XPath告诉Scrapy去哪里寻找信息。在Chrom中导航至Stack Overflow网址,寻找XPath选择器。

右键点击第一条问题,选择“插入元素”:
现在从<div class="summary">, //*[@id="question-summary-27624141"]/div[2]中抓取XPath,然后在JavaScript控制台测试它:

也许你会说,这只选择了一条问题。现在需要改变XPath去抓取所有的问题。有什么想法?很简单://div[@class="summary"]/h3。
什么意思呢?本质上,这条XPath是说:抓取<div>的子树中所有这一类<h3>元素的总集。在JavaScript控制台中测试XPath。
请注意我们不会使用Chrome开发者工具的实际输出。在大多数案例中,这些输出仅仅是一个参考,便于直接找到能用的XPath。
现在更新stack_spider.py脚本:
|
1
2
3
4
5
6
7
8
9
10
11
12
13
|
from scrapy import Spiderfrom scrapy.selector import Selectorclass StackSpider(Spider): name = "stack" allowed_domains = ["stackoverflow.com"] start_urls = [ "http://stackoverflow.com/questions?pagesize=50&sort=newest", ] def parse(self, response): questions = Selector(response).xpath('//div[@class="summary"]/h3') |
提取数据
我们仍然需要解析和抓取想要的数据,它符合<div class="summary"><h3>。继续,像这样更新stack_spider.py:
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
from scrapy import Spiderfrom scrapy.selector import Selectorfrom stack.items import StackItemclass StackSpider(Spider): name = "stack" allowed_domains = ["stackoverflow.com"] start_urls = [ "http://stackoverflow.com/questions?pagesize=50&sort=newest", ] def parse(self, response): questions = Selector(response).xpath('//div[@class="summary"]/h3') for question in questions: item = StackItem() item['title'] = question.xpath( 'a[@class="question-hyperlink"]/text()').extract()[0] item['url'] = question.xpath( 'a[@class="question-hyperlink"]/@href').extract()[0] yield item |
我们将遍历问题,从抓取的数据中分配标题和URL的值。一定要利用Chrome开发者工具的JavaScript控制台测试XPath的选择器,例如$x('//div[@class="summary"]/h3/a[@class="question-hyperlink"]/text()') 和$x('//div[@class="summary"]/h3/a[@class="question-hyperlink"]/@href')。
测试
准备好第一次测试了吗?只要简单地在“stack”目录中运行下面命令:
|
1
|
$ scrapy crawl stack |
随着Scrapy堆栈跟踪,你应该看到50条问题的标题和URL输出。你可以用下面这条小命令输出一个JSON文件:
|
1
|
$ scrapy crawl stack -o items.json -t json |
我们已经基于要寻找的数据实现了爬虫。现在需要将抓取的数据存入MongoDB。
在MongoDB中存储数据
每当有一项返回,我们想验证数据,然后添加进一个Mongo集合。
第一步是创建一个我们计划用来保存所有抓取数据的数据库。打开settings.py,指定管道然后加入数据库设置:
|
1
2
3
4
5
6
|
ITEM_PIPELINES = ['stack.pipelines.MongoDBPipeline', ]MONGODB_SERVER = "localhost"MONGODB_PORT = 27017MONGODB_DB = "stackoverflow"MONGODB_COLLECTION = "questions" |
管道管理
我们建立了爬虫去抓取和解析HTML,而且已经设置了数据库配置。现在要在pipelines.py中通过一个管道连接两个部分。
连接数据库
首先,让我们定义一个函数去连接数据库:
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
import pymongofrom scrapy.conf import settingsclass MongoDBPipeline(object): def __init__(self): connection = pymongo.Connection( settings['MONGODB_SERVER'], settings['MONGODB_PORT'] ) db = connection[settings['MONGODB_DB']] self.collection = db[settings['MONGODB_COLLECTION']] |
这里,我们创建一个类,MongoDBPipeline(),我们有一个构造函数初始化类,它定义Mongo的设置然后连接数据库。
处理数据
下一步,我们需要定义一个函数去处理被解析的数据:
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
import pymongofrom scrapy.conf import settingsfrom scrapy.exceptions import DropItemfrom scrapy import logclass MongoDBPipeline(object): def __init__(self): connection = pymongo.Connection( settings['MONGODB_SERVER'], settings['MONGODB_PORT'] ) db = connection[settings['MONGODB_DB']] self.collection = db[settings['MONGODB_COLLECTION']] def process_item(self, item, spider): valid = True for data in item: if not data: valid = False raise DropItem("Missing {0}!".format(data)) if valid: self.collection.insert(dict(item)) log.msg("Question added to MongoDB database!", level=log.DEBUG, spider=spider) return item |
我们建立一个数据库连接,解包数据,然后将它存入数据库。现在再测试一次!
测试
再次,在“stack”目录下运行下面命令:
|
1
|
$ scrapy crawl stack |
万岁!我们已经成功将我们爬下了的数据存入数据库:

总结
这是一个用Scrapy爬取网页的简单示例。真实兼职工作需要能跟踪分页链接的脚本,用CrawlSpider(文档)抓取每一个页面,非常容易实现。自己动手实现下,在下面Github仓库链接中写一个评论,快速查看代码。需要帮助?从这个脚本开始,它已经很接近完成了。然后查看第二部分,它包含完整的解决方案。
你可以从Github repo中下载完整的代码。如果有问题请跟贴评论。谢谢阅读!
Python下用Scrapy和MongoDB构建爬虫系统(1)的更多相关文章
- 【Python实战】Scrapy豌豆荚应用市场爬虫
对于给定的大量APP,如何爬取与之对应的(应用市场)分类.描述的信息?且看下面分解. 1. 页面分析 当我们在豌豆荚首页搜索框输入微信后,会跳转到搜索结果的页面,其url为http://www.wan ...
- python应用:爬虫框架Scrapy系统学习第二篇——windows下安装scrapy
windows下安装scrapy 依次执行下列操作: pip install wheel pip install lxml pip install PyOpenssl 安装Microsoft visu ...
- 基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
- 利用scrapy和MongoDB来开发一个爬虫
今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询. 安装 在进行今天的任务之前我们需要安装二个框架,分别 ...
- Python之(scrapy)爬虫
一.Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸 ...
- PHP, Python, Node.js 哪个比较适合写爬虫?
PHP, Python, Node.js 哪个比较适合写爬虫? 1.对页面的解析能力2.对数据库的操作能力(mysql)3.爬取效率4.代码量推荐语言时说明所需类库或者框架,谢谢.比如:python+ ...
- 12.Scrapy与mongodb交互和设置中间键
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
- 想成为Python高手,必须看这篇爬虫原理介绍!(附29个爬虫项目)
互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现我们眼前. 一.爬虫是什么? 如果我们 ...
- 基于Scrapy的B站爬虫
基于Scrapy的B站爬虫 最近又被叫去做爬虫了,不得不拾起两年前搞的东西. 说起来那时也是突发奇想,想到做一个B站的爬虫,然后用的都是最基本的Python的各种库. 不过确实,实现起来还是有点麻烦的 ...
随机推荐
- python 方法
1.首先运行python交互模式 输入 python 2.定义一个有序的集合 相当于js中的数组它里面有一些增删改查的方法 1. 定义一个数组 >>> ww = ['1','2',' ...
- 公用表表达式 (CTE)、递归、所有子节点、sqlserver
指定临时命名的结果集,这些结果集称为公用表表达式 (CTE).公用表表达式可以包括对自身的引用.这种表达式称为递归公用表表达式. 对于递归公用表达式来说,实现原理也是相同的,同样需要在语句中定义两部分 ...
- 使用django我的第一个简单项目流程
项目概述:本项目实现的是员工提交需要审批的事情给老板(例如请假事件.某些具体事务需要老板确认事件等),老板确认或者拒绝该事件,员工登录员工自己的页面可以查询响应的状态信息. 代码实现概略:需要创建两个 ...
- 虚拟机Linux不能上网简单有效的解决办法
对于刚开始接触Linux系统的用户来说,先使用虚拟机Linux学习是不错的选择.但是在用虚拟机上网的时候,总是出现这样那样的错误,到底该怎么办呢?本文笔者和大家分享一下虚拟机Linux不能上网的简单有 ...
- Python之路【第三篇】编码
Python代码——>字节码——>机器码——>计算机 Windows: cmd ==> python 文件路径 cmd ==>python >> 输入命令 L ...
- linux配置gitlab步骤
1.安装git命令 yum install -y git 2.查看安装git的版本 git --version 3.创建用于保存项目的文件夹 mkdir 项目文件夹 4.切换目录到项目文件夹 cd 项 ...
- python 二分查找法
@source_data:数据集 @binary_num:要查找的数 @mid:中间数的键值 def binary_search(source_data,search_num): #传入数据集计算中间 ...
- 「ZJOI2019」&「十二省联考 2019」题解索引
「ZJOI2019」&「十二省联考 2019」题解索引 「ZJOI2019」 「ZJOI2019」线段树 「ZJOI2019」Minimax 搜索 「十二省联考 2019」 「十二省联考 20 ...
- Chart 图表开源项目总结
在Android开发中,我们不免会遇到图表展示的需求,以下是本人之前star的悬浮窗的开源项目,供大家参考: 1. WilliamChart:创建图表的Android库 2. HelloCharts: ...
- CCS3怎么实现border边框渐变效果
下图注册按钮的边框有渐变效果,如果让你来实现,你会怎么做呢 个人觉得,省事的做法,直接让UI给背景图片就可以了,如下图 不过这种做法感觉不太灵活,如果要修改border的渐变颜色,就需要UI重新做图. ...