API例子：用Python驱动Firefox采集网页数据

1，引言

本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。开源Python即时网络爬虫项目将与Scrapy（基于twisted的异步网络框架）集成，所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据，但是要注意本例一个严重缺陷：用Selenium加载网页的过程发生在Spider中，破坏了Scrapy的架构原则。所以，本例只是为了测试Firefox驱动和ajax网页数据采集这两个技术点，用于正式运行环境中必须予以修改，后续的文章将专门讲解修正后的实现。

请注意，本例用到的xslt文件是通过MS谋数台保存提取器后，通过API接口获得，一方面让python代码变得简洁，另一方面，节省调试采集规则的时间。详细操作请查看Python即时网络爬虫：API说明

2，具体实现

2.1，环境准备

需要执行以下步骤，准备Python开发和运行环境：

安装Python--官网下载安装并部署好环境变量（本文使用Python版本为3.5.1）
安装lxml-- 官网库下载对应版本的.whl文件，然后命令行界面执行 "pip install .whl文件路径"
安装Scrapy--命令行界面执行 "pip install Scrapy"，详细请参考Scrapy：Python3下的第一次运行测试
安装selenium--命令行界面执行 "pip install selenium"
安装Firefox--官网下载安装

上述步骤展示了两种安装：1，安装下载到本地的wheel包；2，用Python安装管理器执行远程下载和安装。

2.2，开发和测试过程

以下代码默认都是在命令行界面执行

1)，创建scrapy爬虫项目simpleSpider

E:\python-3.5.1>scrapy startproject simpleSpider

2)，修改settings.py配置

有些网站会在根目录下放置一个名字为robots.txt的文件，里面声明了此网站希望爬虫遵守的规范，Scrapy默认遵守这个文件制定的规范，即ROBOTSTXT_OBEY默认值为True。在这里需要修改ROBOTSTXT_OBEY的值，找到E:\python-3.5.1\simpleSpider\simpleSpider下文件settings.py，更改ROBOTSTXT_OBEY的值为False。

3)，导入API模块

在项目目录E:\python-3.5.1\simpleSpider下创建文件gooseeker.py（也可以在开源Python即时网络爬虫GitHub源的core文件夹中直接下载），代码如下：

4)，创建SimpleSpider爬虫类

在项目目录E:\python-3.5.1\simpleSpider\simpleSpider\spiders下创建文件simplespider.py，代码如下：

5)，启动爬虫

在E:\python-3.5.1\simpleSpider项目目录下执行命令

E:\python-3.5.1\simpleSpider>scrapy crawl simplespider

6)，输出文件

采集到的网页数据结果文件是：淘宝天猫_商品详情30474_1466064544.xml

3，展望

调用Firefox，IE等全特性浏览器显得有点太重量级，很多场合可以考虑轻量级的浏览器内核，比如，casperjs和phantomjs等。同时运行在没有界面的浏览器（headless browser，无头浏览器）模式下，也许可以对网页数据采集性能有所提升。

然后，最重要的一点是要写一个 Scrapy 的下载器，专门驱动这些浏览器采集网页数据，也就是把这个功能从Spider中迁移出来，这样才符合Scrapy的整体框架原则，实现事件驱动的工作模式。

5，集搜客GooSeeker开源代码下载源

1， GooSeeker开源Python网络爬虫GitHub源

6，文档修改历史

1，2016-06-30：V1.0
2，2016-06-30：V1.1，在第一段明显位置注明本案例的缺陷

API例子：用Python驱动Firefox采集网页数据的更多相关文章

python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
用js采集网页数据并插入数据库最快的方法
今天教大家一个快速采集网站数据的方法,因为太晚了,直接上例子,这里以采集易车网的产品数据为例. 思路:利用js获取网页数据并生成sql命令,执行sql命令把采集的数据插入数据库. 1.用谷歌浏览器或者 ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
Python爬虫之-动态网页数据抓取
什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...
python python 入门学习之网页数据爬虫cnbeta文章保存
需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/ ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
csharp:正则表达式采集网页数据
https://msdn.microsoft.com/zh-cn/library/system.text.regularexpressions.regex(v=vs.110).aspx https:/ ...
Python使用xslt提取网页数据
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第一部分,实验 ...
python python 入门学习之网页数据爬虫搜狐汽车数据库
自己从事的是汽车行业,所以首先要做的第一个程序是抓取搜狐汽车的销量数据库(http://db.auto.sohu.com/cxdata/): 数据库提供了07年至今的汽车月销量,每个车型对应一个xml ...

随机推荐

做了一个js的拉动遮罩层，两个图片分别显示的效果
想做成车修好了和没修好的对比,所以需要两个图片.需要用到的知识点, 1.定位 2.mouse 的事件(代码中体现) 3.鼠标指针的移动距离算法 4.css中,cursor的应用好了,废话不多说 ,直 ...
一种无new创建对象的方法
var L=function(){ var obj = { age:38, live:true, job:"web dev" }; obj.name = "zhouhui ...
css 背景图片拉伸[转]
http://www.jeasyuicn.com/css-background-image-stretching.html background-image:url(bg.png); -moz-bac ...
[转]fatal error: iostream.h: No such file or directory
iostream.h是非标准头文件,iostream是标准头文件形式.iostream.h时代没有名词空间,即所有库函数包括头文件iostream.h都声明在全局域.为了体现结构层次,c++标准委员会 ...
Yii 安装
// 安装 composer curl -s http://getcomposer.org/installer | php // 把 composer 添加到全局命令 mv composer.phar ...
C和指针c6-1
#include<stdio.h> #include<stdlib.h> char *find_char(char const *source_str, char const ...
剑指offer-面试题4.替换空格
题目:请实现一个函数,把字符串中的每个空格都替换成"%20".例如输入"We are happy." 则输出"We%20are%20happy.&qu ...
OpenStack Keystone v3 API新特性
原连接 http://blog.chinaunix.net/uid-21335514-id-3497996.html keystone的v3 API与v2.0相比有很大的不同,从API的请求格式到re ...
认识SVN
TortoiseSVN 是 Subversion 版本控制系统的一个免费开源客户端,可以超越时间的管理文件和目录.文件保存在中央版本库,除了能记住文件和目录的每次修改以外,版本库非常像普通的文件服务 ...
Grails重定向以及Render、Session的使用
近期发现网上grails因为用的人不算非常多,相关的资料也不是那么easy找到,随着学习的深入打算把我的学习心得定期分享出来.也给学习grails的同胞一个偷懒的机会,我的原则是以最简洁的方式学会Gr ...

API例子：用Python驱动Firefox采集网页数据

API例子：用Python驱动Firefox采集网页数据的更多相关文章

随机推荐

热门专题