Python 爬虫修养-处理动态网页

Python 爬虫修养-处理动态网页

0x01 前言

在进行爬虫开发的过程中，我们会遇到很多的棘手的问题，当然对于普通的问题比如 UA 等修改的问题，我们并不在讨论范围，既然要将修养，自然不能说这些完全没有意思的小问题。

0x02 Selenium + PhantomJS

这个东西算是老生长谈的问题吧，基本我在问身边的朋友们的时候，他们都能讲出这条解决方案：

Selenium + PhantomJS（Firefox Chrome之类的）

但是真正的有实践过的人，是不会把这个东西投入生产环境的，首先最大的问题就是Selenium + PhantomJS 非常的慢，这种慢的原因就是因为他要加载这个网页所有的内容，比如图片资源，link 中的 CSS，JS 都会加载，而且还会渲染整个网页，在渲染结束之后才会允许你操作网页的元素。当然可能会有读者问，Selenium 作为可以自动化编写测试脚本的一个模块，他是自带 HOOK 功能的，在 Selenium 的 API 中也有介绍说 Selenium 可以控制等待某一个元素加载成功时返回页面数据。

没错的确是这样的，我们确实可以使用 Selenium 的内置 api 去操作浏览器完成各种各样的操作，比如模拟点击，模拟填表，甚至执行 js，但是最大的问题我们还是没有解决：归根结底是操作浏览器来进行工作的，启动需要打开浏览器（等待一定时间），访问网页之后渲染，下载相应资源，执行 JS，这么多的步骤，每一个步骤都需要或多或少的等待时间，这就好比，我们就是在使用浏览器做这样的事情，只不过是加上了精准的鼠标定位而已。

当然说了这么多，Selenium 虽然不适合做生产解决方案，也并不是没有别的解决办法了。

0x03 execjs

execjs 是一个在 Python 中执行 js 的模块，听到这个，大家可能会觉得耳目一新：欸？那我是不是可以爬虫爬下来 js 代码然后手动控制 js 执行，然后就可以控制自己想要的元素，拿到想要的结果，而且也并不丢失效率。

但是我要说这样的想法，实际上是非常的 naive，虽然有了这个 js 引擎，但是，我们需要很多很多的轮子，为什么呢？来听我一步一步解释：

1. js 的强大之处其实并不在于松散的语法与容错，而是在于对 BOM 对象和 DOM 对象的操作。举个例子来说，比如，一个网页的表单，是通过操作执行 js 来提交的。那么，问题就在于你有办法仅仅用这个 execjs 来执行这段 js 来提交表单么? 显然，这是行不通的。为什么呢？因为对于我们来说的话 execjs 是一个独立的模块，我们没有办法把我们静态扒下来的html 文档和 execjs 建立联系。

2. 如果非要建立联系，那么你需要自己完成 js 对 html 的 DOM 对象的绑定，具体怎么完成呢？js 在浏览器中怎么与 DOM 树绑定，你就需要怎么去做。但是要怎么做啊，首先你需要一个自己构建 DOM 树，然后才能进行手动绑定。这个轮子，确实是非常的大。

但是如果你真的有大把的时间，那么应该怎么去做这个事情呢？没错要不你去 HOOK 一个webkit 要不你去自己构建一个 html 的解析器。那么我就在这里稍微提一下这个很有趣的事情：如果构建一个 HTML 解析器：

最近有用 PLY 写过一个 Lexer 当时准备做个解析 DOM 树的 HTML 解析器，自己实践第一步也是觉得这个东西理论上是完全可行的，但是能不能完成就要看个人毅力和你个人的编程能力了。

0x04 Ghost

关于 Ghost 的话，其实我个人是比较推崇的，但是其实他也并不是特别完美，它对我来说，更像是一个 Selenium 与PhantomJS 的结合体，怎么说呢，实际上 ghost 这个模块用的是QT 中的 webkit，在安装的时候就得被迫安装 pyside 或者 pyqt4，实际上我当时还是很难理解为什么一个这个东西没有图形界面要使用 qt 和 pyside 这种东西作为引擎呢？单独构造一个浏览器引擎真的就这么困难么？其实装好了也没什么关系，毕竟我觉得还是要比Selenium 配 PhantomJS 好用的。

话说回来，我们就来讨论一下这个 Ghost 的一些问题。

首先，使用 Ghost 的一个好处是我们并不需要再将一个 binary 的浏览器放在路径下了，以至于我们不需要去花费时间打开浏览器了，因为 ghost 就是一个功能完全的 Python 实现（借助 qt 的 webkit）的轻量级没有图形化的浏览器。

而且，ghost 在初始化的时候，有一个选项可以不下载图片，但是没有办法阻止它下载 js 和css，其实这个也是可以原谅的，毕竟自己在使用的时候，也是需要自己去下载 js 在本地筛选。

于此同时 ghost 还是提供了相应的 API 这些 API 和 selenium 的 API 功能基本差别不是特别大，也会有处理表单，执行 ajax 去加载动态页面，这样来说 ghost 是一个完美的解决方案么？

其实还是有他自己的缺点的，就是我们还是不能完全控制每一个过程，比如我们如果只想让它解析 DOM 树，不动态执行 js 脚本，而且，我想获取他的 DOM 树手动进行一些操作。这些都是没有办法的。但是也并不是完全没有办法，比如国内某厂他们就做了 HOOK 了一个浏览器去检测 XSS 这个思路我们可以在以后的文章中提出，具体的操作的话，这就要看大家的编程功底了。

0x05 原理总结

当然，懂得归纳的读者其实早就已经看出来了，对动态网页（通过 js 加载）的网页的信息采集，主要分成三种方案：

1. 基于实体浏览器操作解决方案（适用于测试环境不适用于大量信息采集）。

2. 基于深度控制 JS 脚本执行的解决方案（速度最快，编写难度最大）。

3. 基于 webkit 的解决方案。（相对较为折衷）

本文由i春秋学院提供:http://bbs.ichunqiu.com/thread-11098-1-1.html

Python 爬虫修养-处理动态网页的更多相关文章

Python爬虫之路——简单网页抓图升级版（添加多线程支持）
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要 ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫
爬虫抓取数据时有些数据是动态数据,例如是用js动态加载的,使用普通的urllib2 抓取数据是找不到相关数据的,这是爬虫初学者在使用的过程中,最容易发生的情况,明明在浏览器里有相应的信息,但是在pyt ...
Python爬虫学习之获取网页源码
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义 ...
Python爬虫实战：将网页转换为pdf电子书
写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的 ...
python 爬虫（爬取网页的img并下载）
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
2019-03-14 Python爬虫问题爬取网页的汉字打印出来乱码
html = requests.get(YieldCurveUrl, headers=headers) html=html.content.decode('UTF-8') # print(html) ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...

随机推荐

《剑指Offer》第20题（Java实现）：定义栈的数据结构，请在该类型中实现一个能够得到栈中所含最小元素的min函数（时间复杂度应为O（1））。
一.题目描述定义栈的数据结构,请在该类型中实现一个能够得到栈中所含最小元素的min函数(时间复杂度应为O(1)). 二.思路解析首先定义一个Integer类型的栈,记为stack,此栈用来完成数据 ...
微信小程序覆盖自定义组件样式
小程序官方文档明确指出,引入的第三方自定义组件,是不可以对其进行CSS样式覆盖的,但是我们还想要修改怎么办呢?自定义组件时会之定义个外部类,通过这个外部类来修改样式. 修改https://weapp. ...
shell脚本实现svn目录同步和提交
#/bin/bash set -x #提交变更rpm到svn function commit_to_svn() { target_svn_dir=$1 #新增rpm至svn命令 add_to_svn= ...
Sliverlight调用WebService跨域问题解决
在SilverlightApplication正常添加webservice(承载网站中建webservice,这样就不存在跨域问题了,即域名一样如:localhost:4676) http://loc ...
Chrome自定义滚动条
/*定义滚动条高宽及背景高宽分别对应横竖滚动条的尺寸*/ ::-webkit-scrollbar { width: 16px; height: 16px; background-color: #F5 ...
mysql编译好的简单安装
.创建mysql用户的账号 useradd mysql .下载mysql编译好的压缩包 .安装mysql yum -y install numactl libaio 安装依赖库 tar -zxvf m ...
Echarts 在动态HTML报告中的应用
# 参考官网 http://echarts.baidu.com/examples/ <scripts>  </scr ...
ASP.NET MVC4添加区域视图找到多个与名为“home”的控制器匹配的类型
今天在项目中遇到一个问题,在MVC下想建立一个区域的后台Boss视图,出现了"找到多个与名为“home”的控制器匹配的类型"的问题,希望下面的解决方案能够帮助到大家这是网站的整体 ...
python3 利用pip命令安装包和模块
本文介绍如何利用pip命令安装Python相关的包和模块.在Python中有些方法或者模块是自带的功能,也叫(build-in),内构函数,实际使用,可能内构函数或者模块不能完成我们的任务,我们就需要 ...
Eclipse导入的User Libarary
在使用eclipse导入外部jar包时,经常使用Add User Libarary的方式,采用这种方式,外部的jar包没有直接添加到WEB-INF/libs下,那这些jar是在哪里引入的呢? 使用外部 ...

Python 爬虫修养-处理动态网页

Python 爬虫修养-处理动态网页的更多相关文章

随机推荐

热门专题