浅谈网络爬虫爬js动态加载网页（三）

　　上一篇讨论了web driver对动态网页的抓取与分析，可以很清楚的看出这是一种集中式处理方式，简单说，就是利用服务器，打开一个真正的brower，然后将需要解析的地址交给浏览器，浏览器去解析，然后将结果返回。这样正如网友评论一样，效率上不好，其实我想说的是，如果质提不上去，可以采用量的方式，比如开多线程处理，多开几台机器处理，虽然单个不快，量多后，处理速度就上去了。当然这也不是什么特别好的方法。

　　先谈谈他的不好之处：

　　首先，依赖浏览器的驱动，无论使用ie,firefox,chrome，都需要启动其driver，才能进行操作。

　　其次，对响应结果控制力度不够自由，比如有些网页我需要一个东西，有些网页我需要另一个东西，那么我希望是，可以对响应结果进行解析和过滤。

　　最后，他是一个集中式处理的方式，现在啥都讲求分布式，当然不能为了分布而分布，不过在利用brower的资源时，分布是一个好的解决方法。

　　那么，我还能做什么了，今天和同事聊的时候突然想到一个方案，也许会有一些帮助。当然，目前只是一个想法，不过后续我会去试验可行性，我相信估计也有人这么试过。让我们重新回归原点，从上一篇的解决方案中可以看出，其实我们采用的基本是一种类似黑盒的测试方式，也就是说，我们根本没有分析这些动态网页的构成，只是单纯的将网页让浏览器去解析，然后我们取得结果,（当然这里先不考虑一些复杂的ajax请求）。这里有两个要素，一就是浏览器，使用的web driver；二就是浏览器去解析，并做了请求和响应。

　　为什么我不能采用分布式处理呢？利用客户端的资源来解析动态网页，这样不就减轻了压力，而且可以大大增加处理地址的能力。我的想法是这样的：

　　1、开发一个简单的网页，用来访问。例如一个jsp

　　2、将需要进行解析的地址通过参数的形式传给这个页面。例如采用xxx.jsp?url='www.sina.com.cn'

　　3、后台截获这个req，然后根据新的url也就是"http://www.sina.com.cn"，发起一个新的httprequest，将这个response，write给前面这个res.

　　这样其实就是将sina的respose，交给了我这个jsp。

　　4、这样，我就可以做一些手脚，例如获取response的时候，采用html解析器，并利用规则过滤掉一些元素或者添加一些我们需要的脚本代码，并将这个修改后的response，交个浏览器去执行。最后获取执行后的结果，再交给服务器处理或者保存。

　　这样就避免掉一开始的一些问题。首先，与浏览器driver无关，也就是说如果用ie访问，就利用ie引擎；用firefox访问，就利用firefox引擎。就可以脱离web driver。其次，可以对结果进行自由控制，采用html解析器，就可以按照自己的规则来过滤响应。最后，利用这种方式就是一种分布式的处理，也就是说凡是访问我页面的浏览器，都可以用来进行页面解析，而且可以不占用我服务器的带宽。

　　可见的问题在于：

　　1、如何控制客户端去访问我想要的网址。

　　2、如何将访问后的内容传回后台处理。

　　3、由于篡改了响应，带来的Cross Domain的问题会不会影响到我的解析结果。

　　4、如何知道页面已经加载完毕。

　　5、采用何种解析器解析。

　　由于这两天公司正在搬家，暂时要缓缓，不过上面的问题我已经有了一个初步的解决办法，不过仍需验证。无论结果如何，过几天再聊。呵呵

浅谈网络爬虫爬js动态加载网页（三）的更多相关文章

浅谈网络爬虫爬js动态加载网页（二）
没错,最后我还是使用了Selenium,去实现上一篇我所说的问题,别的没有试,只试了一下firefox的引擎,总体效果对我来说还是可以接受的. 继续昨天的话题,既然要实现上篇所说的问题,那么就需要一个 ...
浅谈网络爬虫爬js动态加载网页（一）
由于别的项目组在做舆情的预言项目,我手头正好没有什么项目,突然心血来潮想研究一下爬虫.分析的简单原型.网上查查这方面的资料还真是多,眼睛都看花了.搜了搜对于我这种新手来说,想做一个简单的爬虫程序,所以 ...
爬虫——爬取Ajax动态加载网页
常见的反爬机制及处理方式 1.Headers反爬虫 :Cookie.Referer.User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2.IP限制 ...
爬虫再探实战（四）———爬取动态加载页面——请求json
还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息. 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造request ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
JS 动态加载脚本执行回调
JS 动态加载脚本执行回调关于在javascript里面加载其它的js文件的问题可能很多人都遇到过,但很多朋友可能并不知道怎么判断我们要加载的js文件是否加载完成,如果没有加载完成我们就调用文件 ...
js动态加载以及确定加载完成的代码
利用原生js动态加载js文件到页面,并在确定加载完成后调用相关function var otherJScipt = document.createElement("script") ...
js动态加载css文件和js文件的方法
今天研究了下js动态加载js文件和css文件的方法. 网上发现一个动态加载的方法.摘抄下来,方便自己以后使用 [code lang="html"] <html xmlns=& ...

随机推荐

Http Url Get请求方式需要对中文参数进行编码
public static void main(String[] args) { try { String mytext = java.net.URLEncoder.encode("上海南站 ...
Sqli-labs less 63
Less-63 和less62一致,我们只需要看到sql语句上 $sql="SELECT * FROM security.users WHERE id='$id' LIMIT 0,1&quo ...
ThinkPHP3.2 分页实现
ThinkPHP 分页实现 TP3.2框架手册,有一个数据分页,不过每次都要写太多的代码,还有中文设置等有些麻烦,做为程序开发者,有必要整理下: O.先看效果图一.分页方法 /** * TODO ...
IE6中常见兼容性问题及浏览器显示难题
1.双倍边距Bug 问题描述:假如有一个ul,里面有若干li,当li设置为左浮动时,此时设置li的margin-left为10px,会在最左侧呈现双倍情况.即20px 正常显示: IE6显示: 修正方 ...
CF444C DZY Loves Colors
考试完之后打的第一场CF,异常惨烈呀,又只做出了一题了.A题呆滞的看了很久,领悟到了出题者的暗示,应该就是两个点的时候最大吧,不然的话这题肯定特别难敲,YY一发交上去然后就过了.然后就在不停地YY B ...
HDU4784 Dinner Coming Soon（dp）
当时区域赛的一道题.题意大概是这样的,有一个1~N的图,然后你要从1->N,其中每经过一条边需要消耗你的时间和金钱,每到一个地方可以选择什么都不做,或者买一包盐,卖一包盐,身上不能同时有超过B包 ...
Nginx状态监控
通过配置nginx.conf文件来实现对Nginx状态信息的监控. 1.配置nginx.conf vim /usr/local/nginx/conf/nginx.conf 再server块配置项中添加 ...
VS2012简单的使用感受+插件推荐
VS2012简单的使用感受+插件推荐http://www.cnblogs.com/tangge/archive/2013/03/12/2955367.html
JDBC第二次学习
脑子太笨,必须得记录下来一些文字,方便回来查询. 这是我的第二次学习JDBC的笔记,看的是传智播客——李勇老师的JDBC系列,已看到第23集. 分析在实际项目中该如何应用JDBC 一个简单用户相关的数 ...
转：Move all SQL Server system databases at one time
Problem One task that you may need to do as a DBA is to move the system databases from one location ...

浅谈网络爬虫爬js动态加载网页（三）

浅谈网络爬虫爬js动态加载网页（三）的更多相关文章

随机推荐

热门专题