使用Selenium来抓取动态加载的页面

原文：http://my.oschina.net/flashsword/blog/147334?p=1

一般的爬虫都是直接使用http协议，下载指定url的html内容，并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。

但是有些页面是通过js以及ajax动态加载的，例如：花瓣网。这时如果我们直接分析原始页面的html，是得不到有效的信息的。当然，因为无论怎样动态加载，基础信息总归是包含在初始页面中得，所以我们可以用爬虫代码来模拟js代码，js读取页面元素值，我们也读取页面元素值;js发送ajax，我们就拼凑参数、发送ajax并解析返回的json。这样总归是能做的，但是比较麻烦，有没有比较省力的方法呢？比较好的方法大概是内嵌一个浏览器了。

Selenium是一个模拟浏览器，进行自动化测试的工具，它提供一组API可以与真实的浏览器内核交互。Selenium是跨语言的，有Java、C#、Python等版本，并且支持多种浏览器，chrome、firefox以及IE都支持。

在Java项目中使用Selenium，需要做两件事：

在项目中引入Selenium的Java模块，以Maven为例：

<dependency>

    <groupId>org.seleniumhq.selenium</groupId>

    <artifactId>selenium-java</artifactId>

    <version>2.33.0</version>

</dependency>

下载对应的driver，以chrome为例：http://www.cnblogs.com/printN/p/7210633.html

下载后，需要将driver的位置写到Java的环境变量里，例如我在mac下将其下载到了/Users/yihua/Downloads/chromedriver，则需要在程序里添加以下代码(当然在JVM参数里写-Dxxx=xxx也是可以的)：

System.getProperties().setProperty("webdriver.chrome.driver","/Users/yihua/Downloads/chromedriver");

Selenium的API挺简单的，核心是WebDriver，下面是动态渲染页面，并获取最终html的代码：

      @Test

     public void testSelenium() {

         System.getProperties().setProperty("webdriver.chrome.driver", "/Users/yihua/Downloads/chromedriver");

         WebDriver webDriver = new ChromeDriver();

         webDriver.get("http://huaban.com/");

         WebElement webElement = webDriver.findElement(By.xpath("/html"));

         System.out.println(webElement.getAttribute("outerHTML"));

         webDriver.close();

     }

值得注意的是，每次new ChromeDriver()，Selenium都会建立一个Chrome进程，并使用一个随机端口在Java中与chrome进程进行通信来交互。由此可见有两个问题：

因此如果直接关闭Java程序，Chrome进程可能是无法关闭的。这里需要显示的调用webDriver.close()来关闭进程。
创建进程的开销还是比较大的，尽量对webDriver进行复用会比较好。可惜根据官方的文档，webDriver不是线程安全的，所以我们需要建立一个webDriver池来保存它们。不清楚Selenium是否有这样的接口，反正我是自己写了一个WebDriverPool来完成这个任务。

我已经将Selenium整合到了我的爬虫框架webmagic中，目前还是试用版本，有兴趣的可以一起学习交流。

最后说说效率问题。嵌入浏览器之后，不但要多花CPU去渲染页面，还要下载页面附加的资源。似乎单个webDriver中的静态资源是有缓存的，初始化之后，访问速度会加快。我试用ChromeDriver加载了100次花瓣的首页(http://huaban.com/)，共耗时263秒，平均每个页面2.6秒。

为了测试效果，我写了一个花瓣抽取器，抽取花瓣网的分享图片url，用了咱自己的webmagic框架，集成了Selenium。

     /**

  * 花瓣网抽取器。<br>

  * 使用Selenium做页面动态渲染。<br>

  */

 public class HuabanProcessor implements PageProcessor {

     private Site site;

     @Override

     public void process(Page page) {

         page.addTargetRequests(page.getHtml().links().regex("http://huaban\\.com/.*").all());

         if (page.getUrl().toString().contains("pins")) {

             page.putField("img", page.getHtml().xpath("//div[@id='pin_img']/img/@src").toString());

         } else {

             page.getResultItems().setSkip(true);

         }

     }

     @Override

     public Site getSite() {

         if (site == null) {

             site = Site.me().setDomain("huaban.com").addStartUrl("http://huaban.com/").setSleepTime(1000);

         }

         return site;

     }

     public static void main(String[] args) {

         Spider.create(new HuabanProcessor()).thread(5)

                 .scheduler(new RedisScheduler("localhost"))

                 .pipeline(new FilePipeline("/data/webmagic/test/"))

                 .downloader(new SeleniumDownloader("/Users/yihua/Downloads/chromedriver"))

                 .run();

     }

 }

sample地址：HuabanProcessor.java

使用Selenium来抓取动态加载的页面的更多相关文章

Selenium来抓取动态加载的页面
一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取.在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务. 但是有些页面是通过js以及a ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
微信小程序web-view之动态加载html页面
官方推出的web-view方便了很多开发人员. 我们在做的时候,经常会想到写一个小程序的page然后通过动态加载web-view的形式来完成其他功能页面的开发. 之前研究web-view的时候发现网上 ...
在aspx页动态加载ascx页面内容，给GridView控件绑定数据
在aspx页动态加载ascx页面内容 //加载ascx页面内容Control c1 = this.Page.LoadControl("WebUserControl1.ascx"); ...
爬虫再探实战（三）———爬取动态加载页面——selenium
自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的 ...
爬虫再探实战（四）———爬取动态加载页面——请求json
还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息. 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造request ...

随机推荐

台式机vim配置
set autoread syntax on "set number " filetype ident on "set autoindent "set expa ...
【Unity】2.9 光源（Lights）
分类:Unity.C#.VS2015 创建日期:2016-03-31 一.简介光源 (Lights) 是每个场景的重要组成部分.网格和纹理决定了场景的形状和外观,而光源则决定了三维环境的颜色和氛围. ...
django搭建一个小型的服务器运维网站-拿来即用的bootstrap模板
目录项目介绍和源码: 拿来即用的bootstrap模板: 服务器SSH服务配置与python中paramiko的使用: 用户登陆与session; 最简单的实践之修改服务器时间: 查看和修改服务器配 ...
.NET MVC5+ Dapper+扩展+AutoFac自动注入实现
1.首先创建一个MVC项目定义Model 层 view 层 index.cshtml 控制器层Controllers等文件 2.在线安装或者引用dapper 以及扩展相关包同时Autofac ...
（原创）c++11中 function/lamda的链式调用
关于链式调用,比较典型的例子是c#中的linq,不过c#中的linq还只是一些特定函数的链式调用.c++中的链式调用更少见因为实现起来比较复杂.c++11支持了lamda和function,在一些延迟 ...
关于CentOS 6下Hadoop占用系统态CPU高的处理办法【转】
一次不经意发现Hadoop的系统态CPU使用率很高,然后百度一下居然是个已知问题. RHEL6优化了内存申请的效率,而且在某些场景下对KVM的性能有明显提升:http://www.Linux-kvm. ...
Context.startActivity出现AndroidRuntimeException
转:http://hi.baidu.com/huaxinchang/item/e1a771cf4d424312b77a2416 昨天做了一个Activity的启动动画,效果是点击桌面图标先出现动画后启 ...
【机器学习】EM的算法
EM的算法流程: 初始化分布参数θ: 重复以下步骤直到收敛: E步骤:根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望.作为隐藏变量的现估计值: ...
C#学习笔记（23）——C#将PPT批量转为JPG（aspose方法）
说明(2017-7-31 18:30:25): 1. 最主要的是下载到aspose的破解文件,我在这里下载的http://www.lenosoft.net/down/10205.htm,如果不差钱可以 ...
5. 集成学习（Ensemble Learning）GBDT
1. 集成学习(Ensemble Learning)原理 2. 集成学习(Ensemble Learning)Bagging 3. 集成学习(Ensemble Learning)随机森林(Random ...

使用Selenium来抓取动态加载的页面

使用Selenium来抓取动态加载的页面的更多相关文章

随机推荐

热门专题