抓取Js动态生成数据且以滚动页面方式分页的网页

代码也可以从我的开源项目HtmlExtractor中获取。

当我们在进行数据抓取的时候，如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页，那么我们该如何抓取呢？

如类似今日头条这样的网站：http://toutiao.com/

我们可以使用Selenium来搞定这件事情。Selenium的设计目的虽然是用于Web应用程序的自动化测试，但是却非常适合用来做数据抓取，可以非常简单地绕过网站的反爬虫限制，因为Selenium直接运行在浏览器中，就像真正的用户在操作一样。

使用Selenium，我们不但可以抓取Js动态生成数据的网页，而且可以抓取以滚动页面方式分页的网页。

首先，我们使用maven引入Selenium依赖：

< dependency >

< groupId >org.seleniumhq.selenium</ groupId >

< artifactId >selenium-java</ artifactId >

< version >2.47.1</ version >

</ dependency >

接下来就可以写代码抓取了：

import  org.openqa.selenium.By;

import  org.openqa.selenium.WebDriver;

import  org.openqa.selenium.WebElement;

import  org.openqa.selenium.firefox.FirefoxDriver;

import  java.util.List;

import  java.util.Random;

/**

  * 如何抓取Js动态生成数据且以滚动页面方式分页的网页

  * 以抓取今日头条为例说明：http://toutiao.com/

  * Created by ysc on 10/13/15.

  */

public  class  Toutiao {

     public  static  void  main(String[] args)  throws  Exception{

         //等待数据加载的时间

         //为了防止服务器封锁，这里的时间要模拟人的行为，随机且不能太短

         long  waitLoadBaseTime =  3000 ;

         int  waitLoadRandomTime =  3000 ;

         Random random =  new  Random(System.currentTimeMillis());

         //火狐浏览器

         WebDriver driver =  new  FirefoxDriver();

         //要抓取的网页

         driver.get( "http://toutiao.com/" );

         //等待页面动态加载完毕

         Thread.sleep(waitLoadBaseTime+random.nextInt(waitLoadRandomTime));

         //要加载多少页数据

         int  pages= 5 ;

         for ( int  i= 0 ; i<pages; i++) {

             //滚动加载下一页

             driver.findElement(By.className( "loadmore" )).click();

             //等待页面动态加载完毕

             Thread.sleep(waitLoadBaseTime+random.nextInt(waitLoadRandomTime));

         }

         //输出内容

         //找到标题元素

         List<WebElement> elements = driver.findElements(By.className( "title" ));

         int  j= 1 ;

         for ( int  i= 0 ;i<elements.size();i++) {

             try  {

                 WebElement element = elements.get(i).findElement(By.tagName( "a" ));

                 //输出标题

                 System.out.println((j++) +  "、"  + element.getText() +  " "  + element.getAttribute( "href" ));

             } catch  (Exception e){

                 System.out.println( "ignore " +elements.get(i).getText()+ " because " +e.getMessage());

             }

         }

         //关闭浏览器

         driver.close();

     }

}

抓取Js动态生成数据且以滚动页面方式分页的网页的更多相关文章

抓取js动态生成数据
最近在抓数据,一般的网页数据抓取相对容易一些,今天在抓电视猫的节目单,发现有些数据时抓取不到的,Java端得到的HTML文件里面没有某一段代码,查了很多资料,发现说是js动态生成的数据,无法直接抓取, ...
抓取js动态生成的数据分析案例
需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的 ...
js动态生成数据列表
我们通常会使用table标签来展示数据内容,由于需要展示的数据内容是随时更换的,所以不可能将展示的数据列表写死在html写死在页面中,而是需要我们根据后台传来的数据随时更换,这个时候就需要我们使用js ...
js动态生成数据的抓取
需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的 ...
爬虫案例(js动态生成数据)
需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
爬虫之抓取js生成的数据
有很多页面,当我们用request发送请求,返回的内容里面并没有页面上显示的数据,主要有两种情况,一是通过ajax异步发送请求,得到响应把数据放入页面中,对于这种情况,我们可以查看关于ajax的请求, ...
2）JS动态生成HTML元素的爬取
2)JS动态生成HTML元素的爬取 import java.util.List; import org.openqa.selenium.By; import org.openqa.selenium.W ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...

随机推荐

linux第4天 shell socket
$[ ] 表示形式告诉shell对方括号中的表达式求值 echo $[3+9] 赋值运算符 =,+=,-=,*=,/=,%=,&=,^=.|=,<<=,>>= let ...
java 项目打包流程速记
1.与资源库同步 2.[解决冲突] --可能没有这一步 3.合并标记 4.清除一下项目-- clean 5.打包: run As -->Maven install 6.去服务备份原包,下载服务 ...
把所有特权给root '%'所有IP
grant all privileges on *.* to root@'%' identified by 'root'; --把所有特权给root '%'所有IP
JSON讲解和“弹窗”
json定义形式{key1:value1, key2:value2, key3:value3.....} 例: title>JSON讲解</title> <script src ...
[Ubuntu] Ubuntu搭建VPN服务器pptpd
在 Ubuntu 上搭建 VPN 服务器的方法非常多,比较著名的有 PPTP, L2TP/IPSec 和 OpenVPN. 这三种方式中后两者的安全性比较好,但配置较麻烦.其中 OpenVPN 在 W ...
Openstack的HA解决方案【haproxy和keepalived】
1. 安装haproxy,keepalived, httpd,3台机器一致. yum install haproxy keepalived httpd -y 2. 修改httpd的默认页面. 在/va ...
[转]通过PowerShell工具跨多台服务器执行SQL脚本
转至:http://www.cnblogs.com/SameZhao/p/4743692.html 有时候,当我们并没有合适的第三方工具(大部分需要付费)去管理多台数据库服务器,那么如何做最省力.省心 ...
:eq(index)
匹配一个给定索引值的元素从 0 开始计数查找第二行 HTML 代码: <table> <tr><td>Header 1</td></tr> ...
160922、配置：spring通过profile或@profile配置不同的环境（测试、开发、生产）
一.配置环境 applicationContext.xml中添加下边的内容(develop:开发环境,production:生产环境,test:测试环境) 注意:profile的定义一定要在文档的最下 ...
laravel5.0升级到laravel5.1
1.修改composer.json.将其中的"laravel/framework": "5.0.*"修改为"laravel/framework&quo ...

抓取Js动态生成数据且以滚动页面方式分页的网页

抓取Js动态生成数据且以滚动页面方式分页的网页的更多相关文章

随机推荐

热门专题