webmagic爬取渲染网站

最近突然得知之后的工作有很多数据采集的任务，有朋友推荐webmagic这个项目，就上手玩了下。发现这个爬虫项目还是挺好用，爬取静态网站几乎不用自己写什么代码（当然是小型爬虫了~~|）。好了，废话少说，以此随笔记录一下渲染网页的爬取过程首先找到一个js渲染的网站，这里直接拿了学习文档里面给的一个网址，http://angularjs.cn/

打开网页是这样的

查看源码是这样的

源码这么少，不用说肯定是渲染出来的了，随便搜了一条记录，果然源码里面找不到结果

那就开始解析网址了，从浏览器开发者工具里面发现了这么些请求记录

就直接从得到的数据量最大的请求开始查看，如上红线标记的。从xhr看出这是个ajax请求来的数据，打开请求的数据是这样的

从网页上找一条源码里面找不到的记录，放在这个json数据里面搜索一下，运气还是不错的，搜索到了

那不用说，就是它了！！接下来直接解析这个json就能拿到所有渲染后的链接了。

从网页直接点击一个链接进入，发现链接是这样的：

然后回到json文件，找到这个标题

找到一个很了不起的东西！就是那个id，它就是链接后面带的。大胆推测，所有链接都是这个尿性！！（事实上我多点了几个链接看才敢确认这个尿性）

接下来就好办了，写代码解析这个json数据，然后拼凑出所有链接加入爬取队列爬取就行了。

结果发现通过首页链接点进去的下级链接，还是js渲染的。。。

没办法，拿着链接请求继续分析

得到这么些请求数据：

直接看到xhr栏，也就是ajax请求的数据

依旧从大到小查看json数据，和页面的内容匹配，直到第三个才找到正确的。++|

然后得到了最终数据的请求链接：http://angularjs.cn/api/article/A2KW

接下来就可以写代码了：

 public class SpiderTest implements PageProcessor {

     // 抓取网站的相关配置，包括编码、抓取间隔、重试次数等

     private Site site = Site.me().setRetryTimes(3).setSleepTime(100);

     // 先从浏览器中分析出隐藏请求可得出以下匹配规则

     private static final String URLRULE = "http://angularjs\\.cn/api/article/latest.*";

     private static String firstUrl = "http://angularjs.cn/api/article/";

     @Override

     public Site getSite() {

         // TODO Auto-generated method stub

         return site;

     }

     @Override

     public void process(Page page) {

         // TODO Auto-generated method stub

         /**

          * 筛选出所有符合条件的url，手动添加到爬取队列。

          */

         if (page.getUrl().regex(URLRULE).match()) {

             //通过jsonpath得到json数据中的id内容，之后再拼凑待爬取链接

             List<String> endUrls = new JsonPathSelector("$.data[*]._id").selectList(page.getRawText());

             if (CollectionUtils.isNotEmpty(endUrls)) {

                 for (String endUrl : endUrls) {

                     page.addTargetRequest(firstUrl + endUrl);

                 }

             }

         } else {

             //通过jsonpath从爬取到的json数据中提取出id和content内容

             page.putField("title", new JsonPathSelector("$.data.title").select(page.getRawText()));

             page.putField("content", new JsonPathSelector("$.data.content").select(page.getRawText()));

         }

     }

     @Test

     public void test(){

         Spider.create(new SpiderTest()).addUrl("http://angularjs.cn/api/article/latest?s=20").run();

     }

 }

至此一个渲染的网页就爬取下来了。over

webmagic爬取渲染网站的更多相关文章

python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...

随机推荐

[Tyvj 1728] 普通平衡树
大名鼎鼎的板子题w 照例先贴题面 Describtion 您需要写一种数据结构(可参考题目标题),来维护一些数,其中需要提供以下操作:1. 插入x数2. 删除x数(若有多个相同的数,因只删除一个)3. ...
PHPsthdy+xdebug
PHPsthdy下载后查看phpinfo后会发现没有xdebug这一项: 1.phpStudy集成了XDebug扩展,所以不用单独下载XDebug. 2.打开XDebug扩展:右击PHPstudy的图 ...
Docker学习--->>Docker的认识，安装，及常用命令熟悉
Docker是什么? 在平常的软件开发中,会面临着开发不同的程序或服务需要不同的环境.而在该环境上开发完成后,想要在其他的环境上部署,则需要自己去重新部署,而Docker的出现使得这样的迁移变得容易. ...
Qt For Android 开发环境配置
想了想,还是再写一篇关于Qt for Android开发环境配置的教程. 准备:Java jdk,Android sdk,Android adb,Android ndk,Android ant,Qt ...
swift 导出测试包（Save for Ad Hoc Deployment）卡在compile bitcode处问题
如图取消Rebuild from bitcode选中速度会快很多
教你用python写：HDU刷题神器
声明:本文以学习为目的,请不要影响他人正常判题 HDU刷题神器,早已被前辈们做出来了,不过没有见过用python写的.大一的时候见识了学长写这个,当时还是一脸懵逼,只知道这玩意儿好屌-.时隔一年,决定 ...
java8之lambda表达式（1）-基本语法
lambda表达式,即带有参数的表达式,为更清晰地理解lambda表达式,先看如下例子: (1) class Student{ private String name; private Double ...
location对象的使用
Location 对象属性属性描述 hash 设置或返回从井号 (#) 开始的 URL(锚). host 设置或返回主机名和当前 URL 的端口号. hostname 设置或返回当前 URL 的主 ...
基于 Laravel 开发 ThinkSNS+ 中前端的抉择（webpack/Vue）踩坑日记【ThinkSNS+研发日记系列】
在上一篇文章< ThinkSNS+基于Laravel master分支,从1到 0,再到0.1>,简单的介绍了社群系统ThinkSNS+ ,这里分享在开发过程中,前端选择的心理活动. L ...
mysql metadata lock
想必玩过mysql的人对Waiting for table metadata lock肯定不会陌生,一般都是进行alter操作时被堵住了,导致了我们在show processlist 时,看到线程的状 ...

webmagic爬取渲染网站

webmagic爬取渲染网站的更多相关文章

随机推荐

热门专题