手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取

系列教程：

手把手教你写电商爬虫-第一课找个软柿子捏捏

手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫

看完两篇，相信大家已经从开始的小菜鸟晋升为中级菜鸟了，好了，那我们就继续我们的爬虫课程。

上一课呢一定是因为对手太强，导致我们并没有完整的完成尚妆网的爬虫。

吭吭~，我们这一课继续，争取彻底搞定尚妆网，不留任何遗憾。

我们先回顾一下，上一课主要遗留了两个问题，两个问题都和ajax有关。

1、由于是ajax加载下一页，导致下一页url并不会被系统自动发现。

2、商品页面的价格是通过ajax加载的，我们直接从网页中获取不到信息本身。

好了，我们先解决第一个问题：

第一个问题实际上是一个爬虫中比较常见的问题，即url的发现，默认情况下，URL的发现是神箭手框架自动处理的，但是如果在ajax的情况下，框架则无从发现url，这个时候就需要我们自己手动处理url的发现，这里，神箭手给我们提供了一个很方便的回调函数让我们来自己处理url的发现：

onProcessHelperUrl(url, content, site)

这个回调函数有两个参数，分别是当前处理的页面对象和整个爬取站的对象，我们可以通过获取页面对象的内容来分析是否有我们需要的新一页的url，通过 site.addUrl()方法加入到url队列中既可。这里我们可以看到，当超出页数的时候，尚妆网会给我们返回一个这样的页面，我们就知道页数超过了，不需要在加入新的页url：

这个页面我们很好判断，只需要看内容中是否有"无匹配商品"关键字既可。

这里我们需要一些基础的js能力，代码如下：

configs.onProcessHelperUrl = function(url, content, site){

        if(!content.indexOf("无匹配商品")){

            //如果没有到最后一页，则将页数加1

            var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));

            var page = currentPage + 1;

            var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);

            site.addUrl(nextUrl);

        }

    }

原理很简单，如果内容中没有无匹配商品这个关键词的时候，则把当前页面的下一页加入的待爬队列中。
好了，ajax分页问题彻底解决，下面来看这个最棘手的ajax内容加载的问题，也就是如何获取到商品页面中的价格信息

首先，遇到这类问题，我们通常有两个思路：

1、通过js引擎将整个页面渲染出来之后，在去做内容抽取，这个方案对于一些复杂js页面是唯一解决方案，用神箭手框架来处理也很简单，不过由于需要执行js，导致抓取速度很慢，不到不得已情况，我们先不使用这个核武器

2、通过刚刚处理分页的经验，我们可以预先分析ajax请求，然后将这一步多出来的请求和原来的页面请求做一个关联。这种方案适合比较简单的js页面中。

OK，介绍完思路，根据经验，我们感觉尚妆网的ajax加载并没有十分复杂，所以我们选择方案二来处理这种ajax页面加载。

同样的，首页我们通过chrome开发者工具，抓取到这个ajax请求，这里教大家一个小窍门，开发者工具中，可以筛选请求对象未xhr，这种就是异步请求，我们就很容易发现我们的嫌疑url:

http://item.showjoy.com/product/getPrice?skuId=22912

我们在页面中找一下这个22912怎么提取最方便，我们很快就发现了一个标签：

 <input type="hidden" value="22912" id="J_UItemId" />

这个标签很干净，获取的xpath也很简单：

//input[@id="J_UItemId"]/@value

这样就好办了，我们再看下这个页面请求的结果是什么：

{"count":0,"data":
{"discount":"6.2","discountMoney":"43.00","originalPrice":112,"price":"69.00","showjoyPrice":"69.00"},"isRedirect":0,"isSuccess":0,"login":0}

可以看出来，是一个典型的json对象，这个就好办了，神箭手框架中给我们提供了通过jsonpath提取内容的方式，可以很简单的提取到价格对象，即price对应的值。

那最后我们怎么才能关联这个请求呢？这里也是框架中提供的一个方案，叫做attachedUrl，专门用来解决关联请求的请求的问题，也就是某一个字段的值可以通过一个关联请求的内容中抽取出来。语法我就不介绍了，直接上代码吧：

 {

      name: "skuid",

      selector: "//input[@id='J_UItemId']/@value",

    },

    {

      name: "price",

      sourceType: SourceType.AttachedUrl,

      attachedUrl: "http://item.showjoy.com/product/getPrice?skuId={skuid}",

      selectorType: SelectorType.JsonPath,

      selector: "$.data.price",

    }

简单介绍一下attachedUrl的用法，首先我们要设置sourceType为attachedUrl，同时我们要设置一个attachedUrl，即为关联请求的地址，其中由于有一个值是动态的，所以我们需要在这个抽取项之前先抽取一下这个动态的值，所以我们增加了一个抽取项的名字叫做skuid，在 attachedUrl中的调用方法为{skuid}，真实请求时，该项就会被自动替换成我们上一个skuid抽取项抽取到的值。接着，由于我们获取到的是json返回，因此我们抽取的方式应该是通过jsonpath，最后，写一个抽取规则既可，jsonpath比xpath更加简单，相信大家一看就懂了。

好了，弄了这么多，完整的代码如下：

var configs = {

        domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com"],

        scanUrls: ["http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C"],

        contentUrlRegexes: ["http://item\\.showjoy\\.com/sku/\\d+\\.html"],

        helperUrlRegexes: ["http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(\\&page=\\d+)?"],//可留空

        fields: [

            {

                // 第一个抽取项

                name: "title",

                selector: "//h3[contains(@class,'choose-hd')]",//默认使用XPath

                required: true //是否不能为空

            },

            {

                // 第二个抽取项

                name: "comment",

                selector: "//div[contains(@class,'dtabs-hd')]/ul/li[2]",//使用正则的抽取规则

                required: false //是否不能为空

            },

            {

                // 第三个抽取项

                name: "sales",

                selector: "//div[contains(@class,'dtabs-hd')]/ul/li[3]",//使用正则的抽取规则

                required: false //是否不能为空

            },

            {

                name: "skuid",

                selector: "//input[@id='J_UItemId']/@value",

            },

            {

                name: "price",

                sourceType: SourceType.AttachedUrl,

                attachedUrl: "http://item.showjoy.com/product/getPrice?skuId={skuid}",

                selectorType: SelectorType.JsonPath,

                selector: "$.data.price",  

            }

        ]

    };  

    configs.onProcessHelperUrl = function(url, content, site){

        if(!content.indexOf("无匹配商品")){

            //如果没有到最后一页，则将页数加1

            var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));

            var page = currentPage + 1;

            var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);

            site.addUrl(nextUrl);

        }

        return true;

    }

    var crawler = new Crawler(configs);

    crawler.start();

终于搞定了，我们赶紧测试一下爬取的结果吧：

欣赏自己艰苦的劳动成果是不是很有成就感，不过现在的爬取结果依然有些美中不足，评论数和销售额拿到的都是一个完整的句子，而我们希望得到的是具体的数字，这个怎么操作呢？这个其实就是一个字段抽取到之后的进一步处理，框架中给我们提供了一个回调函数为：

afterExtractField(fieldName, data)

函数会将抽取名和抽取到的数据传进来，我们只需要通过js的字符串处理函数对数据进行进一步加工既可，直接上完整的修改过的代码：

var configs = {

    domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com"],

    scanUrls: ["http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C"],

    contentUrlRegexes: ["http://item\\.showjoy\\.com/sku/\\d+\\.html"],

    helperUrlRegexes: ["http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(\\&page=\\d+)?"],//可留空

    fields: [

        {

            // 第一个抽取项

            name: "title",

            selector: "//h3[contains(@class,'choose-hd')]",//默认使用XPath

            required: true //是否不能为空

        },

        {

            // 第二个抽取项

            name: "comment",

            selector: "//div[contains(@class,'dtabs-hd')]/ul/li[2]",//使用正则的抽取规则

            required: false //是否不能为空

        },

        {

            // 第三个抽取项

            name: "sales",

            selector: "//div[contains(@class,'dtabs-hd')]/ul/li[3]",//使用正则的抽取规则

            required: false //是否不能为空

        },

        {

            name: "skuid",

            selector: "//input[@id='J_UItemId']/@value",

        },

        {

            name: "price",

            sourceType: SourceType.AttachedUrl,

            attachedUrl: "http://item.showjoy.com/product/getPrice?skuId={skuid}",

            selectorType: SelectorType.JsonPath,

            selector: "$.data.price",  

        }

    ]

};  

configs.onProcessHelperUrl = function(url, content, site){

    if(!content.indexOf("无匹配商品")){

        //如果没有到最后一页，则将页数加1

        var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));

        var page = currentPage + 1;

        var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);

        site.addUrl(nextUrl);

    }

    return true;

}

configs.afterExtractField = function(fieldName, data){

    if(fieldName == "comment" || fieldName == "sales"){

        var regex = /.*（(\d+)）.*/;

        return (data.match(regex))[1];

    }

    return data;

}

var crawler = new Crawler(configs);

crawler.start();

我们判断了如果是comment和sales抽取项时，通过正则直接匹配到括号里的数字，这里注意，网页上的括号本来是全角的括号，所以千万不要写错了。

这次终于可以开心的看着自己的爬虫数据结果了：

对爬虫感兴趣的童鞋可以加qq群讨论：342953471。

手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取的更多相关文章

手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染
版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ...
手把手教大家如何用scrapy爬虫框架爬取王者荣耀官网英雄资料
之前被两个关系很好的朋友拉入了王者荣耀的大坑,奈何技术太差,就想着做一个英雄的随查手册,这样就可以边打边查了.菜归菜,至少得说明咱打王者的态度是没得说的,对吧?大神不喜勿喷!!!感谢!!废话不多说,开 ...
手把手教你写Linux设备驱动---中断(三)--workqueue实现(基于友善之臂4412开发板) 【转】
转自:http://blog.csdn.net/morixinguan/article/details/69680909 上节,我们讲到如何来实现tasklet小任务机制 http://blog.cs ...
[原创]手把手教你写网络爬虫（4）：Scrapy入门
手把手教你写网络爬虫(4) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 上期我们理性的分析了为什么要学习Scrapy,理由只有一个,那就是免费,一分钱都不用花! 咦?怎么有人扔西红柿 ...
[原创]手把手教你写网络爬虫（5）：PhantomJS实战
手把手教你写网络爬虫(5) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 大家好!从今天开始,我要与大家一起打造一个属于我们自己的分布式爬虫平台,同时也会对涉及到的技术进行详细介绍.大 ...
[原创]手把手教你写网络爬虫（7）：URL去重
手把手教你写网络爬虫(7) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 本期我们来聊聊URL去重那些事儿.以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的UR ...
手把手教你写基于C++ Winsock的图片下载的网络爬虫
手把手教你写基于C++ Winsock的图片下载的网络爬虫先来说一下主要的技术点: 1. 输入起始网址,使用ssacnf函数解析出主机号和路径(仅处理http协议网址) 2. 使用socket套接字 ...
手把手教你写Sublime中的Snippet
手把手教你写Sublime中的Snippet Sublime Text号称最性感的编辑器, 并且越来越多人使用, 美观, 高效关于如何使用Sublime text可以参考我的另一篇文章, 相信你会喜 ...
手把手教你写LKM rookit! 之第一个lkm程序及模块隐藏（一）
唉,一开始在纠结起个什么名字,感觉名字常常的很装逼,于是起了个这<手把手教你写LKM rookit> 我觉得: 你们觉得:...... 开始之前,我们先来理解一句话:一切的操作都是系统调用 ...

随机推荐

EASYUI- EASYUI左移右移 GRID中值
EASYUI左移右移 GRID中值 $("#addAll").click(function(){ var ids = []; var names = []; var srcrows ...
[转] C++ Redistributable Package版本详解
我们使用的程序常常都需要C++ Redistributable Package的支持.C++ Redistributable Package有众多版本,给安装带了不便. 目前(2013-12-04) ...
对PostgreSQL xmax的理解
xmax The identity (transaction ID) of the deleting transaction, or zero for an undeleted row version ...
详解Android ActionBar之一：ActionBar概述与创建
前面一个系列中讲的是Fragment的内容,Android 3.0中除Fragment外,Action Bar同样也是一个很重要的知识点.我们经常使用Action Bar来替代传统的标题栏.如果是An ...
Microsoft Visual Studio与Firefly 加载的项目已建议，更新源代码地位问题
一开始装笔记本vs2010,由于使用的近期发展vs2008与vs2005所以,今天再次2008.2005安装在,但是在打开的项目时,,首先提示加载项目文件.然后已建议状态,非常慢非常慢的,之前仅仅有v ...
（转）如何在JavaScript与ActiveX之间传递数据2
本文研究如何在JS等脚本语言与ActiveX控件之间通信,如何传递各种类型的参数,以及COM的IDispatch接口.使用类似的方法,可以推广到其他所有脚本型语言,如LUA,AutoCad等.本文将研 ...
HttpClient 4.3.* 上传带中文文件名文件文件名乱码问题的解决
又是折腾了一天才解决的问题,网上关于这个问题的资料不多,希望写出来能帮到有需要的人. 之前无论怎么设置charset都不起作用, 后来看了这篇文章才发现MultipartEntityBuilder有 ...
[Effective C++ --024]若所有参数皆需类型转换，请为此采用non-member函数
引言假设我们有这样的类: class A{ public: A(, ) {}; int num() const; int den() const; const A operator* (const ...
PAT 1010
1010. Radix (25) Given a pair of positive integers, for example, 6 and 110, can this equation 6 = 11 ...
定时自动同步文件，支持多文件夹同步，支持过滤文件和文件夹，解决FileSystemWatcher多次文件触发事件（源码）
博客园里面有很多同步工具和软件,关于FileSystemWatcher类解释的也很多,但收集了很多文章后,感觉没好的方法,自己没事写了一个定时文件同步,借鉴了很多博客园朋友的东西: 上主菜: 配置文件 ...

手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取

手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取的更多相关文章

随机推荐

热门专题

手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取

手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取的更多相关文章