大众点评上有很多美食餐馆的信息，正好可以拿来练练手Node.js。

1. API分析

大众点评开放了查询商家信息的API，这里给出了城市与cityid之间的对应关系，链接http://m.api.dianping.com/searchshop.json?&regionid=0&start=0&categoryid=10&sortid=0&cityid=110以GET方式给出了餐馆的信息（JSON格式）。首先解释下GET参数的含义：

start为步进数，表示分步获取信息的index，与nextStartIndex字段相对应；
cityid表示城市id，比如，合肥对应于110；
regionid表示区域id，每一个id代表含义在start=0时rangeNavs字段中有解释；
categoryid表示搜索商家的分类id，比如，美食对应的id为10，具体每一个id的含义参见在start=0时categoryNavs字段；
sortid表示商家结果的排序方式，比如，0对应智能排序，2对应评价最好，具体每一个id的含义参见在start=0时sortNavs字段。

在GET返回的JSON串中list字段为商家列表，id表示商家的id，作为商家的唯一标识。在返回的JSON串中是没有商家的口味、环境、服务的评分信息以及经纬度的；因而我们还需要爬取两个商家页面：http://m.dianping.com/shop/<id>、http://m.dianping.com/shop/<id>/map。

通过以上分析，确定爬取策略如下（与dianping_crawler的思路相类似）：

逐步爬取searchshop API的取商家基本信息列表；
通过爬取的所有商家的id，异步并发爬取评分信息、经纬度；
最后将三份数据通过id做聚合，输出成json文件。

2. 爬虫实现

Node.js爬虫代码用到如下的第三方模块：

superagent，轻量级http请求库，模仿了浏览器登录；
cheerio，采用jQuery语法解析HTML元素，跟Python的PyQuery相类似；
async，牛逼闪闪的异步流程控制库，Node.js的必学库。

导入依赖库：

var util = require("util");

var superagent = require("superagent");

var cheerio = require("cheerio");

var async = require("async");

var fs = require('fs');

声明全局变量，用于存放配置项及中间结果：

var cityOptions = {

  "cityId": 110, // 合肥

  // 全部商区, 蜀山区, 庐阳区, 包河区, 政务区, 瑶海区, 高新区, 经开区, 滨湖新区, 其他地区, 肥西县

  "regionIds": [0, 356, 355, 357, 8840, 354, 8839, 8841, 8843, 358, -922],

  "categoryId": 10, // 美食

  "sortId": 2, // 人气最高

  "threshHold": 5000 // 最多餐馆数

};

var idVisited = {}; // used to distinct shop

var ratingDict = {}; // id -> ratings

var posDict = {}; // id -> pos

判断一个id是否在前面出现过，若object没有该id，则为undefined（注意不是null）：

function isVisited(id) {

  if (idVisited[id] != undefined) {

    return true;

  } else {

    idVisited[id] = true;

    return false;

  }

}

采取回调函数的方式，实现顺序逐步地递归调用爬虫函数（代码结构参考了这里）：

function DianpingSpider(regionId, start, callback) {

  console.log('crawling region=', regionId, ', start =', start);

  var searchBase = 'http://m.api.dianping.com/searchshop.json?&regionid=%s&start=%s&categoryid=%s&sortid=%s&cityid=%s';

  var url = util.format(searchBase, regionId, start, cityOptions.categoryId, cityOptions.sortId, cityOptions.cityId);

  superagent.get(url)

      .end(function (err, res) {

        if (err) return console.err(err.stack);

        var restaurants = [];

        var data = JSON.parse(res.text);

        var shops = data['list'];

        shops.forEach(function (shop) {

          var restaurant = {};

          if (!isVisited(shop['id'])) {

            restaurant.id = shop['id'];

            restaurant.name = shop['name'];

            restaurant.branchName = shop['branchName'];

            var regex = /(.*?)(\d+)(.*)/g;

            if (shop['priceText'].match(regex)) {

              restaurant.price = parseInt(regex.exec(shop['priceText'])[2]);

            } else {

              restaurant.price = shop['priceText'];

            }

            restaurant.star = shop['shopPower'] / 10;

            restaurant.category = shop['categoryName'];

            restaurant.region = shop['regionName'];

            restaurants.push(restaurant);

          }

        });

        var nextStart = data['nextStartIndex'];

        if (nextStart > start && nextStart < cityOptions.threshHold) {

          DianpingSpider(regionId, nextStart, function (err, restaurants2) {

            if (err) return callback(err);

            callback(null, restaurants.concat(restaurants2))

          });

        } else {

          callback(null, restaurants);

        }

      });

}

在调用爬虫函数时，采用async的mapLimit函数实现对并发的控制（代码参考这里）；采用async的until对并发的协同处理，保证三份数据结果的id一致性（不会因为并发完成时间不一致而丢数据）：

DianpingSpider(0, 0, function (err, restaurants) {

  if (err) return console.err(err.stack);

  var concurrency = 0;

  var crawlMove = function (id, callback) {

    var delay = parseInt((Math.random() * 30000000) % 1000, 10);

    concurrency++;

    console.log('current concurrency:', concurrency, ', now crawling id=', id, ', costs(ms):', delay);

    parseShop(id);

    parseMap(id);

    setTimeout(function () {

      concurrency--;

      callback(null, id);

    }, delay);

  };

  async.mapLimit(restaurants, 5, function (restaurant, callback) {

    crawlMove(restaurant.id, callback)

  }, function (err, ids) {

    console.log('crawled ids:', ids);

    var resultArray = [];

    async.until(

        function () {

          return restaurants.length === Object.keys(ratingDict).length && restaurants.length === Object.keys(posDict).length

        },

        function (callback) {

          setTimeout(function () {

            callback(null)

          }, 1000)

        },

        function (err) {

          restaurants.forEach(function (restaurant) {

            var rating = ratingDict[restaurant.id];

            var pos = posDict[restaurant.id];

            var result = Object.assign(restaurant, rating, pos);

            resultArray.push(result);

          });

          writeAsJson(resultArray);

        }

    );

  });

});

其中，parseShop与parseMap分别为解析商家详情页、商家地图页：

function parseShop(id) {

  var shopBase = 'http://m.dianping.com/shop/%s';

  var shopUrl = util.format(shopBase, id);

  superagent.get(shopUrl)

      .end(function (err, res) {

        if (err) return console.err(err.stack);

        console.log('crawling shop:', shopUrl);

        var restaurant = {};

        var $ = cheerio.load(res.text);

        var desc = $("div.shopInfoPagelet > div.desc > span");

        restaurant.taste = desc.eq(0).text().split(":")[1];

        restaurant.surrounding = desc.eq(1).text().split(":")[1];

        restaurant.service = desc.eq(2).text().split(":")[1];

        ratingDict[id] = restaurant;

      });

}

function parseMap(id) {

  var mapBase = 'http://m.dianping.com/shop/%s/map';

  var mapUrl = util.format(mapBase, id);

  superagent.get(mapUrl)

      .end(function (err, res) {

        if (err) return console.err(err.stack);

        console.log('crawling map:', mapUrl);

        var restaurant = {};

        var $ = cheerio.load(res.text);

        var data = $("body > script").text();

        var latRegex = /(.*lat:)(\d+.\d+)(.*)/;

        var lngRegex = /(.*lng:)(\d+.\d+)(.*)/;

        if(data.match(latRegex) && data.match(lngRegex)) {

          restaurant.latitude = latRegex.exec(data)[2];

          restaurant.longitude = lngRegex.exec(data)[2];

        }else {

          restaurant.latitude = '';

          restaurant.longitude = '';

        }

        posDict[id] = restaurant;

      });

}

将array的每一个商家信息，逐行写入到json文件中：

function writeAsJson(arr) {

  fs.writeFile(

      'data.json',

      arr.map(function (data) {

        return JSON.stringify(data);

      }).join('\n'),

      function (err) {

        if (err) return err.stack;

      })

}

说点感想：Node.js天生支持并发，但是对于习惯了顺序编程的人，一开始会对Node.js不适应，比如，变量作用域是函数块式的（与C、Java不一样）；for循环体（{}）内引用i的值实际上是循环结束之后的值，因而引起各种undefined的问题；嵌套函数时，内层函数的变量并不能及时传导到外层（因为是异步）等等。

Node.js大众点评爬虫的更多相关文章

Node.js 网页瘸腿爬虫初体验
延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...
基于Node.js的强大爬虫能直接发布抓取的文章哦
基于Node.js的强大爬虫能直接发布抓取的文章哦基于Node.js的强大爬虫能直接发布抓取的文章哦!本爬虫源码基于WTFPL协议,感兴趣的小伙伴们可以参考一下一.环境配置 1)搞一台服务器,什 ...
爬虫--反爬--css反爬---大众点评爬虫
大众点评爬虫分析,,大众点评的爬虫价格利用css的矢量图偏移,进行加密只要拦截了css 解析以后再写即可 # -*- coding: utf- -*- """ Cre ...
node.js主从分布式爬虫
前言前文介绍过用Python写爬虫,但是当任务多的时候就比较慢, 这是由于Python自带的http库urllib2发起的http请求是阻塞式的,这意味着如果采用单线程模型,那么整个进程的大部分时间 ...
使用node.js制作简易爬虫
最近看了些node.js方面的知识,就像拿它来做些什么.因为自己喜欢摄影,经常上蜂鸟网,所以寻思了一下,干脆做个简单的爬虫来扒论坛的帖子. 直接上代码吧. var sys = require(&quo ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
【Python3爬虫】大众点评爬虫（破解CSS反爬）
本次爬虫的爬取目标是大众点评上的一些店铺的店铺名称.推荐菜和评分信息. 一.页面分析进入大众点评,然后选择美食(http://www.dianping.com/wuhan/ch10),可以看到一页有 ...
使用Node.js搭建数据爬虫crawler
0. 通用爬虫框架包括: (1) 将爬取url加入队列,并获取指定url的前端资源(crawler爬虫框架主要使用Crawler类进行抓取网页) (2)解析前端资源,获取指定所需字段的值,即获取有价值 ...
Node.js 网页爬虫再进阶，cheerio助力
任务还是读取博文标题. 读取app2.js // 内置http模块,提供了http服务器和客户端功能 var http=require("http"); // cheerio模块, ...

随机推荐

一道返回num值的小题目
题目描述: 实现fizzBuzz函数,参数num与返回值的关系如下: .如果num能同时被3和5整除,返回字符串fizzbuzz .如果num能被3整除,返回字符串fizz .如果num能被5整除,返 ...
Android性能优化之利用LeakCanary检测内存泄漏及解决办法
前言: 最近公司C轮融资成功了,移动团队准备扩大一下,需要招聘Android开发工程师,陆陆续续面试了几位Android应聘者,面试过程中聊到性能优化中如何避免内存泄漏问题时,很少有人全面的回答上来. ...
jquery插件的用法之cookie 插件
一．使用cookie 插件插件官方网站下载地址:http://plugins.jquery.com/cookie/ cookie 插件的用法比较简单,直接粘贴下面代码示例: //生成一个cookie ...
【Java大系】Java快速教程
感谢原作者:Vamei 出处:http://www.cnblogs.com/vamei Java是面向对象语言.这门语言其实相当年轻,于1995年才出现,由Sun公司出品.James Gosling领 ...
计算Div标签内Checkbox个数或已被disabled的个数
先看下面的html: 计算div内的checkbox个数:$('#divmod input[type="checkbox"]').length 计算div内checkbox被dis ...
iOS 后台处理
iOS 后台处理的常见用途 1.进入后台时候删除资源:应用处于挂起状态的时候所占用的资源越少,该应用被iOS终止的风险就越低.通过从内存中清理那些易于重新创建的资源,可以增加应用驻留内存的机会,因此可 ...
让你从零开始学会写爬虫的5个教程（Python）
写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚本是很简单的,但是对于新手来说却并不是那么容易. ...
解决WINDOWS防火墙开启后Ping不通
WINDOWS系统由于安全考虑,当开启防火墙时,默认不允许外主机对其进行ping功能,即别的电脑ping不通本机.别的主机ping不通本机是因为本机的防火墙关闭了ICMP回显功能,只要把这回显功能打开 ...
换个角度看微信小程序[推荐]
去年参加几次技术沙龙时,我注意到一个有意思的现象:与之前大家统一接受的换名片不同,有些人并不愿意被添加微信好友--"不好意思,不熟的人不加微信". 这个现象之所以有意思,是因为名片 ...
weinre- 调试移动端页面
相信很多前端的小伙伴一定会遇到一个问题, 比如我编写完一个页面,某个地方需要进行调整细节或者是哪个地方怎么调整都不对,在pc端还好,有google,firefox之类可以调节页面的工具,虽说这些工具有 ...

Node.js大众点评爬虫

1. API分析

2. 爬虫实现

Node.js大众点评爬虫的更多相关文章

随机推荐

热门专题