大众点评上有很多美食餐馆的信息,正好可以拿来练练手Node.js。

1. API分析

大众点评开放了查询商家信息的API,这里给出了城市与cityid之间的对应关系,链接http://m.api.dianping.com/searchshop.json?&regionid=0&start=0&categoryid=10&sortid=0&cityid=110以GET方式给出了餐馆的信息(JSON格式)。首先解释下GET参数的含义:

  • start为步进数,表示分步获取信息的index,与nextStartIndex字段相对应;
  • cityid表示城市id,比如,合肥对应于110;
  • regionid表示区域id,每一个id代表含义在start=0时rangeNavs字段中有解释;
  • categoryid表示搜索商家的分类id,比如,美食对应的id为10,具体每一个id的含义参见在start=0时categoryNavs字段;
  • sortid表示商家结果的排序方式,比如,0对应智能排序,2对应评价最好,具体每一个id的含义参见在start=0时sortNavs字段。

在GET返回的JSON串中list字段为商家列表,id表示商家的id,作为商家的唯一标识。在返回的JSON串中是没有商家的口味、环境、服务的评分信息以及经纬度的;因而我们还需要爬取两个商家页面:http://m.dianping.com/shop/<id>http://m.dianping.com/shop/<id>/map

通过以上分析,确定爬取策略如下(与dianping_crawler的思路相类似):

  1. 逐步爬取searchshop API的取商家基本信息列表;
  2. 通过爬取的所有商家的id,异步并发爬取评分信息、经纬度;
  3. 最后将三份数据通过id做聚合,输出成json文件。

2. 爬虫实现

Node.js爬虫代码用到如下的第三方模块:

  • superagent,轻量级http请求库,模仿了浏览器登录;
  • cheerio,采用jQuery语法解析HTML元素,跟Python的PyQuery相类似;
  • async,牛逼闪闪的异步流程控制库,Node.js的必学库。

导入依赖库:

var util = require("util");
var superagent = require("superagent");
var cheerio = require("cheerio");
var async = require("async");
var fs = require('fs');

声明全局变量,用于存放配置项及中间结果:

var cityOptions = {
"cityId": 110, // 合肥
// 全部商区, 蜀山区, 庐阳区, 包河区, 政务区, 瑶海区, 高新区, 经开区, 滨湖新区, 其他地区, 肥西县
"regionIds": [0, 356, 355, 357, 8840, 354, 8839, 8841, 8843, 358, -922],
"categoryId": 10, // 美食
"sortId": 2, // 人气最高
"threshHold": 5000 // 最多餐馆数
}; var idVisited = {}; // used to distinct shop
var ratingDict = {}; // id -> ratings
var posDict = {}; // id -> pos

判断一个id是否在前面出现过,若object没有该id,则为undefined(注意不是null):

function isVisited(id) {
if (idVisited[id] != undefined) {
return true;
} else {
idVisited[id] = true;
return false;
}
}

采取回调函数的方式,实现顺序逐步地递归调用爬虫函数(代码结构参考了这里):

function DianpingSpider(regionId, start, callback) {
console.log('crawling region=', regionId, ', start =', start);
var searchBase = 'http://m.api.dianping.com/searchshop.json?&regionid=%s&start=%s&categoryid=%s&sortid=%s&cityid=%s';
var url = util.format(searchBase, regionId, start, cityOptions.categoryId, cityOptions.sortId, cityOptions.cityId);
superagent.get(url)
.end(function (err, res) {
if (err) return console.err(err.stack);
var restaurants = [];
var data = JSON.parse(res.text);
var shops = data['list'];
shops.forEach(function (shop) {
var restaurant = {};
if (!isVisited(shop['id'])) {
restaurant.id = shop['id'];
restaurant.name = shop['name'];
restaurant.branchName = shop['branchName'];
var regex = /(.*?)(\d+)(.*)/g;
if (shop['priceText'].match(regex)) {
restaurant.price = parseInt(regex.exec(shop['priceText'])[2]);
} else {
restaurant.price = shop['priceText'];
}
restaurant.star = shop['shopPower'] / 10;
restaurant.category = shop['categoryName'];
restaurant.region = shop['regionName'];
restaurants.push(restaurant);
}
}); var nextStart = data['nextStartIndex'];
if (nextStart > start && nextStart < cityOptions.threshHold) {
DianpingSpider(regionId, nextStart, function (err, restaurants2) {
if (err) return callback(err);
callback(null, restaurants.concat(restaurants2))
});
} else {
callback(null, restaurants);
}
});
}

在调用爬虫函数时,采用async的mapLimit函数实现对并发的控制(代码参考这里);采用async的until对并发的协同处理,保证三份数据结果的id一致性(不会因为并发完成时间不一致而丢数据):

DianpingSpider(0, 0, function (err, restaurants) {
if (err) return console.err(err.stack);
var concurrency = 0;
var crawlMove = function (id, callback) {
var delay = parseInt((Math.random() * 30000000) % 1000, 10);
concurrency++;
console.log('current concurrency:', concurrency, ', now crawling id=', id, ', costs(ms):', delay);
parseShop(id);
parseMap(id);
setTimeout(function () {
concurrency--;
callback(null, id);
}, delay);
}; async.mapLimit(restaurants, 5, function (restaurant, callback) {
crawlMove(restaurant.id, callback)
}, function (err, ids) {
console.log('crawled ids:', ids);
var resultArray = [];
async.until(
function () {
return restaurants.length === Object.keys(ratingDict).length && restaurants.length === Object.keys(posDict).length
},
function (callback) {
setTimeout(function () {
callback(null)
}, 1000)
},
function (err) {
restaurants.forEach(function (restaurant) {
var rating = ratingDict[restaurant.id];
var pos = posDict[restaurant.id];
var result = Object.assign(restaurant, rating, pos);
resultArray.push(result);
});
writeAsJson(resultArray);
}
);
});
});

其中,parseShop与parseMap分别为解析商家详情页、商家地图页:

function parseShop(id) {
var shopBase = 'http://m.dianping.com/shop/%s';
var shopUrl = util.format(shopBase, id);
superagent.get(shopUrl)
.end(function (err, res) {
if (err) return console.err(err.stack);
console.log('crawling shop:', shopUrl);
var restaurant = {};
var $ = cheerio.load(res.text);
var desc = $("div.shopInfoPagelet > div.desc > span");
restaurant.taste = desc.eq(0).text().split(":")[1];
restaurant.surrounding = desc.eq(1).text().split(":")[1];
restaurant.service = desc.eq(2).text().split(":")[1];
ratingDict[id] = restaurant;
});
} function parseMap(id) {
var mapBase = 'http://m.dianping.com/shop/%s/map';
var mapUrl = util.format(mapBase, id);
superagent.get(mapUrl)
.end(function (err, res) {
if (err) return console.err(err.stack);
console.log('crawling map:', mapUrl);
var restaurant = {};
var $ = cheerio.load(res.text);
var data = $("body > script").text();
var latRegex = /(.*lat:)(\d+.\d+)(.*)/;
var lngRegex = /(.*lng:)(\d+.\d+)(.*)/;
if(data.match(latRegex) && data.match(lngRegex)) {
restaurant.latitude = latRegex.exec(data)[2];
restaurant.longitude = lngRegex.exec(data)[2];
}else {
restaurant.latitude = '';
restaurant.longitude = '';
}
posDict[id] = restaurant;
});
}

将array的每一个商家信息,逐行写入到json文件中:

function writeAsJson(arr) {
fs.writeFile(
'data.json',
arr.map(function (data) {
return JSON.stringify(data);
}).join('\n'),
function (err) {
if (err) return err.stack;
})
}

说点感想:Node.js天生支持并发,但是对于习惯了顺序编程的人,一开始会对Node.js不适应,比如,变量作用域是函数块式的(与C、Java不一样);for循环体({})内引用i的值实际上是循环结束之后的值,因而引起各种undefined的问题;嵌套函数时,内层函数的变量并不能及时传导到外层(因为是异步)等等。

Node.js大众点评爬虫的更多相关文章

  1. Node.js 网页瘸腿爬虫初体验

    延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...

  2. 基于Node.js的强大爬虫 能直接发布抓取的文章哦

    基于Node.js的强大爬虫 能直接发布抓取的文章哦 基于Node.js的强大爬虫能直接发布抓取的文章哦!本爬虫源码基于WTFPL协议,感兴趣的小伙伴们可以参考一下 一.环境配置 1)搞一台服务器,什 ...

  3. 爬虫--反爬--css反爬---大众点评爬虫

    大众点评爬虫分析,,大众点评 的爬虫价格利用css的矢量图偏移,进行加密 只要拦截了css 解析以后再写即可 # -*- coding: utf- -*- """ Cre ...

  4. node.js主从分布式爬虫

    前言 前文介绍过用Python写爬虫,但是当任务多的时候就比较慢, 这是由于Python自带的http库urllib2发起的http请求是阻塞式的,这意味着如果采用单线程模型,那么整个进程的大部分时间 ...

  5. 使用node.js制作简易爬虫

    最近看了些node.js方面的知识,就像拿它来做些什么.因为自己喜欢摄影,经常上蜂鸟网,所以寻思了一下,干脆做个简单的爬虫来扒论坛的帖子. 直接上代码吧. var sys = require(&quo ...

  6. node.js 89行爬虫爬取智联招聘信息

    写在前面的话, .......写个P,直接上效果图.附上源码地址  github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...

  7. 【Python3爬虫】大众点评爬虫(破解CSS反爬)

    本次爬虫的爬取目标是大众点评上的一些店铺的店铺名称.推荐菜和评分信息. 一.页面分析 进入大众点评,然后选择美食(http://www.dianping.com/wuhan/ch10),可以看到一页有 ...

  8. 使用Node.js搭建数据爬虫crawler

    0. 通用爬虫框架包括: (1) 将爬取url加入队列,并获取指定url的前端资源(crawler爬虫框架主要使用Crawler类进行抓取网页) (2)解析前端资源,获取指定所需字段的值,即获取有价值 ...

  9. Node.js 网页爬虫再进阶,cheerio助力

    任务还是读取博文标题. 读取app2.js // 内置http模块,提供了http服务器和客户端功能 var http=require("http"); // cheerio模块, ...

随机推荐

  1. 懒加载session 无法打开 no session or session was closed 解决办法(完美解决)

           首先说明一下,hibernate的延迟加载特性(lazy).所谓的延迟加载就是当真正需要查询数据时才执行数据加载操作.因为hibernate当中支持实体对象,外键会与实体对象关联起来.如 ...

  2. Android 判断一个 View 是否可见 getLocalVisibleRect(rect) 与 getGlobalVisibleRect(rect)

    Android 判断一个 View 是否可见 getLocalVisibleRect(rect) 与 getGlobalVisibleRect(rect) [TOC] 这两个方法的区别 View.ge ...

  3. OpenCASCADE Job - dimue

  4. C#基础篇 - 正则表达式入门

    1.基本概念 正则表达式(Regular Expression)就是用事先定义好的一些特定字符(元字符)或普通字符.及这些字符的组合,组成一个“规则字符串”,这个“规则字符串”用来判断我们给定的字符串 ...

  5. Python(九) Python 操作 MySQL 之 pysql 与 SQLAchemy

    本文针对 Python 操作 MySQL 主要使用的两种方式讲解: 原生模块 pymsql ORM框架 SQLAchemy 本章内容: pymsql 执行 sql 增\删\改\查 语句 pymsql ...

  6. CSS 3学习——边框

    在CSS 3中可以设置边框圆角.边框阴影和边框图像,分别通过border-radius.border-image和box-shadow属性设置. 边框圆角 border-radius属性是以下4个属性 ...

  7. [原] KVM虚拟机网络闪断分析

    背景 公司云平台的机器时常会发生网络闪断,通常在10s-100s之间. 异常情况 VM出现问题时,表现出来的情况是外部监控系统无法访问,猜测可能是由于系统假死,OVS链路问题等等.但是在出现网络问题的 ...

  8. [干货来袭]MSSQL Server on Linux预览版安装教程(先帮大家踩坑)

    前言 昨天晚上微软爸爸开了全国开发者大会,会上的内容,我就不多说了,园子里面很多.. 我们唐总裁在今年曾今透漏过SQL Server love Linux,果不其然,这次开发者大会上就推出了MSSQL ...

  9. Asp.Net Core + Dapper + Repository 模式 + TDD 学习笔记

    0x00 前言 之前一直使用的是 EF ,做了一个简单的小项目后发现 EF 的表现并不是很好,就比如联表查询,因为现在的 EF Core 也没有啥好用的分析工具,所以也不知道该怎么写 Linq 生成出 ...

  10. 基于NPOI的Excel数据导入

    从Excel导入数据最令人头疼的是数据格式的兼容性,特别是日期类型的兼容性.为了能够无脑导入日期,折腾了一天的NPOI.在经过测试确实可以导入任意格式的合法日期后,写下这篇小文,与大家共享.完整代码请 ...