今天为大家重写一个美团美食板块小爬虫，说不定哪天做旅游攻略的时候也可以用下呢。废话不多说，让我们愉快地开始吧~

开发工具

Python版本：3.6.4

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

原理简介

前期准备：

因为我想让这个小爬虫可以爬取美团上任意城市美食板块的数据，但是每个城市的URL是不一样的，其格式为：

https://{城市拼音缩写}.meituan.com/

不同的城市需要不同的URL来构造请求从而爬取我们所需要的数据，于是现在的问题就变成了：如何获取所有城市对应的城市拼音缩写呢？

其实很简单，点击网页上的切换城市按钮：

然后查看网页源代码：

于是我们很easy地就可以爬取所有城市对应的城市拼音缩写了，代码实现如下：

'''城市名-拼音码爬取'''

def downCitynamesfile(citynamesfilepath):

  url = 'https://www.meituan.com/changecity/'

  doc = PyQuery(requests.get(url).text)

  cities_dict = dict()

  [cities_dict.update({city.text(): city.attr('href').replace('.', '/').split('/')[2]}) for city in doc('.cities a').items()]

  with open(citynamesfilepath, 'w', encoding='utf-8') as f:

    f.write(json.dumps(cities_dict, indent=2, ensure_ascii=False))

爬虫主程序：

现在随便切换到一个城市，以杭州为例。简单抓个包，可以发现美食商家的数据可以通过请求下图这个URL获得：

其构造方式为上图红框框出的baseURL加上下图所示的一堆参数：

其中变量为：

cityName：城市名

page：页码

uuid：uuid

_token：_token

其他均为不变量，直接copy过来就行了。前面两个变量很明显是什么，就不多说了。变量uuid在网页源代码里就能找到：

至于_token，稍微麻烦一点。考虑到_token结尾出现了=，所以猜测是base64编码，但是解码后发现是一堆16进制ASCII码，所以考虑原数据是先进行二进制压缩然后base64编码的。反向操作一波，发现果然是这样的：

全局搜索找生成相关参数的源代码：

一顿分析之后就可以开始写_token生成的代码了，具体如下：

'''获取SIGN'''

def getSIGN(cityname, page, uuid, city_code):

  url = 'https://{}.meituan.com/meishi/'.format(city_code)

  sign = 'areaId=0&cateId=0&cityName={}&dinnerCountAttrId=&optimusCode=1&originUrl={}&page={}&partner=126&platform=1&riskLevel=1&sort=&userId=&uuid={}'

  sign = sign.format(cityname, url, page, uuid)

  return sign

'''获取_token参数'''

def getToken(brfilepath, city_code, uuid, page, cityname):

  ts = int(time.time() * 1000)

  with open(brfilepath, 'r') as f:

    brs_dict = json.load(f)

  key = random.choice(list(brs_dict.keys()))

  info = brs_dict[key]

  _token = {

        'rId': 100900,

        'ver': '1.0.6',

        'ts': ts,

        'cts': ts + random.randint(100, 120),

        'brVD': info.get('barVD'),

        'brR': [info.get('brR_one'), info.get('brR_two'), 24, 24],

        'bI': ['https://{}.meituan.com/meishi/'.format(city_code),''],

        'mT': [],

        'kT': [],

        'aT': [],

        'tT': [],

        'aM': '',

        'sign': getSIGN(cityname, page, uuid, city_code)

      }

  return base64.b64encode(zlib.compress(str(_token).encode())).decode()

OK，知道了baseURL，获得了所有参数，我们就可以愉快地写主程序了：

'''主函数'''

def MTSpider(cityname, maxpages=50):

  data_pages = {}

  citynamesfilepath, uafilepath, uuidfilepath, brfilepath, savedatapath = initialProgram(cityname)

  base_url = 'https://{}.meituan.com/meishi/api/poi/getPoiList?'.format(cityname2CODE(cityname, citynamesfilepath))

  try:

    for page in range(1, maxpages+1):

      print('[INFO]: Getting the data of page<%s>...' % page)

      data_page = None

      while data_page is None:

        params = getGETPARAMS(cityname, page, citynamesfilepath, uuidfilepath, brfilepath)

        url = base_url + urlencode(params)

        headers = {

              'Accept': 'application/json',

              'Accept-Encoding': 'gzip, deflate, br',

              'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

              'User-Agent': getRandomUA(uafilepath),

              'Connection': 'keep-alive',

              'Host': 'bj.meituan.com',

              'Referer': 'https://{}.meituan.com/'.format(cityname2CODE(cityname, citynamesfilepath))

            }

        res = requests.get(url, headers=headers)

        data_page = parsePage(json.loads(res.text))

        if data_page is None:

          time.sleep(random.random()+random.randint(3, 6))

          initialProgram(cityname)

      data_pages.update(data_page)

      if page != maxpages:

        time.sleep(random.random()+random.randint(3, 6))

  except:

    print('[Warning]: Something wrong...')

  with open(savedatapath, 'wb') as f:

    pickle.dump(data_pages, f)

其中解析返回的json数据的函数如下：

'''解析一页数据'''

def parsePage(data_page):

  data_parse = dict()

  infos = data_page.get('data')

  if infos is None:

    return None

  else:

    infos = infos.get('poiInfos')

    for info in infos:

      # 店名: 地址, 评论数量, 平均得分, 平均价格

      data_parse[info.get('title')] = [info.get('address'), info.get('allCommentNum'), info.get('avgScore'), info.get('avgPrice')]

  return data_parse

一些细节和tricks就不细说了。

All Done****！完整源代码详见主页个人介绍获取相关文件。

数据可视化

按惯例随手可视化一波，以抓取的杭州美食数据为例吧(这里只爬取了前50页)，省的重新爬了。

先来搞个词云玩玩吧，用爬到的所有商家名/商家地址来搞个词云：

然后我们假设美食性价比的定义为(这个假设很可能是不合理，这里只是为了方便自己做下简单的数据分析随便假设了一下。)：

性价比 = 评论数量 x 平均得分 / 平均价

于是我们可以得到"杭州性价比最高的十家店"为(只是个小例子，不供参考，如有雷同，不胜荣幸。)：

为了帮助学习Python进步慢的伙伴们，在这里为大家准备了丰富的学习大礼包

OK。完整源代码详见主页中个人介绍获取相关文件。****

Python爬虫系列之爬取美团美食板块商家数据（二）的更多相关文章

Python爬虫系列之爬取美团美食板块商家数据（一）
主要思路目的: 根据输入的城市名,爬取该城市美团美食板块所有商家的数据.数据包括: 店名.评分.评论数量.均价.地址, 并将这些数据存入Excel中. 最后尝试对爬取到的数据做一个简单的分析. 克服 ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
python爬虫系列之爬取多页gif图像
python爬取多页gif图像作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...

随机推荐

deep copy & deep merge
deep copy & deep merge JSON.parse(JSON.stringify(obj)); lodash https://lodash.com/docs/ https:// ...
TypeScript Generics
TypeScript Generics https://www.typescriptlang.org/docs/handbook/generics.html 泛型 1 Generic Interfac ...
js jsonParse
mdn const rx_one = /^[\],:{}\s]*$/; const rx_two = /\\(?:["\\\/bfnrt]|u[0-9a-fA-F]{4})/g; // 匹配 ...
linux DRM 之 GEM 笔记
原文链接:https://www.cnblogs.com/yaongtime/p/14418357.html 在GPU上的各类操作中涉及到多种.多个buffer的使用. 通常我们GPU是通过图像API ...
调用Config.ini类
private static string sPath = @Directory.GetCurrentDirectory() + "\\config.ini"; [DllImpor ...
我ssh框架遇到报错及处理方式
Exception encountered during context initialization - cancelling refresh attempt 修改hbm.xml后遇到的问题,错误可 ...
POJ1852-换向思考
蚂蚁碰撞后反向与穿越的时间一样. 穷竭搜索---->想象力 #include<stdio.h> int main(void){ int n,len,ansNum,mintime,ma ...
记录core中GRPC长连接导致负载均衡不均衡问题二，解决长连接问题
题外话: 1.这几天收到蔚来的面试邀请,但是自己没做准备,并且远程面试,还在上班时间,再加上老东家对我还不错.没想着换工作,导致在自己工位上做算法题不想被人看见,然后非常紧张.估计over了.不过没事 ...
POJ-3026(图上的最小生成树+prim算法+gets函数使用)
Borg Maze POJ-3026 一开始看到这题是没有思路的,看了题解才知道和最小生成树有关系. 题目的意思是每次走到一个A或者S就可以分为多个部分继续进行搜索.这里就可以看出是从该点分出去的不同 ...
OpenGL光照贴图
一:啥叫贴图上一节中,我们将整个物体的材质定义为一个整体,但现实世界中的物体通常并不只包含有一种材质,而是由多种材质所组成. 拓展之前的系统,引入漫反射和镜面光贴图(Map).这允许我们对物体的漫反 ...

Python爬虫系列之爬取美团美食板块商家数据（二）