前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：有趣的Python

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

首先笔者定位为成都，美食类型选的“火锅”，火锅具体类型选的不限，区域选的不限，排序选的智能，如图：

你也可以选择别的选项，只是注意URL的变化。本文都是按照上述选项爬取的数据。接下来翻页观察一下URL的变化：

第二页：

第三页：

很容易观察出翻页变化的知识p后面的数字，倒推回第一页，发现一样的显示内容，因此，写一个循环，便可以爬取全部页面。

但是大众点评只提供了前50页的数据，所以，我们也只能爬取前50页。

这一次，笔者用的pyquery来分析网页的，所以我们需要定位到我们所爬取的数据的位置，如图：

在具体分析的网页的时候，我震惊了，大众点评的反爬做的太过分了，它的数字，一些文字居然都不是明文显示，而是代码，你还不知道怎么分析它。如图：

很烦的，一些文字又可以显示，一些又用代码表示。一些数字也是，不过好一点的是数字只有9个，只要稍微观察一下，就能发现数字的代码是什么了。这里笔者列出来了。 {'hs-OEEp': 0, 'hs-4Enz': 2, 'hs-GOYR': 3, 'hs-61V1': 4, 'hs-SzzZ': 5, 'hs-VYVW': 6, 'hs-tQlR': 7, 'hs-LNui': 8, 'hs-42CK': 9}。值得注意的是，数字1，是用明文表示的。

那么，如何用pyquery来定位呢，很简单，你找到你要获取的数据，然后右键→copy→cut selector，你复制到代码里面就OK了。pyquery的具体用法百度既有。

最后，我们获取了火锅50个页面的数据，每页15个数据，一共750家餐厅的数据。

分析

大众点评已经给出了星级评价，可以看看大致趋势。

准五星商户最多，可能因为大部分食客都习惯给好评，只有实在不满时才会打出低评有关，造成了评级一般不低，但近满分还是蛮少的。

在本文，我们假设评论数目为饭店的热度，也就是它越火，评论数目越多。

评论数目大多在1000以内，但是高于2000，甚至高于4000也还存在一些，这些饭店应该是一些网红店。以5000为约束，筛选出饭店均为小龙坎、蜀大侠都非常知名的火锅店。那么评论数量和星级有关系吗？看下图：

这里取其评论数平均值，发现对于四星以上商户来说，评论数和星级并不关系，但均比低于四星的饭店销量更好。这说明在四星以上之后，人们选择差别不大，但一般不愿意接受评论太差的饭店。

对于笔者这样的学生党来说，影响较大还有人均消费情况。

成都的火锅店人均消费大部分都在50-100的区间内，高于150的也有一些。对于笔者来讲，吃一顿火锅，人均在50-100是可以接受的，高于100，就要低头看看钱包了（）。那扩展看，人均消费和星级、评论数量有关系吗？

上图是人均消费和星级的关系，看起来并无任何关系，那说明一些口碑好的火锅店，其实人均也不贵。下面看看人均和评论数目的关系吧。

通过比较，发现评论数目低于500，人均在50-100区间是最多的。当然这肯定和评论数量、人均消费本身集中于这一阶段有关。

吃火锅，一家店的生意好坏，肯定还和它的特色菜有关，笔者通过jieba分词，将爬取到的推荐菜做了一个词云图，如下。

笔者最爱的牛肉是特色菜之最啊，尤其是麻辣牛肉，只要去吃火锅，都要来上一份，其次是毛肚、虾滑、鹅肠等等。

接下来是大家都关心的，口味、环境和服务的情况。

三者得分大多都是集中在8.0-9.2这一阶段，笔者认为，低于7.5分的饭店还是不要去尝试了。同时，星级评价应该也是由这三者得分产生的。

果然如预想的一向，星级评价越好，它在口味、环境和服务的得分越高。那么口味，环境，服务得分与评论数量，平均价格有关系吗？

如图所看，并无什么直接关系，但是我们发现口味、环境和服务三者之间存在着非常好的线性关系，于是单独拿出来画了一个较大的图。

我们并且拟合了线性关系，由于三星商户只有一家，它的情况较为特殊之外，其他星级在口味、环境和服务的关系拟合中保持的相当一致，这也证明我们的猜想，这些变量之间存在线性关系。鉴于笔者本文最大的目的是做推荐，于是，我们进行了K-means聚类，这里取K为3，并且把星级转换为数字，五星对应5分，准五星对应4.5分，以此类推。最终得到了三类，通过作图，看看聚类情况如何吧。

和我们想要的结果一致，在口味、环境、服务和星级上得分越高，我们就越推荐。然而推荐的店铺还是好多，能不能在集中一些呢？于是通过限制评论数量、人均消费和特色菜来进行推荐。由于笔者喜欢人少，便宜还有牛肉的店铺，这里得到了如下的结果：

代码

import time

import requests

from pyquery import PyQuery as pq

import pandas as pd



headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}



def restaurant(url):

    # 获取网页静态源代码

    try:

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

    except Exception:

        return None



name=[]

url = []

star = []

comment = []

avg_price = []

taste = []

environment = []

services = []

recommend = []



num = {'hs-OEEp': 0, 'hs-4Enz': 2, 'hs-GOYR': 3, 'hs-61V1': 4, 'hs-SzzZ': 5, 'hs-VYVW': 6, 'hs-tQlR': 7, 'hs-LNui': 8, 'hs-42CK': 9}

def detail_number(htm):

    try:

        a = str(htm)

        a = a.replace('1<', '<span class="1"/><')

        a = a.replace('.', '<span class="."/>')

        b = pq(a)

        cn = b('span').items()

        number = ''

        for i in cn:

            attr = i.attr('class')

            if attr in num:

                attr = num[attr]

            number = number + str(attr)

        number = number.replace('None', '')

    except:

        number = ''

    return number



def info_restaurant(html):

    # 获取饭店的名称和链接

    doc = pq(html)

    for i in range(1,16):

        #获取饭店名称

        shop_name = doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > div.tit > a:nth-child(1) > h4').text()

        if shop_name == '':

            break

        name.append(shop_name)

        #获取饭店链接

        url.append(doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.pic > a').attr('href'))

        try:

            star.append(doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > div.comment > span').attr('title'))

        except:

            star.append("")

        #获取评论数量

        comment_html = doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > div.comment > a.review-num > b')

        comment.append(detail_number(comment_html))

        #获取人均消费

        avg_price_html = doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > div.comment > a.mean-price > b')

        avg_price.append(detail_number(avg_price_html))

        #获取口味评分

        taste_html = doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > span > span:nth-child(1) > b')

        taste.append(detail_number(taste_html))

        #获取环境评分

        environment_html = doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > span > span:nth-child(2) > b')

        environment.append(detail_number(environment_html))

        #获取服务评分

        services_html = doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > span > span:nth-child(3) > b')

        services.append(detail_number(services_html))

        #推荐菜,都是显示三道菜

        try:

            recommend.append(doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > div.recommend > a:nth-child(2)').text()+str(',')+\

                            doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > div.recommend > a:nth-child(3)').text()+str(',')+\

                            doc('#shop-all-list > ul > li:nth-child('+str(i)+') > div.txt > div.recommend > a:nth-child(4)').text())

        except:

            recommend.append("")

for i in range(1,51):

    print('正在获取第{}页饭店信息'.format(i))

    hotpot_url = 'http://www.dianping.com/chengdu/ch10/g110p'+str(i)+'?aid=93195650%2C68215270%2C22353218%2C98432390%2C107724883&cpt=93195650%2C68215270%2C22353218%2C98432390%2C107724883&tc=3'

    html = restaurant(hotpot_url)

    info_restaurant(html)

    print ('第{}页获取成功'.format(i))

    time.sleep(12)



shop = {'name': name, 'url': url, 'star': star, 'comment': comment, 'avg_price': avg_price, 'taste': taste, 'environment': environment, 'services': services, 'recommend': recommend}

shop = pd.DataFrame(shop, columns=['name', 'url', 'star', 'comment', 'avg_price','taste', 'environment', 'services', 'recommend'])

shop.to_csv("shop.csv",encoding="utf_8_sig",index = False)

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？

说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。

以上这些教程小编已经为大家打包准备好了，希望对正在学习的你有所帮助！

获取方式，私信小编 “ 资料 ”，即可免费获取哦！

用Python爬取大众点评数据，推荐火锅店里最受欢迎的食品的更多相关文章

python爬取大众点评并写入mongodb数据库和redis数据库
抓取大众点评首页左侧信息,如图: 我们要实现把中文名字都存到mongodb,而每个链接存入redis数据库. 因为将数据存到mongodb时每一个信息都会有一个对应的id,那样就方便我们存入redis ...
Python 爬取大众点评 50 页数据，最好吃的成都火锅竟是它！
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
python爬取大众点评
拖了好久的代码 1.首先进入页面确定自己要抓取的数据(我们要抓取的是左侧分类栏-----包括美食.火锅)先爬取第一级分类(美食.婚纱摄影.电影),之后根据第一级链接爬取第二层(火锅).要注意第二级的p ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
Python爬虫丨大众点评数据爬虫教程（1）
大众点评数据获取 --- 基础版本大众点评是一款非常受普罗大众喜爱的一个第三方的美食相关的点评网站. 因此,该网站的数据也就非常有价值.优惠,评价数量,好评度等数据也就非常受数据公司的欢迎. 今天就 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
Python爬虫丨大众点评数据爬虫教程（2）
大众点评数据爬虫获取教程 --- [SVG映射版本] 前言: 大众点评是一款非常受大众喜爱的一个第三方的美食相关的点评网站.从网站内可以推荐吃喝玩乐优惠信息,提供美食餐厅.酒店旅游.电影票.家居装修. ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...

随机推荐

Consider defining a bean named 'authenticator' in your configuration.
SpringBoot整合Shiro时出错: 异常日志: o.s.b.d.LoggingFailureAnalysisReporter: *************************** APPL ...
spring单例bean是线程安全的吗？
如果在你不定义成员变量的情况下,spring默认是线程安全的否则,设置scope="prototype"
洛谷1074 靶状数独dfs 排序、记录、搜索
题目网址:https://www.luogu.com.cn/problem/P1074 大意就是在一个9*9的数独中填数,要求行列宫都是九个互不相同的数字,给定一定的得分机制,要求求解最大得分.思路大 ...
centos7 LVM扩容案例
测试数据 cd / && dd if=/dev/zero of=file bs=1M count=10000 将磁盘变大的测试命令. 生产环境不要用. 这只是用于测试扩容后的效果 LV ...
记录一些服务端术语和搭建web服务器
菜单快捷导航服务端常用术语搭建web服务器和配置虚拟主机记录一些服务端方面的常用术语 1.CS架构和BS架构 1.1 CS架构 CS(Client/Server),基于安装包类型的桌面或手机软件 ...
MySQL5.6 选项和变量整理
MySQL5.6 选项和变量整理 --allow-suspicious-udfs 这个选项控制是否用户定义函数只有一个xxx符号用于主函数加载.默认,该选项是关闭并且只具有至少一个辅助符号的UDFs ...
Linux常用的命令收藏
摘要 Linux现在已经是大部分草根站长不可缺少的一部分,想要维护好你的网站就必须懂得常用的linux命令,这个可以加快你对服务器的维护,运营:同时Linux在嵌入式系统开发中有不可替代的优势,越来越 ...
nltk 获取 gutenberg 语料，gensim 生成词库和 onehot 编码
nltk 获取 gutenberg 语料 gensim 生成词库和 onehot 编码正在尝试基于 Tensorflow LSTM 模型开发另外一个项目,需要自然语言处理的工具和语料. import ...
java——构造器理解
构造器理解什么是构造器构造器也叫构造方法:用于对象的初始化: 写构造器注意事项构造器名与类名一致:有返回值但是不能定义返回类型(返回值类型是本类,可以加一个空的return): 构造器的调用通 ...
iOS 性能优化收集
iOS 性能调试 instrument Instrument Instrument之Core Animation工具避免图层混合 ①.确保控件的opaque属性设置为true,确保backgroun ...

用Python爬取大众点评数据，推荐火锅店里最受欢迎的食品

前言

代码

获取方式，私信小编 “ 资料 ”，即可免费获取哦！

用Python爬取大众点评数据，推荐火锅店里最受欢迎的食品的更多相关文章

随机推荐

热门专题