告诉你那里最受欢迎，python爬取全国13个城市旅游数据

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

抓取数据

通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京，获取北京地区热门景区信息，再通过BeautifulSoup去分析提取出我们需要的信息。

这里爬取了前4页的景点信息，每页有15个景点。因为去哪儿并没有什么反爬措施，所以直接请求就可以了。

这里随机选择了13个热门城市：北京、上海、成都、三亚、广州、重庆、深圳、西安、杭州、厦门、武汉、大连、苏州。

并将爬取的数据存到了MongoDB数据库。

爬虫部分完整代码如下：

import requests

from bs4 import BeautifulSoup

from pymongo import MongoClient



class QuNaEr():

 def __init__(self, keyword, page=1):

 self.keyword = keyword

 self.page = page



 def qne_spider(self):

 url = 'https://piao.qunar.com/ticket/list.htm?keyword=%s&region=&from=mpl_search_suggest&page=%s' % (self.keyword, self.page)

 response = requests.get(url)

 response.encoding = 'utf-8'

 text = response.text

 bs_obj = BeautifulSoup(text, 'html.parser')



 arr = bs_obj.find('div', {'class': 'result_list'}).contents

 for i in arr:

 info = i.attrs

 # 景区名称

 name = info.get('data-sight-name')

 # 地址

 address = info.get('data-address')

 # 近期售票数

 count = info.get('data-sale-count')

 # 经纬度

 point = info.get('data-point')



 # 起始价格

 price = i.find('span', {'class': 'sight_item_price'})

 price = price.find_all('em')

 price = price[0].text



 conn = MongoClient('localhost', port=27017)

 db = conn.QuNaEr # 库

 table = db.qunaer_51 # 表



 table.insert_one({

 'name' : name,

 'address' : address,

 'count' : int(count),

 'point' : point,

 'price' : float(price),

 'city' : self.keyword

 })







if __name__ == '__main__':

 citys = ['北京', '上海', '成都', '三亚', '广州', '重庆', '深圳', '西安', '杭州', '厦门', '武汉', '大连', '苏州']

 for i in citys:

 for page in range(1, 5):

 qne = QuNaEr(i, page=page)

 qne.qne_spider()

效果图如下：

有了数据，我们就可以分析出自己想要的东西了。

分析数据

1、最受欢迎的15个景区

由图可以看出，在选择的13个城市中，最热门的景区为上海的迪士尼乐园。

代码如下：

from pymongo import MongoClient

# 设置字体，不然无法显示中文

from pylab import *



mpl.rcParams['font.sans-serif'] = ['SimHei']



conn = MongoClient('localhost', port=27017)

db = conn.QuNaEr # 库

table = db.qunaer_51 # 表



result = table.find().sort([('count', -1)]).limit(15)

# x,y轴数据

x_arr = [] # 景区名称

y_arr = [] # 销量

for i in result:

 x_arr.append(i['name'])

 y_arr.append(i['count'])



"""

去哪儿月销量排行榜

"""

plt.bar(x_arr, y_arr, color='rgb') # 指定color，不然所有的柱体都会是一个颜色

plt.gcf().autofmt_xdate() # 旋转x轴，避免重叠

plt.xlabel(u'景点名称') # x轴描述信息

plt.ylabel(u'月销量') # y轴描述信息

plt.title(u'拉钩景点月销量统计表') # 指定图表描述信息

plt.ylim(0, 4000) # 指定Y轴的高度

plt.savefig('去哪儿月销售量排行榜') # 保存为图片

plt.show()

2、景区热力图

这里为了方便，只展示一下北京地区的景区热力图。用到了百度地图的开放平台。首先需要先注册开发者信息，首页底部有个申请秘钥的按钮，点击进行创建就可以了。我的应用类型选择的是浏览器端，因此只需要组装数据替换掉相应html代码即可。另外还需要将自己访问应用的AK替换掉。效果图如下：

3、景区价格

价格是出游第一个要考虑的，一开始想统计一下各城市的平均价格，但是后来发现效果不是很好，比如北京的刘老根大舞台价格在580元，这样拉高了平均价格。就好比姚明和潘长江的平均身高在190cm，并没有什么说服力。所以索性展示一下景区的价格分布。

根据价格设置了六个区间：

通过上图得知，大部分的景区门票价格都在200元以下。每次旅游花费基本都在交通、住宿、吃吃喝喝上了。门票占比还是比较少的。

实现代码如下：

arr = [[0, 50], [50,100], [100, 200], [200,300], [300,500], [500,1000]]

name_arr = []

total_arr = []

for i in arr:

 result = table.count({'price': {'$gte': i[0], '$lt': i[1]}})

 name = '%s元 ~ %s元 ' % (i[0], i[1])

 name_arr.append(name)

 total_arr.append(result)



color = 'red', 'orange', 'green', 'blue', 'gray', 'goldenrod' # 各类别颜色

explode = (0.2, 0, 0, 0, 0, 0) # 各类别的偏移半径



# 绘制饼状图

pie = plt.pie(total_arr, colors=color, explode=explode, labels=name_arr, shadow=True, autopct='%1.1f%%')



plt.axis('equal')

plt.title(u'热点旅游景区门票价格比例', fontsize=12)



plt.legend(loc=0, bbox_to_anchor=(0.82, 1)) # 图例

# 设置legend的字体大小

leg = plt.gca().get_legend()

ltext = leg.get_texts()

plt.setp(ltext, fontsize=6)

# 显示图

plt.show()

你一般旅游都去哪呢？

告诉你那里最受欢迎，python爬取全国13个城市旅游数据的更多相关文章

python爬虫学习之爬取全国各省市县级城市邮政编码
实例需求:运用python语言在http://www.ip138.com/post/网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中实例环境:python3.7 requests库 ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...
Python 爬取热词并进行分类数据分析-[数据修复]
日期:2020.02.01 博客期:140 星期六 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
甜咸粽子党大战，Python爬取淘宝上的粽子数据并进行分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 爬虫爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览 ...
Python爬取股票信息，并实现可视化数据
前言截止2019年年底我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,首先抛开炒股技术不说, 那么多股票数据是不是非常难找, 找到之后是不是看着密密麻麻的数据是不是头都大了? 今 ...
利用python爬取全国水雨情信息
分析我们没有找到接口,所以打算利用selenium来爬取. 代码 import datetime import pandas as pd from bs4 import BeautifulSoup ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
用Python爬取分析【某东618】畅销商品销量数据，带你看看大家都喜欢买什么！
618购物节,辰哥准备分析一波购物节大家都喜欢买什么?本文以某东为例,Python爬取618活动的畅销商品数据,并进行数据清洗,最后以可视化的方式从不同角度去了解畅销商品中,名列前茅的商品是哪些?销售 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

随机推荐

图解Java设计模式之模板模式
图解Java设计模式之模板模式豆浆制作问题模板方法模式基本介绍模板方法模式原理类图模板方法模式解决豆浆制作问题模板方法模式的钩子方法模板方法模式在Spring框架中的源码分析模板方法模式 ...
JDBC开源框架：DBUtils自定义业务类型相关转换器
dbutils提供的handler转换不能满足实际业务开发的需求.比如枚举转int,时间类型LocalDateTime,实体对象的属性名与字段未能相对应. mysql表member结构字段: id.m ...
初识ASP.NET CORE
首先创建一个asp.net core web应用程序第二步目前官方预置了7种模板项目供我们选择.从中我们可以看出,既有我们熟悉的MVC.WebAPI,又新添加了Razor Page,以及结合比较流 ...
一个完整的机器学习项目在Python中演练（四）
大家往往会选择一本数据科学相关书籍或者完成一门在线课程来学习和掌握机器学习.但是,实际情况往往d是,学完之后反而并不清楚这些技术怎样才能被用在实际的项目流程中.就像你的脑海中已经有了一块块" ...
TensorFlow 模型优化工具包 — 训练后整型量化
模型优化工具包是一套先进的技术工具包,可协助新手和高级开发者优化待部署和执行的机器学习模型.自推出该工具包以来, 我们一直努力降低机器学习模型量化的复杂性 (https://www.tensorfl ...
（note）从小白到产品经理之路
学习了云课堂的产品课程,整理出部分笔记,以作备用参考,方便实际运用过程中查看巩固. 1.产品工具:Axure.mindmanager.viso.办公软件wps 2.产品人需要具备的品格富有同理心,习 ...
《Flutter 动画系列》组合动画
老孟导读:在前面的文章中介绍了 <Flutter 动画系列>25种动画组件超全总结 http://laomengit.com/flutter/module/animated_1/ < ...
《java编程思想》对象导论
1.抽象过程所有编程语言都提供抽象机制.可以认为,人们所能够解决的问题的复杂性直接取决于抽象的类型和质量,所谓的'类型'是指“所抽象的是什么?”汇编语言是对底层机器的轻微抽象. java的基本特性 ...
Gin框架系列01：极速上手
Gin是什么? Gin是Go语言编写的web框架,具备中间件.崩溃处理.JSON验证.内置渲染等多种功能. 准备工作本系列演示所有代码都在Github中,感兴趣的同学可以自行查阅,欢迎大家一起完善. ...
.Net微服务实践（二）：Ocelot介绍和快速开始
目录介绍基本原理集成方式快速开始创建订单服务创建产品服务创建网关运行验证最后上篇.Net微服务实践(一):微服务框架选型我们对微服务框架整体做了介绍,接下来我们从网关Ocelot ...

告诉你那里最受欢迎，python爬取全国13个城市旅游数据

告诉你那里最受欢迎，python爬取全国13个城市旅游数据的更多相关文章

随机推荐

热门专题