安居客scrapy房产信息爬取到数据可视化(下)-可视化代码

接上篇：安居客scrapy房产信息爬取到数据可视化(下)-可视化代码，可视化的实现~

先看看保存的数据吧~

本人之前都是习惯把爬到的数据保存到本地json文件，

这次保存到数据库后发现使用mongodb的聚合统计省去了好多自己用python写计算逻辑的步骤，好方便啊~~

第一张图柱状图

第一张图代码解析：

#encoding:utf-8

import random

from pyecharts import Bar

from pymongo import MongoClient

conn = MongoClient('127.0.0.1',27017)  #创建于MongoDB的连接

db = conn.anjuke  #选择数据库

collection=db.AnjukeItem  #选择数据库下的集合

all = []

res = collection.aggregate([

        {'$group':{'_id':'$city',

                   'count':{'$sum':1}}},

        {'$sort':{'count':-1}},])

conn.close()

#上面是mongodb聚合统计的语句

#$group：按照给定表达式组合结果，这里的_id字段表示你要基于哪个字段来进行分组，这里的$city就表示要基于city字段来进行分组

#下面的count字段的值$sum: 1表示的是获取--满足city字段相同的这一组的数量--乘以后面给定的值(本例为1，那么就是同组的数量)。

#$sort：按照给定的字段排序结果，即按计算好的count排序，-1为降序来排列

for i in res:

    #print(i)

    #{'_id': '成都', 'count': 2074}

    all.append((i['_id'].strip(),i['count']))

attr = [i[0] for i in all[:30] ]  #取前三十城市的名字

v1 = [i[1] for i in all[:30]]  #取前三十城市的值

print(attr)

bar = Bar('新房分布柱状图')  #柱状图

bar.add('各城市新楼盘数',attr,v1,is_label_show=True,is_datazoom_show=True,xaxis_rotate=65, label_color=['#87CEEB',])

#attr  下面的城市名

#v1  数值

#is_label_show -> bool  是否正常显示标签，默认不显示。即各柱上的数字

#is_datazoom_show -> bool  是否使用区域缩放组件，默认为 False

#xaxis_rotate -> int  x 轴刻度标签旋转的角度，默认为 0，即不旋转。旋转的角度从 -90 度到 90 度。

#label_color  柱的颜色

bar.render('bar.html')  #html生成

第二张图柱状图：

第二图代码解析：

#encoding:utf-8

from pymongo import MongoClient

from pyecharts import Bar

conn = MongoClient('127.0.0.1',27017)

db = conn.anjuke

collection=db.AnjukeItem

res = collection.find()

conn.close()

#连接mongodb的逻辑，同上~

all = {}

for i in res:

    city = i['city']  #获取城市名

    try:

        if i['price'][1].isdecimal():  #判断i['price'][1]是不是数字型的价格

            price_type = i['price'][0]  #获取价格类型

            price = i['price'][1]

            price = int(price)  #str价格转int价格

        elif i['price'][2].isdecimal():  #判断i['price'][2]是不是数字型的价格

            price_type = i['price'][1]  #获取价格类型

            price = i['price'][2]

            price = int(price)  #str价格转int价格

    except:

        continue

    if '均价' in price_type:  #只取均价

        if city in all:

            all[city].append(price)

        else:

            all[city] = [price,]

print(all)

#{'_id': '黑河', 'count': 17}

#{'_id': '甘南', 'count': 17}

#{'_id': '陇南', 'count': 16}

all_avg = []

for city,prices in all.items():

    all_avg.append((city,sum(prices)/len(prices)))  #计算所有的城市房价平均值，all_avg里的元素为元组（城市名,均价）

all_avg = sorted(all_avg,key=lambda x:x[1],reverse=True)  #降序排序 

print(all_avg)

#[('深圳', 59192.21692307692), ('上海', 50811.7504091653), ...

attr = [i[0] for i in all_avg[:30] ]  #获取前30城市名

v1 = ['{:.1f}'.format(i[1]) for i in all_avg[:30]]  #获取前30名的值

bar = Bar('各城市房价平均值')

bar.add('单位面积价格（元/平米）',attr,v1,is_label_show=True,is_datazoom_show=True)

#画图逻辑，同上

bar.render('bar2.html')

第三张图玫瑰图

第三张图代码解析：

from pyecharts import Pie

from pymongo import MongoClient

conn = MongoClient('127.0.0.1',27017)

db = conn.anjuke

collection=db.AnjukeItem

#Mongodb的连接

all = []

res = collection.aggregate(

    [

    {

        '$unwind': '$type_'

    },{

        '$group': {

            '_id': '$type_',

            'count': {'$sum': 1}

        }

    }

    ]

)

#上面是mongodb聚合统计的语句

#'$unwind': '$type_'因为type_是一个列表这里是将type_拆分了，用以下面的计算

#$group：按照给定表达式组合结果，这里的_id字段表示你要基于哪个字段来进行分组，这里的$type_就表示要基于type_字段来进行分组

#下面的count字段的值$sum: 1表示的是获取--满足type_字段相同的这一组的数量--乘以后面给定的值(本例为1，那么就是同组的数量)。

conn.close()

all = []

for i in res:

    print(i)

    #{'_id': '商业', 'count': 337}

    #{'_id': '商办', 'count': 158}

    #{'_id': '8室', 'count': 76}

    if '室' in i['_id']:  #只取有'室'关键字的数据

        all.append((i['_id'],i['count']))

all = sorted(all,key=lambda x:x[1],reverse=True)  #以数量进行排序

print(all)

attr = [i[0] for i in all][:6]  #取前六的类型名

v1 = [i[1] for i in all][:6]  #取前六的数值

pie =Pie("户型比例", title_pos='center', width=900)

#pie.add("商品A", attr, v1, center=[25, 50], is_random=True, radius=[30, 75], rosetype='radius')

pie.add("商品B", attr, v1, is_random=True, radius=[30, 75], rosetype='area', is_legend_show=False, is_label_show=True)

#is_random为是否随即排列颜色列表

#radius为半径，第一个为内半径，第二个是外半径；

#rosetype为是否展示成南丁格尔图（ 'radius' 圆心角展现数据半分比，半径展现数据大小；'area' 圆心角相同，为通过半径展现数据大小）

#is_label_show为是否显示标签（各个属性的数据信息）

#is_legend_show:是否显示图例

pie.render('pie.html')

第四张图地理热力图

第四张图代码解析：

#coding=utf-8

from pymongo import MongoClient

from pyecharts import Geo

import json

conn = MongoClient('127.0.0.1',27017)

db = conn.anjuke

collection=db.AnjukeItem

#res=collection.distinct("city")

all = []

res = collection.aggregate([

        {'$group':{'_id':'$city',

                   'count':{'$sum':1}}},

        {'$sort':{'count':-1}},])

for i in res:

    all.append((i['_id'].strip(),i['count']))

conn.close()

#连接查询，和图一一样

new_all =[]

with open('city_coordinates.json','r',encoding='utf-8') as f:

    #这里是复制到pyecharts的地理json数据和爬到的城市名对比，因为好多爬到的城市其实在pyecharts是没有记录的，直接绘图会报错

    #位置在\Python36\Lib\site-packages\pyecharts\datasets\city_coordinates.json

    all_city = json.loads(f.read(),encoding='utf-8')

for i in all:

    if i[0] in all_city:

        new_all.append(i)

geo = Geo(

    "全国新房分布",  #图标题

    "",  #副标题

    title_color="#fff",  #标题颜色

    title_pos="center",  #标题位置

    width=1200,  #图宽

    height=600,  #高

    background_color="#404a59",  #背景颜色

)

attr, value = geo.cast(new_all)  #分开城市名和数值

geo.add(

"",

attr,

value,

visual_range=[100, 1200],  #显示的数值范围

visual_text_color="#fff",  #鼠标放上去后显示的文字颜色

symbol_size=15,  #标记的大小

type='heatmap',  #类型为热力图

is_visualmap=True,

)

geo.render()

End...

安居客scrapy房产信息爬取到数据可视化(下)-可视化代码的更多相关文章

安居客scrapy房产信息爬取到数据可视化(上)-scrapy爬虫
出发点想做一个地图热力图,发现安居客房产数据有我要的特性.emmm,那就尝试一次好了~ 老规矩,从爬虫,从拿到数据开始... scrapy的配置创建一个项目(在命令行下敲~): scrapy st ...
如何使用Python爬取基金数据，并可视化显示
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于Will的大食堂,作者打饭大叔前言美国疫情越来越严峻,大选也进入 ...
中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
python爬取旅游数据+matplotlib简单可视化
题目如下: 共由6个函数组成: 第一个函数爬取数据并转为DataFrame: 第二个函数爬取数据后存入Excel中,对于解题来说是多余的,仅当练手以及方便核对数据: 后面四个函数分别对应题目中的四个m ...
利用Python爬取疫情数据并使用可视化工具展示
import requests, json from pyecharts.charts import Map, Page, Pie, Bar from pyecharts import options ...
使用selenium再次爬取疫情数据(链接数据库)
爬取网页地址: 丁香医生数据库连接代码: def db_connect(): try: db=pymysql.connect('localhost','root','zzm666','payiqin ...
毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
爬虫（6）- Scrapy 实战案例 - 爬取不锈钢的相关钢卷信息
超详细创建流程及思路一. 新建项目 1.创建文件夹,然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口,运行下面的命令创建scrapy项目 scrapy startpr ...
Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计
通过使Scrapy框架,进行数据挖掘和对web站点页面提取结构化数据,掌握如何使用Twisted异步网络框架来处理网络通讯的问题,可以加快我们的下载速度,也可深入接触各种中间件接口,灵活的完成各种需求 ...

随机推荐

【遍历二叉树】03二叉树的后序遍历【Binary Tree Postorder Traversal】
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 给定一个二叉树,返回他的后序遍历的 ...
CodeForces - 1017E ：The Supersonic Rocket （几何+KMP，判定凸包是否同构）
After the war, the supersonic rocket became the most common public transportation. Each supersonic r ...
bzoj 3727: Final Zadanie 思维题
题目: Description 吉丽YY了一道神题,题面是这样的: "一棵n个点的树,每条边长度为1,第i个结点居住着a[i]个人.假设在i结点举行会议,所有人都从原住址沿着最短路径来到i结 ...
白话算法(6) 散列表(Hash Table)从理论到实用（上）
处理实际问题的一般数学方法是,首先提炼出问题的本质元素,然后把它看作一个比现实无限宽广的可能性系统,这个系统中的实质关系可以通过一般化的推理来论证理解,并可归纳成一般公式,而这个一般公式适用于任何特殊 ...
CF 914 G Sum the Fibonacci —— 子集卷积，FWT
题目:http://codeforces.com/contest/914/problem/G 其实就是把各种都用子集卷积和FWT卷起来算即可: 注意乘 Fibonacci 数组的位置: 子集卷积时不能 ...
【转】 Pro Android学习笔记（六五）：安全和权限（2）：权限和自定义权限
目录(?)[-] 进程边界声明和使用权限 AndroidManifestxml的许可设置自定义权限运行安全通过两个层面进行保护.进程层面:不同应用运行在不同的进程,每个应用有独自的user ID ...
一 vue开发环境搭建
2016年,Vue同Angular.React形成三足鼎立的局面,让前端的开发者顾不暇接,今天我们就来了解一下Vue的环境搭建. 一.node.js安装: node.js:一种javascript的运 ...
inner join ，left join ，right join区别
inner join ,left join ,right join区别 left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中 ...
centos7安装etcd
http://blog.csdn.net/dream_broken/article/details/52671344
javaScript之跨浏览器的事件对象
跨浏览器的兼容代码 var eventHandler = { addHandler: function(element, type, handler){}, removeHandler: functi ...

安居客scrapy房产信息爬取到数据可视化(下)-可视化代码

先看看保存的数据吧~

第一张图柱状图

第一张图代码解析：

第二张图柱状图：

第二图代码解析：

第三张图玫瑰图

第三张图代码解析：

第四张图地理热力图

第四张图代码解析：

安居客scrapy房产信息爬取到数据可视化(下)-可视化代码的更多相关文章

随机推荐

热门专题