爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html

总共爬了22779条数据。第一次接触matplotlib库,以下代码参考了matplotlib官方文档:https://matplotlib.org/users/index.html。

数据查询用到了两个方法:getSexNumber(@sex varchar(2),@income varchar(30))、gethousingNumber(@sex varchar(2),@housing varchar(6))来简化查询语句的长度,代码如下:

 go
create function getSexNumber(@sex varchar(),@income varchar())
returns int
as
begin
return(select count(id) from users where sex = @sex and income = @income)
end
go
go
create function gethousingNumber(@sex varchar(),@housing varchar())
returns int
as
begin
return(select count(id) from users where sex = @sex and housing = @housing)
end
go

 以下代码为SQL Server 数据库操作:

 #__author: "YuWei"
#__date: 2018/2/11
import numpy as np
import matplotlib.pyplot as plt
import pymssql def db(sql):
"""
数据库相关操作 :param sql: sql语句
:return: 查询的结果集,list封装
"""
conn = pymssql.connect(host='localhost', user='sa', password='123456c', database='Baihe', charset="utf8")
cur = conn.cursor()
cur.execute(sql)
row = cur.fetchone() # 指向结果集的第一行,
data = [] # 返回的list
while row:
rows = list(row)
for i in range(len(rows)): # 针对rows的每项编码
try:
rows[i] = rows[i].encode('latin-1').decode('gbk')
except AttributeError:pass
data.append(rows) # 向data加数据
row = cur.fetchone() #
print(data)
cur.close()
conn.close()
return data
生成各工资段人数占总人数比图:
 def builder_income_ratio():
"""
生成各工资段人数占总人数比图 :return: 无
"""
data_list = db("select income,count(id) from users group by income")
income_data_list = [] # 数据
income_labels_list = [] # 图例
for data in data_list:
income_data_list.append(data[1])
income_labels_list.append(data[0])
income_data_list.remove(income_data_list[6]) # 删掉不要的数据
income_labels_list.remove(income_labels_list[6]) # 删掉不要的数据
# 画饼图
plt.pie(income_data_list,labels=income_labels_list,colors=['c','m','r','g'],startangle=30,
shadow=True,explode=(0, 0, 0.1, 0, 0, 0, 0.1, 0, 0.1, 0, 0, 0),autopct='%.1f%%')
plt.title('各工资段人数占总人数比') # 标题
plt.show() # 显示

执行效果如下:

生成各工资段男,女人数图:

 def builder_sex_ratio():
"""
生成各工资段男,女人数图 :return: 无
"""
data_list = db("select income,dbo.getSexNumber('男',income) as 男 ,dbo.getSexNumber('女',income) as 女 "
"from users group by income")
men = [] # 男
women = [] # 女
labels =[] # 图例
for data in data_list:
labels.append(data[0])
men.append(data[1])
women.append(data[2])
men.remove(men[6]) # 删掉不要的数据
women.remove(women[6]) # 删掉不要的数据
labels.remove(labels[6]) # 删掉不要的数据
max_line = 12 # 12个
fig,ax = plt.subplots()
line = np.arange(max_line) # [0,1,2,3,4,5,6,7,8,9,10,11]
bar_width = 0.4 # 条形之间的宽度
# 画条形图
ax.bar(line, men, bar_width,alpha=0.3, color='b',label='男')
ax.bar(line+bar_width, women, bar_width,alpha=0.3, color='r',label='女')
ax.set_xlabel('工资段')
ax.set_ylabel('人数')
ax.set_title('各工资段男,女人数图')
ax.set_xticks(line + bar_width / 2) # 保证条形居中
ax.set_xticklabels(labels)
# 画两条线
plt.plot([0.04, 1.04, 2.04, 3.04, 4.04, 5.04, 6.04, 7.04, 8.04, 9.04, 10.04, 11.04], men, label='男')
plt.plot([0.4, 1.4, 2.4, 3.4, 4.4, 5.4, 6.4, 7.4, 8.4, 9.4, 10.4, 11.4], women, label='女')
ax.legend()
fig.tight_layout()
# fig.savefig("1.png") # 生成图片
plt.show()

执行效果如下:

生成男,女平均身高图:

 def builder_age_ratio():
"""
生成男,女平均身高图 :return:
"""
data_list = db("select sex,avg(height) as 平均升高 from users group by sex")
sex = [] # 性别
number = [] # 人数
for data in data_list:
sex.append(data[0])
number.append(data[1])
# 画条形图
plt.bar(sex[0], number[0], label="男", color='g',width=0.03)
plt.bar(sex[1], number[1], label="女", color='r',width=0.03)
plt.legend()
plt.xlabel('性别')
plt.ylabel('身高')
plt.title('男女平均身高图')
plt.show()

执行效果如下:

生成有房与无房的人数比例图:

 def builder_housing_sum_ratio():
"""
生成有房与无房的人数比例图 :return:
"""
data_list = db("select housing,count(id) from users group by housing")
housing_data_list = []
housing_labels_list = []
for data in data_list:
housing_data_list.append(data[1])
housing_labels_list.append(data[0])
# 画饼图
plt.pie(housing_data_list, labels=housing_labels_list, colors=['g', 'r'], startangle=30,
shadow=True, explode=(0, 0), autopct='%.0f%%')
plt.title('有房与无房的人数比例图')
plt.show()

执行效果如下:

生成有无房男女人数图:

 def builder_housing_ratio():
"""
生成有无房男女人数图 :return:
"""
data_list = db("select dbo.gethousing('女',housing),dbo.gethousing('男',housing) from users group by housing")
homey = [] # 有房
homem = [] # 无房
for data in data_list:
homey.append(data[0])
homem.append(data[1])
max_line = 2 # 两个
fig, ax = plt.subplots()
line = np.arange(max_line) # [0,1]
bar_width = 0.1 # 条形之间的宽度
# 画条形
ax.bar(line,homey , bar_width, alpha=0.3,color='b',label='女')
ax.bar(line+bar_width, homem, bar_width,alpha=0.3,color='r',label='男')
ax.set_xlabel('有无房')
ax.set_ylabel('人数')
ax.set_title('有无房男女人数图')
ax.set_xticks(line + bar_width / 2) # 保持居中
ax.set_xticklabels(['有房','无房'])
ax.legend()
fig.tight_layout()
plt.show()

执行效果如下:

基于爬取百合网的数据,用matplotlib生成图表的更多相关文章

  1. 爬虫入门(四)——Scrapy框架入门:使用Scrapy框架爬取全书网小说数据

    为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序 下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段 明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...

  2. 使用python抓取婚恋网用户数据并用决策树生成自己择偶观

    最近在看<机器学习实战>的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己对书本的理解,顺便还可以在github拉拉人气.刚好在看决策树这一章,书里面的理论 ...

  3. python3 爬取百合网的女人们和男人们

    学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...

  4. Python爬虫 爬取百合网的女人们和男人们

    学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...

  5. 实例学习——爬取豆瓣网TOP250数据

    开发环境:(Windows)eclipse+pydev 网址:https://book.douban.com/top250?start=0 from lxml import etree #解析提取数据 ...

  6. 使用python爬取东方财富网机构调研数据

    最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

  7. 八爪鱼采集器︱爬取外网数据(twitter、facebook)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 要想采集海外数据有两种方式:云采集+单机采集. ...

  8. [转]使用python爬取东方财富网机构调研数据

    最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

  9. Python爬虫之爬取慕课网课程评分

    BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...

随机推荐

  1. 数据结构课程设计四则运算表达式求值(C语言版)

    本系统为四则运算表达式求值系统,用于带小括号的一定范围内正负数的四则运算标准(中缀)表达式的求值.注意事项:    1.请保证输入的四则表达式的合法性.输入的中缀表达式中只能含有英文符号"+ ...

  2. HDU 5538 House Building(模拟——思维)

    题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=5538 Problem Description Have you ever played the vi ...

  3. JAVA之JDBC的简单使用(Mysql)

    JDBC增删查改 昨天七七八八的关于Mysql的配置 和 基本使用也算是初步解决了,今天 抽空看了JAVA的JDBC(JAVA DATA BASE CONNECTION)我也不知道我全称拼写对对不对

  4. tomcat服务器一闪而过解决方法

    JDK没有配置,下载JDK安装到电脑上,然后在电脑->属性->高级系统设置->环境变量,将JDK中bin文件的目录E:\Program Files (x86)\Java\jre7\b ...

  5. hbase伪分布式安装(单节点安装)

    hbase伪分布式安装(单节点安装) http://hbase.apache.org/book.html#quickstart   1.    前提配置好java,环境java变量     上传jdk ...

  6. 10年java过来人聊聊自己的自学、培训和工作经历

    一 . 自我介绍 我叫王涛,我是一位北漂十年的码农,2008年9月份开始自学java,三个月后,自学无果,于2008年11月份开始参加培训,培训完之后,我觉得自己还是啥也不会,只会抄抄代码,竟然连de ...

  7. Anaconda更新和第三方包更新

    更新Anaconda和它所包含的包 1.打开cmd,切换到Anaconda的Scripts目录下:./Anaconda3/Scripts 2.更新Anaconda conda update conda ...

  8. 什么是redis,redis能做什么,redis应用场景

    Redis是一个key-value存储系统.Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用.这篇文章小编为大家分享了在 ...

  9. twitter的ID生成器的snowFlake算法的自造版

    snowFlake算法在生成ID时特别高效,可参考:https://segmentfault.com/a/1190000011282426 SnowFlake算法生成id的结果是一个64bit大小的整 ...

  10. jquery mobile-按钮控件

    jQuery Mobile 中的按钮会自动获得样式,这增强了他们在移动设备上的交互性和可用性.我们推荐您使用 data-role="button" 的 <a> 元素来创 ...