python爬虫+数据可视化项目(一)

爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#)

爬取内容:全国实时温度最低的十个城市气温排行榜

使用工具:requests库实现发送请求、获取响应。  

     beautifulsoup实现数据解析、提取和清洗  

     pyechart模块实现数据可视化

爬取结果:柱状图可视化展示:

直接放代码(详细说明在注释里,欢迎同行相互交流、学习~):

 import requests
from bs4 import BeautifulSoup
from pyecharts import Bar ALL_DATA = []
def send_parse_urls(start_urls):
headers = {
"User-Agent": "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
}
for start_url in start_urls:
response = requests.get(start_url,headers=headers)
# 编码问题的解决
response = response.text.encode("raw_unicode_escape").decode("utf-8")
soup = BeautifulSoup(response,"html5lib") #lxml解析器:性能比较好,html5lib:适合页面结构比较混乱的
div_tatall = soup.find("div",class_="conMidtab") #find() 找符合要求的第一个元素
tables = div_tatall.find_all("table") #find_all() 找到符合要求的所有元素的列表
for table in tables:
trs = table.find_all("tr")
info_trs = trs[2:]
for index,info_tr in enumerate(info_trs): # 枚举函数,可以获得索引
# print(index,info_tr)
# print("="*30)
city_td = info_tr.find_all("td")[0]
temp_td = info_tr.find_all("td")[6]
# if的判断的index的特殊情况应该在一般情况的后面,把之前的数据覆盖
if index==0:
city_td = info_tr.find_all("td")[1]
temp_td = info_tr.find_all("td")[7]
city=list(city_td.stripped_strings)[0]
temp=list(temp_td.stripped_strings)[0]
ALL_DATA.append({"city":city,"temp":temp})
return ALL_DATA def get_start_urls():
start_urls = [
"http://www.weather.com.cn/textFC/hb.shtml",
"http://www.weather.com.cn/textFC/db.shtml",
"http://www.weather.com.cn/textFC/hd.shtml",
"http://www.weather.com.cn/textFC/hz.shtml",
"http://www.weather.com.cn/textFC/hn.shtml",
"http://www.weather.com.cn/textFC/xb.shtml",
"http://www.weather.com.cn/textFC/xn.shtml",
"http://www.weather.com.cn/textFC/gat.shtml",
]
return start_urls def main():
"""
主程序逻辑
展示全国实时温度最低的十个城市气温排行榜的柱状图
"""
# 1 获取所有起始url
start_urls = get_start_urls()
# 2 发送请求获取响应、解析页面
data = send_parse_urls(start_urls)
# print(data)
# 4 数据可视化
#1排序
data.sort(key=lambda data:int(data["temp"]))
#2切片,选择出温度最低的十个城市和温度值
show_data = data[:10]
#3分出城市和温度
city = list(map(lambda data:data["city"],show_data))
temp = list(map(lambda data:int(data["temp"]),show_data))
#4创建柱状图、生成目标图
chart = Bar("中国最低气温排行榜") #需要安装pyechart模块
chart.add("",city,temp)
chart.render("tempture.html") if __name__ == '__main__':
main()

请关注,未完待续!

python爬虫+数据可视化项目(关注、持续更新)的更多相关文章

  1. Python爬虫+数据可视化教学:分析猫咪交易数据

    猫猫这么可爱 不会有人不喜欢吧: 猫猫真的很可爱,和我女朋友一样可爱~你们可以和女朋友一起养一只可爱猫猫女朋友都有的吧?啊没有的话当我没说-咳咳网上的数据太多.太杂,而且我也不知道哪个网站的数据比较好 ...

  2. Python爬虫开发与项目实战

    Python爬虫开发与项目实战(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...

  3. Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|

    Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应 ...

  4. python 爬虫数据存入csv格式方法

    python 爬虫数据存入csv格式方法 命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...

  5. BI工具做数据可视化项目频频失败的原因

    现如今数据可视化可谓是非常之火,随着硬件价格的一降再降,仿佛做数据可视化项目,你没有数据大屏,你就没有逼格.理想很丰满,现实很骨感,并不是每一个数据可视化项目都能够成功.数据可视化项目的进行,无外乎是 ...

  6. 为什么有些BI工具做数据可视化项目频频失败?

    现如今数据可视化可谓是非常之火,随着硬件价格的一降再降,仿佛做数据可视化项目,你没有数据大屏,你就没有逼格.理想很丰满,现实很骨感,并不是每一个数据可视化项目都能够成功.数据可视化项目的进行,无外乎是 ...

  7. github 上有趣又实用的前端项目(持续更新,欢迎补充)

    github 上有趣又实用的前端项目(持续更新,欢迎补充) 1. reveal.js: 幻灯片展示框架 一个专门用来做 HTML 幻灯片的框架,支持 HTML 和 Markdown 语法. githu ...

  8. python爬虫28 | 你爬下的数据不分析一波可就亏了啊,使用python进行数据可视化

    通过这段时间 小帅b教你从抓包开始 到数据爬取 到数据解析 再到数据存储 相信你已经能抓取大部分你想爬取的网站数据了 恭喜恭喜 但是 数据抓取下来 要好好分析一波 最好的方式就是把数据进行可视化 这样 ...

  9. Python:数据可视化pyecharts的使用

    什么是pyecharts? pyecharts 是一个用于生成 Echarts 图表的类库. echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化.pyecharts 是一个用于生 ...

随机推荐

  1. vs2013新建asp.net web 项目报错,此模板尝试加载组件程序集NuGet Package Manage

    打开vs2013,工具->扩展和更新->联机->找到NuGet Package Manager->安装->重新启动vs2013

  2. 将字符串XX,SS以“,”符号进行区分并分别存储在数组中

    public static void main(String[] args) { String str = "EAN_13,1534651"; String strs[] = st ...

  3. [Swift]LeetCode265.粉刷房子 II $ Paint House II

    There are a row of n houses, each house can be painted with one of the k colors. The cost of paintin ...

  4. [Swift]LeetCode349. 两个数组的交集 | Intersection of Two Arrays

    Given two arrays, write a function to compute their intersection. Example 1: Input: nums1 = [1,2,2,1 ...

  5. [Swift]LeetCode404. 左叶子之和 | Sum of Left Leaves

    Find the sum of all left leaves in a given binary tree. Example: 3 / \ 9 20 / \ 15 7 There are two l ...

  6. [Swift]LeetCode530. 二叉搜索树的最小绝对差 | Minimum Absolute Difference in BST

    Given a binary search tree with non-negative values, find the minimum absolute difference between va ...

  7. PHP文件域上传

    PHP中使用文件域上传文件,需要几个步骤,首先先判断有无文件域,然后判断是否选择了文件,最后判断文件是否上传成功. 需要注意的是 表单中有文件域,必须将method设置为post, enctype设置 ...

  8. apache(OS 10013)以一种访问权限不允许的方式做了一个访问套接字的尝试 ...

    今天启动Apache时, 报了“(OS 10013)以一种访问权限不允许的方式做了一个访问套接字的尝试. : make_sock: could not bind to address 0.0.0.0: ...

  9. RabbitMQ面试题

    1.为什么要引入MQ系统,直接读写数据库不行吗?其实就是问问你消息队列都有哪些使用场景,然后你项目里具体是什么场景,说说你在这个场景里用消息队列是什么? 面试官问你这个问题,期望的一个回答是说,你们公 ...

  10. linux的tomcat服务器上部署项目的方法

    在tomcat服务器上部署项目的前提,是我们已经准备好了tomcat服务器.在CentOs环境下部署JavaWeb环境,部署tomcat服务器在前面的文章中已经总结过了,可以参考以前文章. 一  to ...