Pandas数据处理+Matplotlib绘图案例

利用pandas对数据进行预处理然后再使用matplotlib对处理后的数据进行数据可视化是数据分析中常用的方法。

第一组例子(星巴克咖啡店)

假如我们现在有这样一组数据：星巴克在全球的咖啡店信息，如下图所示。数据来源：starbucks_store_locations。

店铺总数排名前10的国家

# coding=utf-8

# 统计店铺数排名前10的国家

import pandas as pd

from matplotlib import pyplot as plt

from matplotlib import font_manager

# 准备工作

font = font_manager.FontProperties(fname="/usr/share/fonts/truetype/wqy/wqy-microhei.ttc")

file_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(file_path)

# 处理数据

data1 = df.groupby(by="Country").count().sort_values(by="Brand", ascending=False)[:10]["Brand"]

_x = data1.index

_y = data1.values

# 画图

plt.figure(figsize=(10,8), dpi=80)

plt.bar(range(len(_x)), _y, width=0.5)

plt.xticks(range(len(_x)), _x)

plt.xlabel("国家", fontproperties=font)

plt.ylabel("店铺数", fontproperties=font)

plt.title("星巴克咖啡店铺数排行前10（国家）", fontproperties=font, size=20)

plt.show()

结果如图：

中国店铺数排名前20的城市

# coding=utf-8

# 统计中国店铺数排名前20的城市

import pandas as pd

from matplotlib import pyplot as plt

from matplotlib import font_manager

font = font_manager.FontProperties(fname="/usr/share/fonts/truetype/wqy/wqy-microhei.ttc")

file_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(file_path)

# 处理数据

df = df[df["Country"] == "CN"]

data1 = df.groupby(by="City").count().sort_values(by="Brand", ascending=False)[:20]["Brand"]

_x = list(data1.index)

_y = list(data1.values)

# 画图

plt.figure(figsize=(20,8), dpi=80)

plt.bar(range(len(_x)), _y)

# 添加条形图数值

for xx, yy in zip(range(len(_x)),_y):

    plt.text(xx, yy+5, str(yy), ha='center')

plt.xticks(range(len(_x)), _x, fontproperties=font)

plt.yticks(range(max(_y)+50)[::50])

plt.xlabel("城市", fontproperties=font)

plt.ylabel("店铺数", fontproperties=font)

plt.title("中国星巴克咖啡店铺数排行前20（城市）", fontproperties=font, size=20)

plt.show()

结果如图：

第二组例子（世界排行前10000书籍信息）

假如我们现在有这样一组数据：世界排行前10000书籍信息，如下图所示。数据来源：books。

各年份书籍平均评分

#  coding=utf-8

import pandas as pd

from matplotlib import pyplot as plt

file_path = "./books.csv"

pd.set_option('display.max_columns', 100)

df = pd.read_csv(file_path)

# 不同年份书籍的平均评分

# 去除NaN

data1 = df[pd.notnull(df["original_publication_year"])]

#

print(type(data1))

grouped = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()

print(grouped)

_x = grouped.index

_y = grouped.values

plt.figure(figsize=(20, 8), dpi=80)

plt.plot(range(len(_x)), _y)

plt.xticks(range(len(_x))[::15], _x[::15].astype(int), rotation=45)

plt.grid()

plt.show()

结果如图：

由于公元前的年份书籍较少，每年只有一本，所以数据波动幅度会很大，越往后就会越趋于平稳

911紧急求救电话信息

这个案例不牵扯绘图，但是这个案例中有个很重要的问题就是关于对数据进行遍历的问题。数据来源：Emergency - 911 Calls

假如我们要读取这个数据文件中各类求救电话的数量，应该怎么做呢？我们首先来看一下这个数据文件的基本信息。

# coding=utf-8

import pandas as pd

import numpy as np

file_path = "./911.csv"

pd.set_option('display.max_columns', 100)

df = pd.read_csv(file_path)

print(df.info())

结果如下：

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 249737 entries, 0 to 249736

Data columns (total 9 columns):

lat          249737 non-null float64

lng          249737 non-null float64

desc         249737 non-null object

zip          219391 non-null float64

title        249737 non-null object

timeStamp    249737 non-null object

twp          249644 non-null object

addr         249737 non-null object

e            249737 non-null int64

dtypes: float64(3), int64(1), object(5)

memory usage: 17.1+ MB

None

Process finished with exit code 0

可以看到这个数据文件竟然有25万行之多- -

我们再查看他的第一行信息：

print(df.head(1))

结果如下：

         lat        lng                                               desc  \

0  40.297876 -75.581294  REINDEER CT & DEAD END;  NEW HANOVER; Station ...   

       zip                   title            timeStamp          twp  \

0  19525.0  EMS: BACK PAINS/INJURY  2015-12-10 17:10:52  NEW HANOVER   

                     addr  e

0  REINDEER CT & DEAD END  1  

Process finished with exit code 0

可以看到类型适合具体事项都归类在了title里面，所以我们第一步首先要将类型和具体事项分隔开：

data1 = df["title"].str.split(": ").tolist()

# 这里我们直接对所得分类做了去重操作

data2 = set([i[0] for i in data1])

下面关键的一步，我们要统计各个分类下的求救电话数量。因为这个数据有25w行，所以如果像我之前的文章中去一行一行的遍历，程序的速度就会变得非常慢。这里我们使用for循环来遍历分类列表，则会快很多。

# 创建全0数组方便下一步的统计

a = pd.DataFrame(np.zeros((df.shape[0], len(data2))), columns=data2, dtype=int)

# 这一步就是将a中与原数据中相同索引行，但title中包含i类型求助信息的那个值置为1

for i in data2:

    a[i][df["title"].str.contains(i)] = 1

a_sum = a.sum(axis=0).sort_values(ascending=False)

print(a_sum)

结果如下：

EMS        124844

Traffic     87465

Fire        37432

dtype: int64

Pandas数据处理+Matplotlib绘图案例的更多相关文章

用Python的Pandas和Matplotlib绘制股票KDJ指标线
我最近出了一本书,<基于股票大数据分析的Python入门实战视频教学版>,京东链接:https://item.jd.com/69241653952.html,在其中给出了MACD,KDJ ...
Pandas与Matplotlib基础
pandas是Python中开源的,高性能的用于数据分析的库.其中包含了很多可用的数据结构及功能,各种结构支持相互转换,并且支持读取.保存数据.结合matplotlib库,可以将数据已图表的形式可视化 ...
matplotlib绘图的基本操作
转自:Laumians博客园更简明易懂看Matplotlib Python 画图教程 (莫烦Python)_演讲•公开课_科技_bilibili_哔哩哔哩 https://www.bilibili. ...
Matplotlib绘图双纵坐标轴设置及控制设置时间格式
双y轴坐标轴图今天利用matplotlib绘图,想要完成一个双坐标格式的图. fig=plt.figure(figsize=(20,15)) ax1=fig.add_subplot(111) ax1 ...
Pandas与Matplotlib
Pandas与Matplotlib基础 pandas是Python中开源的,高性能的用于数据分析的库.其中包含了很多可用的数据结构及功能,各种结构支持相互转换,并且支持读取.保存数据.结合matplo ...
Pandas与Matplotlib结合进行可视化
前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matplotlib配合绘制出折线图, 散点图, 饼图, 柱形图, 直方图等五大基本图形. Matplotlib是python中的一个 ...
python数据分析使用matplotlib绘图
matplotlib绘图关注公众号"轻松学编程"了解更多. Series和DataFrame都有一个用于生成各类图表的plot方法.默认情况下,它们所生成的是线形图 %matpl ...
Python_科学计算平台__pypi体系的numpy、scipy、pandas、matplotlib库简介
1.numpy--基础,以矩阵为基础的数学计算模块,纯数学存储和处理大型矩阵. 这个是很基础的扩展,其余的扩展都是以此为基础. 快速学习入口 https://docs.scipy.org/doc/n ...
matplotlib 绘图
http://blog.csdn.net/jkhere/article/details/9324823 都打一遍 5 matplotlib-绘制精美的图表 matplotlib 是python最著名的 ...

随机推荐

VUE组件间数据方法的传递，初步了解
父组件的数据传递到子组件: 子组件:(其中fMsg是要从父组件传递过来的数据,注意fMsg要在子组件props里先定义) 父组件:(使用v-bind,将自身数据绑定给中转属性fMsg,从而通过子组件 ...
如何让模拟的json数据接口能够正常的在手机上有效果
1. 确保手机与PC在同一个ip网下这里我是通过------------360随身WIFI,20块钱淘宝上卖的,外观像U盘一样的,直接插在电脑的USB上就能在PC上创建一个WiFi,手机连接上就可以 ...
mysql--表数据操作
查询: 简单查询 ####查询的字段必须在表中存在 #### 对查询出来的数据进行修改时,不会修改原来的数据,只是修改了可视化的,我们看到的数据. # 查一个数据 select 字段名 from 表名 ...
CF1139D Steps to One
题目链接:洛谷这个公式可真是个好东西.(哪位大佬知道它叫什么名字的?) 如果$X$恒$\geq 0$,那么 $$E[X]=\int_0^{+\infty}P(X>t)dt$$ 呸,我什么都没写 ...
Android studio 远程服务调用
https://blog.csdn.net/bond_zhe/article/details/50971021
《图解HTTP》读书笔记（五：HTTP报文结构）
用于 HTTP 协议交互的信息被称为 HTTP 报文. 请求端(客户端) 的HTTP 报文叫做请求报文, 响应端(服务器端) 的叫做响应报文.HTTP 报文本身是由多行(用 CR+LF 作换行符) 数 ...
【记录tomcat报错解决办法】tomcat请求组件没有找到的问题
报错原因: An incompatible version 1.1.14 of APR based Apache Tomcat Native library is installed, while T ...
==还款-代偿（csv循环自动代偿）
问题: 解决:传递参数错误,上一步就错了问题:代偿返回这些信息解决:传递参数错误,应该为${repayWay1},但是一直写的是${repayWay} 问题:如何从csv文件中逐条取项目编号,进行 ...
Oracle 中编写 function 和 procedure 的注意事项
create or replace function sum_pro( v_a number, v_b number ) return number is -- v_result number(10) ...
Linux删除奇怪名字文件
use ls -ilrt get filenum and use find ./ -inum filenum -exec rm '{}' \; del it

Pandas数据处理+Matplotlib绘图案例

第一组例子(星巴克咖啡店)

店铺总数排名前10的国家

中国店铺数排名前20的城市

第二组例子（世界排行前10000书籍信息）

各年份书籍平均评分

911紧急求救电话信息

Pandas数据处理+Matplotlib绘图案例的更多相关文章

随机推荐

热门专题