数据可视化实例（八）：边缘直方图（matplotlib，pandas）

https://datawhalechina.github.io/pms50/#/chapter6/chapter6

边缘直方图（Marginal Histogram）

边缘直方图具有沿 X 和 Y 轴变量的直方图。这用于可视化 X 和 Y 之间的关系以及单独的 X 和 Y 的单变量分布。这种图经常用于探索性数据分析（EDA）。

导入所需要的库

# 导入numpy库

import numpy as np

# 导入pandas库

import pandas as pd

# 导入matplotlib库

import matplotlib as mpl

import matplotlib.pyplot as plt

# 导入seaborn库

import seaborn as sns

# 在jupyter notebook显示图像

%matplotlib inline

设定图像各种属性

large = 22; med = 16; small = 12

            # 设置子图上的标题字体

params = {'axes.titlesize': large,

            # 设置图例的字体

          'legend.fontsize': med,

            # 设置图像的画布

          'figure.figsize': (16, 10),

            # 设置标签的字体

          'axes.labelsize': med,

            # 设置x轴上的标尺的字体

          'xtick.labelsize': med,

            # 设置整个画布的标题字体

          'ytick.labelsize': med,

          'figure.titlesize': large}

# 更新默认属性

plt.rcParams.update(params)

 # 设定整体风格

plt.style.use('seaborn-whitegrid')

# 设定整体背景风格

sns.set_style("white")

程序代码

# step1:导入数据

df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")

# step2:创建子图对象与网格

    # 画布

fig = plt.figure(figsize = (16, 10),     # 画布大小_(16, 10)

                 dpi = 80,               # 分辨率

                 facecolor = 'white')    # 背景颜色，默认为白色

    # 网格

grid = plt.GridSpec(4,                   # 行数

                    4,                   # 列数

                    hspace = 0.5,        # 行与行之间的间隔

                    wspace = 0.2)        # 列与列之间的间隔

# step3:明确子图的位置

    # 确定如图所示散点图的位置

ax_main = fig.add_subplot(grid[:-1, :-1])

    # 确定如图所示右边直方图的位置

ax_right = fig.add_subplot(grid[:-1, -1], xticklabels = [], yticklabels = [])

    # 确定如图所示最底下直方图的位置

ax_bottom = fig.add_subplot(grid[-1, 0:-1], xticklabels = [], yticklabels = [])

# step4：散点图

    # category__Category是pandas的一种数据类型

    # astype__实现变量类型转换

    # cat__获取分类变量的类别

    # codes__按照类别编码

ax_main.scatter('displ',             # 横坐标

               'hwy',                # 纵坐标

                s = df.cty*4,        # 设置点的尺寸

               data = df,            # 所使用的数据

               c = df.manufacturer.astype('category').cat.codes,   # 颜色类别

                cmap = 'tab10',      # 调色板

                edgecolors = 'gray', # 边框颜色

                linewidths = 0.5,    # 线宽

                alpha = 0.9)          # 透明度

# step5:右边的直方图

ax_right.hist(df.hwy,                 # 需要绘图的变量

             40,                      # 需要分为多少段

             histtype = 'stepfilled', # 生成一个的线条轮廓

             orientation = 'horizontal',  # 方位__水平

             color = 'deeppink')      # 颜色__深粉色

# step6:底部的直方图

ax_bottom.hist(df.displ,                # 需要绘图的变量

              40,                       # 需要分为多少段

              histtype = 'stepfilled',  # 生成一个的线条轮廓

              orientation = 'vertical', # 方位__垂直

              color = 'deeppink')       # 颜色__深粉色

ax_bottom.invert_yaxis()

# step7:装饰图像

ax_main.set(title='Scatterplot with Histograms \n displ vs hwy',  # 设置标题

            xlabel='displ',             # 横坐标名称

            ylabel='hwy')               # 纵坐标名称

ax_main.title.set_fontsize(20)          # 设置标题字体大小

    # xaxis.label__x坐标轴的标题

    # yaxis.label__y坐标轴的标题

    # xticklabel__x坐标轴的标尺

    # yticklabel__y坐标轴的标尺

        # 遍历每一个对象并且修改其字体大小

for item in ([ax_main.xaxis.label, ax_main.yaxis.label] + ax_main.get_xticklabels() + ax_main.get_yticklabels()):

    item.set_fontsize(14)               # 修改字体大小

xlabels = ax_main.get_xticks().tolist() # 将散点图上的x坐标轴上的标尺提取后转换为list(一位小数)

ax_main.set_xticklabels(xlabels)        # 将xlabels中的数字设置为散点图上的坐标轴上的标尺

plt.show()                              # 显示图像

博文总结

matplotlib.pyplot.hist(x,bins=None,range=None, density=None, bottom=None, histtype='bar', align='mid', 
log=False, color=None, label=None, stacked=False, normed=None)

关键参数

x: 数据集，最终的直方图将对数据集进行统计

bins: 统计的区间分布

range: tuple, 显示的区间，range在没有给出bins时生效

density: bool，默认为false，显示的是频数统计结果，为True则显示频率统计结果，这里需要注意，频率统计结果=区间数目/(总数*区间宽度)，和normed效果一致，官方推荐使用density

histtype: 可选{'bar', 'barstacked', 'step', 'stepfilled'}之一，默认为bar，推荐使用默认配置，step使用的是梯状，stepfilled则会对梯状内部进行填充，效果与bar类似

align: 可选{'left', 'mid', 'right'}之一，默认为'mid'，控制柱状图的水平分布，left或者right，会有部分空白区域，推荐使用默认

log: bool，默认False,即y坐标轴是否选择指数刻度

stacked: bool，默认为False，是否为堆积状图

数据可视化实例（八）：边缘直方图（matplotlib，pandas）的更多相关文章

【Matplotlib】数据可视化实例分析
数据可视化实例分析作者:白宁超 2017年7月19日09:09:07 摘要:数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息.但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令 ...
数据可视化实例（九）：边缘箱形图（matplotlib，pandas）
https://datawhalechina.github.io/pms50/#/chapter7/chapter7 边缘箱形图 (Marginal Boxplot) 边缘箱图与边缘直方图具有相似的用 ...
数据可视化实例（三）：散点图（pandas，matplotlib，numpy）
关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系. 也就是说,一个变量如何相对于另一个变化. 散点图(Scatter plot) 散点图是用于研究两个变量之间关系的经典的和 ...
数据可视化实例（五）：气泡图（matplotlib，pandas）
https://datawhalechina.github.io/pms50/#/chapter2/chapter2 关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系. 也 ...
数据可视化实例（十四）：带标记的发散型棒棒糖图（matplotlib，pandas）
偏差 (Deviation) 带标记的发散型棒棒糖图 (Diverging Lollipop Chart with Markers) 带标记的棒棒糖图通过强调您想要引起注意的任何重要数据点并在图表中适 ...
数据可视化实例（十三）：发散型文本（matplotlib，pandas）
偏差 (Deviation) https://datawhalechina.github.io/pms50/#/chapter11/chapter11 发散型文本 (Diverging Texts) ...
数据可视化实例（十二）：发散型条形图（matplotlib，pandas）
https://datawhalechina.github.io/pms50/#/chapter10/chapter10 如果您想根据单个指标查看项目的变化情况,并可视化此差异的顺序和数量,那么散型条 ...
数据可视化实例（十一）：矩阵图（matplotlib，pandas）
矩阵图 https://datawhalechina.github.io/pms50/#/chapter9/chapter9 导入所需要的库 import numpy as np # 导入numpy库 ...
数据可视化实例（十七）：包点图（matplotlib，pandas）
排序 (Ranking) 包点图 (Dot Plot) 包点图表传达了项目的排名顺序,并且由于它沿水平轴对齐,因此您可以更容易地看到点彼此之间的距离. https://datawhalechina.g ...

随机推荐

LOJ 3045: 洛谷 P5326: 「ZJOI2019」开关
题目传送门:LOJ #3045. 题意简述略. 题解从高斯消元出发好像需要一些集合幂级数的知识,就不从这个角度思考了. 令 \(\displaystyle \dot p = \sum_{i = 1 ...
Redis学习笔记（二十一）事务
文章开始啰嗦两句,写到这里共21篇关于redis的琐碎知识,没有过多的写编程过程中redis的应用,着重写的是redis命令.客户端.服务器以及生产环境搭建用到的主从.哨兵.集群实现原理,如果你真的能 ...
map处理：map(str,[1,2,3,4,5,6])
#map(s1,s2)传入两个参数,s1是对该Iterable每个参数做处理的参数,s2是该Iterable print(list(map(str,[1,2,3,4,5,6]))) #map()传入的 ...
ida 调试android之路
系统: Mac OSX 调试环境:IDA7.0, adb 手机环境:红米手机 android 4.4.4 前提条件: 红米手机root之路:https://www.cnblogs.com/dzqdz ...
记一次uboot升级过程的两个坑
背景之前做过一次uboot的升级,当时留下了一些记录,本文摘录其中比较有意思的两个问题. 启动失败问题问题简述 uboot代码中用到了一个库,考虑到库本身跟uboot版本没什么关系,就直接把旧的库 ...
在Docker中运行PostgreSQL + pgAdmin 4
拉取postgresql镜像:docker pull postgres 运行postgresql:docker run -d -p 5432:5432 --name postgresql -v pgd ...
发布Nuget包时遇到都意外
准备好工具和发布教程.(这些网上都有,我就不说了,就说说我遇到都意外.) 在发布包都过程中,我给我都dll命名为Common.不知道是不是这个原因导致的我包发布上去后,程序对其引用时居然没主动引用进程 ...
Python3-queue模块-同步队列
Python3中的queue模块实现多生产者,多消费者队列,特别适用于多个线程间的信息的安全交换,主要有三个类 queue.Queue(maxsize=0) 构造一个FIFO(先进先出)的队列 que ...
入门大数据---Spark_Streaming与流处理
一.流处理 1.1 静态数据处理在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中.应用程序根据需要查询数据或计算数据.这就是传统的静态数据处理架构.Hadoop 采用 HDFS 进 ...
【弹性碰撞问题】POJ 1852 Ants
Description An army of ants walk on a horizontal pole of length l cm, each with a constant speed of ...

数据可视化实例（八）： 边缘直方图（matplotlib，pandas）

https://datawhalechina.github.io/pms50/#/chapter6/chapter6

边缘直方图 （Marginal Histogram）

导入所需要的库

设定图像各种属性

程序代码

博文总结

关键参数

数据可视化实例（八）： 边缘直方图（matplotlib，pandas）的更多相关文章

随机推荐

热门专题

数据可视化实例（八）：边缘直方图（matplotlib，pandas）

边缘直方图（Marginal Histogram）

数据可视化实例（八）：边缘直方图（matplotlib，pandas）的更多相关文章