pandas的DataFrame功能强大自不必说，它可以帮助我们极大的提高统计分析的效率。

不过，使用DataFrame开发我们的分析程序的时候，经常需要打印出DataFrame的内容，
以验证和调试数据的处理是否正确。

在命令行中虽然可以直接打印出DataFrame的内容，但是阅读比较困难。
正好前段时间了解到python的一个用于创建美观和富有表现力的终端输出的库--Rich。

Rich库有命令行中显示表格的功能，于是，尝试了结合Rich来显示DataFrame，
以便在开发过程中，更好的调试DataFrame中的数据。

1. 原始显示

首先，构造一个简单的DataFrame，直接在命令行中显示出来，看看原始的效果，然后再一步步改进。

import pandas as pd

if __name__ == "__main__":

    df = pd.DataFrame(

        {

            "订单号": ["0001", "0002", "0003", "0004", "0005"],

            "单价": [1099.5, 8790.0, 12.55, 10999.0, 999.5],

            "数量": [1, 3, 1200, 4, 5],

        }

    )

    df["总价"] = df["单价"] * df["数量"]

    print(df)

从图中可以看出，默认情况下，表头和值都没有对齐，
这个示例的DataFrame比较简单，如果列多的话，阅读会更加困难。

2. 表格显示

接下来，该Rich登场了。
为了方便后续逐步扩展功能，我创建了一个DataFramePretty类来显示DataFrame。

# -*- coding: utf-8 -*-

import pandas as pd

from rich.console import Console

from rich.table import Table

class DataFramePretty(object):

    def __init__(self, df: pd.DataFrame) -> None:

        self.data = df

    def show(self):

        table = Table()

        # self.data是原始数据

        # df 是用来显示的数据

        df = self.data.copy()

        for col in df.columns:

            df[col] = df[col].astype("str")

            table.add_column(col)

        for idx in range(len(df)):

            table.add_row(*df.iloc[idx].tolist())

        console = Console()

        console.print(table)

主函数也稍微做些调整，不是直接print(df)，而是用DataFramePretty类来显示。

import pandas as pd

from dataframe_pretty import DataFramePretty

if __name__ == "__main__":

    df = pd.DataFrame(

        {

            "订单号": ["0001", "0002", "0003", "0004", "0005"],

            "单价": [1099.5, 8790.0, 12.55, 10999.0, 999.5],

            "数量": [1, 3, 1200, 4, 5],

        }

    )

    df["总价"] = df["单价"] * df["数量"]

    dfp = DataFramePretty(df)

    dfp.show()

DataFramePretty类在同级目录的dataframe_pretty.py文件中。

显示效果如下：

3. 标题和表头

上面是最朴素的显示方式，但是至少通过表格和边框，将每列的数据很清晰的分割开来，方便阅读。
在创建表格时，可以简单的添加一些参数，给表格添加个标题，这样在需要显示多个表格的时候，方便区分。
还可以给表头设置个样式（比如颜色），以区分表头和值。

修改方法很简单，把上面DataFramePretty类中的table = Table()改成：

table = Table(

    title="DataFrame",

    title_style="i on dark_cyan",

    header_style="bold cyan",

)

显示效果如下：

这里的标题（title）固定用了DataFrame字符串，实际使用时，可以根据情况使用和自己表格内容相关的标题。
title_style参数是设置标题样式的，header_style参数是设置表头样式的。

4. 高亮最大最小值

找出最大值和最小值是常见的分析步骤，下面扩展了DataFramePretty类，增加一个min_max_cols属性，
用来标记需要高亮最大最小值的列。

class DataFramePretty(object):

    def __init__(self, df: pd.DataFrame, min_max_cols=[]) -> None:

        self.data = df

        self.min_max_cols = min_max_cols

    def __set_min_max_style(self, df: pd.DataFrame):

        imax = self.data.idxmax()

        imin = self.data.idxmin()

        max_tmpl = "[b on red3]{}[/b on red3]"

        min_tmpl = "[i on green3]{}[/i on green3]"

        for col in self.min_max_cols:

            col_idx = imax.index.tolist().index(col)

            val = df.iloc[imax[col], col_idx]

            df.iloc[imax[col], col_idx] = max_tmpl.format(val)

            col_idx = imin.index.tolist().index(col)

            val = df.iloc[imin[col], col_idx]

            df.iloc[imin[col], col_idx] = min_tmpl.format(val)

    def show(self):

        table = Table(

            title="DataFrame",

            title_style="i on dark_cyan",

            header_style="bold cyan",

        )

        # self.data是原始数据

        # df 是用来显示的数据

        df = self.data.copy()

        for col in df.columns:

            df[col] = df[col].astype("str")

            table.add_column(col)

        self.__set_min_max_style(df)

        for idx in range(len(df)):

            table.add_row(*df.iloc[idx].tolist())

        console = Console()

        console.print(table)

说明：

__init__函数中增加了一个min_max_cols参数，用来传入需要高亮最大最小值的列，默认为空列表
__set_min_max_style函数用来高亮每个列的最大最小值，最大值用粗体和红色，最小值用斜体和绿色

其中的变量max_tmpl和min_tmpl就是用来定义最大最小值样式的。

DataFramePretty类调整后，调用的地方也相应修改如下：

    dfp = DataFramePretty(df, ["单价", "数量", "总价"])

    dfp.show()

显示效果如下：

5. 加入Emoji

最后这个Emoji的功能是在看Rich文档的时候偶然看到的，没想到还能支持Emoji。
试了下，给最大值后面加个大拇指向上，最小值后面加个大拇指向下。

max_tmpl = "[b on red3]{}[/b on red3]"

min_tmpl = "[i on green3]{}[/i on green3]"

修改为：

max_tmpl = "[b on red3]{}[/b on red3] :thumbsup:"

min_tmpl = "[i on green3]{}[/i on green3] :thumbsdown:"

效果如下：

6. 附录

这个简单封装的DataFramePretty类，不太成熟，暂时是为了方便自己在开发过程中打印DataFrame用的。

上面的DataFramePretty类只高亮了最大值和最小值，其他根据实际业务需要高亮的内容可以仿照编写。
Emoji的功能不只是为了好玩，也给我们多提供了一种标记数据的方式。

Rich库的颜色种类可参考：https://github.com/scotch-io/All-Github-Emoji-Icons
Emoji的字符表示可参考：https://github.com/scotch-io/All-Github-Emoji-Icons
关于Rich的介绍可参考之前的文章：Python Rich：美化终端显示效果
关于pandas的介绍可参考之前的系列：pandas基础 pandas小技巧

借助Rich库实现Pandas DataFrame颜值升级的更多相关文章

使用第三方库连接MySql数据库：PyMysql库和Pandas库
使用PyMysql库和Pandas库链接Mysql 1 系统环境系统版本:Win10 64位 Mysql版本: 8.0.15 MySQL Community Server - GPL pymysql ...
pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
pandas dataframe类型操作
用python做数据分析pandas库介绍之DataFrame基本操作怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这 ...
pandas.DataFrame学习系列1——定义及属性
定义: DataFrame是二维的.大小可变的.成分混合的.具有标签化坐标轴(行和列)的表数据结构.基于行和列标签进行计算.可以被看作是为序列对象(Series)提供的类似字典的一个容器,是panda ...
pandas.DataFrame的pivot()和unstack()实现行转列
示例: 有如下表需要进行行转列: 代码如下: # -*- coding:utf-8 -*- import pandas as pd import MySQLdb from warnings impor ...
maven私库nexus2.3.0-04迁移升级到nexus-3.16.1-02（异机迁移备份）
环境信息: nexus2.3.0-04安装在32位Windows server 2003系统上安装位置信息如下: 仓库迁移 Nexus的构件仓库都保存在sonatype-work目录中,nexus2 ...
pandas DataFrame apply()函数(1)
之前已经写过pandas DataFrame applymap()函数还有pandas数组(pandas Series)-(5)apply方法自定义函数 pandas DataFrame 的 app ...
pandas DataFrame apply()函数(2)
上一篇pandas DataFrame apply()函数(1)说了如何通过apply函数对DataFrame进行转换,得到一个新的DataFrame. 这篇介绍DataFrame apply()函数 ...
把pandas dataframe转为list方法
把pandas dataframe转为list方法先用numpy的 array() 转为ndarray类型,再用tolist()函数转为list
pandas DataFrame.shift()函数
pandas DataFrame.shift()函数可以把数据移动指定的位数 period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列. eg: 有这样一个DataFrame ...

随机推荐

BTC-协议
BTC-协议一个去中心化的数字货币要解决两个问题 1.谁有权发行货币比特币的发行是由挖矿决定的(coinbase transaction 唯一一个产生新币的途径)比特币通过挖矿来决定货币的发行权, ...
Elasticsearch 索引与文档的常用操作总结一
本文为博主原创,未经允许不得转载: ES 的 Restful风格: Restful是一种面向资源的架构风格,可以简单理解为:使用URL定位资源,用HTTP动词(GET,POST,DELETE,PUT) ...
Go-连接redis
百度网盘(百度云)SVIP超级会员共享账号每日更新（2024.01.02）
一.百度网盘SVIP超级会员共享账号可能很多人不懂这个共享账号是什么意思,小编在这里给大家做一下解答. 我们多知道百度网盘很大的用处就是类似U盘,不同的人把文件上传到百度网盘,别人可以直接下载,避免 ...
linux环境C语言实现：h264与pcm封装成mp4视频格式
前言 H.264是压缩过的数据,PCM是原始数据,MP4是一种视频封装格式.实际H.264与PCM不能直接合成MP4格式,因为音频格式不对.这里需要中间对音频做一次压缩处理.基本流程为:将PCM音频数 ...
[转帖]Elasticsearch8关闭安全认证功能
https://juejin.cn/post/7203637198120878137 Elasticsearch8在默认情况下是开启安全认证的.但在开发或者简单尝试时,希望关闭它. 关闭安全认证的方式 ...
[转帖]Kafka 核心技术与实战学习笔记（八）kafka集群参数配置（下）
一.Topic级别参数 Topic的优先级: 如果同时设置Topic级别参数和全局Broker参数,那么Topic级别优先消息保存方面: retention.ms:规定Topic消息保存时长.默认是 ...
[转帖]CentOS 7 下用 firewall-cmd / iptables 实现 NAT 转发供内网服务器联网
https://www.cnblogs.com/hope250/p/8033818.html 自从用 HAProxy 对服务器做了负载均衡以后,感觉后端服务器真的没必要再配置并占用公网IP资源.而且由 ...
银河麒麟(Ubuntu)无法上网问题的解决方法
最近部门借了几台银河麒麟的服务器. 因为有特殊用途, 不允许连接互联网,所以没办法只能搭建一个小的局域网进行处理. 但是发现在搭建过程中遇到了一些坑, 之前协助同事解决odoo问题时也遇到过, 当时本 ...
如何优雅的写 css 代码
CSS(全称 Cascading Style Sheets,层叠样式表)为开发人员提供声明式的样式语言,是前端必备的技能之一,基于互联网上全面的资料和简单易懂的语法,CSS 非常易于学习,但其知识点广 ...

借助Rich库实现Pandas DataFrame颜值升级