首先依托于一个场景来进行可视化分析 直接选了天池大数据竞赛的新人赛的一个活跃题目 用的方式也是最常用的数据预处理方式

【新人赛】快来一起挖掘幸福感!https://tianchi.aliyun.com/competition/entrance/231702/introduction

既然是data cleaning的总结 就稍微写详细点 (其实感觉在写废话 我一共就想总结一下matplotlib的pyplot和seaborn的画图)

用pandas读进来之后是dataframe格式的,所以可以用df的一些方法进行查看,注意下文的xx都是你自己读文件的变量名

第一条常用的:xx.head()啥都不填默认查看前五条数据对应的xx.tail()查看后五行

第二条常用的:xx.describe()查看所有特征的值分布 即计数、均值、标准差、最小最大值、中间值和两个四分位数

第三条常用的:xx.isnull().sum()isnull 将空的元素置为True,sum计算True的个数 合起来就是算空元素的个数

第四条常用的:xx.shape() 就是返回dataframe的结构(行列数)

第五条常用的:xx['某个属性的名字'].value_counts()可以计算你的dateframe的某一个属性的值的分布情况 比如当前属性有几个类别 每个类别有多少条数据,对以上进行补充 当你发现你的某条属性(通常都是最终的类属性)有你不需要的值的时候,比如你的数据集介绍属性有五个 但是这时候出现了第六类属性 你可以直接把它对应的数据删掉,方法是xx = xx.loc[xx['你要处理的属性名'] != 刚才多余的那个值] 可以直接把你的数据给清洗了 不用drop操作了 很方便

第六条常用的:开始总结matplotlib是一个大的画图包 一般用的是它旗下pyplot子包 简称plt 然后用到seaborn这个包 它是基于上个包的补充工具 更简单更漂亮,首先我们通常会画出一系列的图 所以首先用plt.subplots或者subplot进行子图的布局 区别是subplot(a,b,c)的三个参数代表行、列、第几幅图 第三个参数的顺序是从左到右 从上到下 比如你一共布局四张图 221就是左上222右上223左下224右下,然后贼麻烦 就等于以前用c语言的switch一样 你要重复写好多个句子, 推荐用 f,[a1,a2,...an] = subplots(a,b,figsize=(x,y)) f指的是所有子图的大标题 在所有子图上方显示 需要这条语句f.suptitle('title') 然后向量a1到an就表示你的子图作图区域 你想在a几画什么图都行 a,b和上文一样表示子图行列布局 figsize单幅图大小  接下来 方便的地方来了

xx['某个属性的名字'].value_counts().plot.pie(autopct = '%1.2f%%',ax = a1)

最方便的饼图画法 autopct是饼图每个组分中自动显示名称和占比几位小数就是%1.几f 两个%%意思是显示% ax是你的子图作图区域 就是在上面subplots申请的向量

条状图或者直方图:你可以用plot.bar和plot.hist搞定 和上面饼图的做法差不多 但是直方图的时候颜色还需要你自己设置 麻烦了点 所以我们用seaborn的直方图作为补充 seaborn的简称是sns

sns.countplot('属性名',data = xx,ax = a2),详细参数请看seaborn的文档 很简单

第七条常用的:python的聚合函数 groupby 详情参见博客:https://blog.csdn.net/qcyfred/article/details/78785792这货写的挺好 用股市做例子 很直观

那么一句话就是xx.groupby(['属性1','属性2'])['属性2'].count 按照1的分类对属性2的值进行划分计数

sns.countplot(x = '划分属性1gender',hue = '类属性2happiness',data = xx)

第八条常用的:

trainData['happiness'][trainData['age'] == 1].value_counts().plot.pie(autopct = '%1.2f%%',ax = ax[0])

可以在plot画图时添加多个子属性的条件限定 来制作多张不同条件下的图

第九条常用的:

热图heatmap,也就是所谓的相关系数矩阵,也就是协方差矩阵,感谢seaborn的corr方法,一步计算相关系数矩阵

ax = plt.subplots(1, 1, figsize = (20,20))
ax = sns.heatmap(xx[['f1','f2',...'fn']].corr(),annot = True,linewidths = 0.2)annot指的是每个格子中间是否显示数值

ubuntu之路——day3(本来打算做pytorch的练习 但是想到前段时间的数据预处理的可视化分析 就先总结一下)的更多相关文章

  1. Python之路,Day12 - 那就做个堡垒机吧

    Python之路,Day12 - 那就做个堡垒机吧   本节内容 项目实战:运维堡垒机开发 前景介绍 到目前为止,很多公司对堡垒机依然不太感冒,其实是没有充分认识到堡垒机在IT管理中的重要作用的,很多 ...

  2. 最近打算体验一下discuz,有不错的结构化数据插件

    提交sitemap是每位站长必做的事情,但是提交到哪里,能不能提交又是另外一回事.国内的话百度是大伙都会盯的蛋糕,BD站长工具也会去注册的,可有些账号sitemap模块一直不能用,或许是等级不够,就像 ...

  3. 目标检测之Faster-RCNN的pytorch代码详解(数据预处理篇)

    首先贴上代码原作者的github:https://github.com/chenyuntc/simple-faster-rcnn-pytorch(非代码作者,博文只解释代码) 今天看完了simple- ...

  4. Pytorch技法:继承Subset类完成自定义数据拆分

    我们在<torch.utils.data.DataLoader与迭代器转换>中介绍了如何使用Pytorch内置的数据集进行论文实现,如torchvision.datasets.下面是加载内 ...

  5. 如何实现 Https拦截进行 非常规“抓包” 珍惜Any 看雪学院 今天 前段时间在自己做开发的时候发现一个很好用的工具,OKHttp的拦截器(何为拦截器?就是在每次发送网络请求的时候都会走的一个回调)大概效果如下:

    如何实现 Https拦截进行 非常规“抓包” 珍惜Any 看雪学院 今天 前段时间在自己做开发的时候发现一个很好用的工具,OKHttp的拦截器(何为拦截器?就是在每次发送网络请求的时候都会走的一个回调 ...

  6. pytorch数据预处理错误

    出错: Traceback (most recent call last): File , in <module> train_model(model_conv, criterion, o ...

  7. Python做数据预处理

    在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索性分析之后要先进行一系列的数据预处理步骤.因为拿到的原始数据存在不完整.不一致. ...

  8. 抓取摩拜单车API数据,并做可视化分析

    抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用途,请不要用于非法目的. 摩拜是最早进入成都的共享单车,每天我从地铁站下来的时 ...

  9. ubuntu之路——day18 用pytorch完成CNN

    本次作业:Andrew Ng的CNN的搭建卷积神经网络模型以及应用(1&2)作业目录参考这位博主的整理:https://blog.csdn.net/u013733326/article/det ...

随机推荐

  1. js 数组 去重 算法(转载)

    以下内容可能有重复部分,项目有用上,但还没来得急整理和验证. 一:https://www.cnblogs.com/jiayuexuan/p/7527055.html 1.遍历数组法 它是最简单的数组去 ...

  2. Python学习日记(十二) 匿名函数

    匿名函数: 未解决一些简单的需求而设计的函数 语法: func = lambda x : x**2 func:函数名 lambda:类似def的关键字 x:参数 x**2:返回值表达式 适用内置函数: ...

  3. Anaconda-Jupyter notebook 如何安装 nbextensions

    系统环境:windows 安装过程中,再次遇到了一地鸡毛,经过不断查询方法,发现前辈大牛们好棒棒! Step1:确定是已经安装好anaconda Step2:要在anaconda prompt模式下运 ...

  4. MySQL Partition Table--分区表优缺点

    分区表历史 1.MySQL 5.1版本开始支持基于整数列的分区表, 2.MySQL 5.5版本开始支持RANGE和LIST分区,支持TRUNCATE分区,新增COLUMNS关键词简化分区定义. 3.M ...

  5. zabbix Server 4.0 监控JMX监控详解

    zabbix Server 4.0 监控JMX监控详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   大家都知道,zabbix server效率高是使用C语言编写的,有很多应用 ...

  6. 资源管理与调度系统-YARN的资源调度器

    资源管理与调度系统-YARN的资源调度器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 资源调度器是Hadoop YARN中最核心的组件之一,它是ResourceManager中的 ...

  7. GCC使用总结

    概念 GCC一开始是linux系统集成的用来编译C程序的编译器(GNU C Compiler),目前GCC已经不仅仅支持C语言了,因而其缩写名单意义也变成(GNU Compiler Collectio ...

  8. try catch 场景

    面试官:什么情况下用到try-catch?程序员:代码执行预料不到的情况,我会使用try-catch.面试官:什么是预料不到的情况呢?程序员:比如我要计算a除以b,但是b是变量,如果b等于0程序就会出 ...

  9. (java)selenium webdriver学习---三种等待时间方法:显式等待,隐式等待,强制等待

    selenium webdriver学习---三种等待时间方法:显式等待,隐式等待,强制等待 本例包括窗口最大化,刷新,切换到指定窗口,后退,前进,获取当前窗口url等操作: import java. ...

  10. vim编辑提示存在临时文件,删除隐藏的*.swp文件即可

    在Linux下vim编辑过程中,由于某种原因异常退出正在编辑的文件,再次编辑该文件时,会出现如下提示: 使用vim编辑文件实际是先copy一份临时文件并映射到内存给你编辑,编辑的是临时文件,当执行:w ...