简易的Pandas之路

任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas,请确保在终端中使用pip install安装:

pip install pandas

现在,让我们看看Pandas包中的默认方法可以做些什么:



以下内容写给不知道上面发生了什么的新手:

任何Pandas数据帧都有一个.descripe()返回上面的输出的方法。但是,此方法中没有注意到分类变量。在上面的示例中,输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。


Pandas分析



如果我告诉你仅用3行Python就可以产生以下统计信息,你会怎么想?但其实,如果不计算imports的话,总体上只用1行就够。

  • 要点:类型,唯一值,缺失值
  • 分位数统计信息:例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
  • 描述性统计数据:例如平均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
  • 常用值
  • 直方图
  • 高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示
  • 缺失值矩阵,计数,热图和缺失值树状图

(功能列表直接来自Pandas Profiling GitHub)

好吧,我们可以使用Pandas Profiling软件包!要安装Pandas Profiling软件包,只需在终端中使用pip install即可:

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻,但这对于快速获得数据的第一手印象肯定是有用的:

我们首先看到的是概述,其中提供了关于数据和变量的一些非常高级的统计信息,以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分,如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的,所以我制作了一个gif:



我强烈建议大家自己去探索一下这个包的特性,毕竟,这里提到的只是一行代码,在将来 的数据分析中,这个包可能会对你非常有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

原文链接:https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d



以上信息来源于网络,由“京东云开发者社区”公众号编辑整理,不代表京东云立场。

点击“京东云”了解京东云数据工厂产品

欢迎点击“链接”了解更多精彩内容

用一行Python进行数据收集探索的更多相关文章

  1. 第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)

    第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...

  2. 如何用 Python 和 API 收集与分析网络数据?

    摘自 https://www.jianshu.com/p/d52020f0c247 本文以一款阿里云市场历史天气查询产品为例,为你逐步介绍如何用 Python 调用 API 收集.分析与可视化数据.希 ...

  3. 数据挖掘(二)用python实现数据探索:汇总统计和可视化

    今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处 ...

  4. 三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)

    Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...

  5. 探索 OpenStack 之(17):计量模块 Ceilometer 中的数据收集机制

    本文将阐述 Ceilometer 中的数据收集机制.Ceilometer 使用三种机制来收集数据: Notifications:Ceilometer 接收 OpenStack 其它服务发出的 noti ...

  6. 网站统计中的数据收集原理及实现(share)

    转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工 ...

  7. 使用nginx lua实现网站统计中的数据收集

    导读网站数据统计分析工具是各网站站长和运营人员经常使用的一种工具,常用的有 谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于ja ...

  8. python和数据科学(Anaconda)

    Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...

  9. 用 Python 排序数据的多种方法

    用 Python 排序数据的多种方法 目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...

随机推荐

  1. JavaWeb开发校园二手平台项目 源码

    开发环境: Windows操作系统开发工具:MyEclipse/Eclipse + JDK+ Tomcat + MySQL 数据库 项目简介: JAVAWEB校园二手平台项目,基本功能包括:个人信息. ...

  2. jQuery省市联动(XML/JSON)

    准备: 导包 在src下导入c3p0-config.xml 导入JDBCUtil 创建数据库 新建js文件夹导入jQuery配置文件 NO01:创建city.jsp页面 <%@ page lan ...

  3. 八十、SAP中数据库操作之 (FOR ALL ENTRIES IN )用法,比较难明白

    一.代码如下 二.查询结果如下 三.我们把it_spfli的内表内容添加两个 四.结果如下,查询的是所有的JFK和SFO机场. *&------------------------------ ...

  4. 51nod 1430:奇偶游戏 博弈

    1430 奇偶游戏 题目来源: CodeForces 基准时间限制:1 秒 空间限制:131072 KB 分值: 160 难度:6级算法题  收藏  关注 有n个城市,第i个城市有ai个人.Daene ...

  5. 10 ~ express ~ 使用 cookie 保存用户 信息

    思维导图: (1) 保存 cookie (2)销毁 cookie 一,保存 cookie 1,app.js  . 新增代码 var Cookies = require('cookies') /** * ...

  6. SQL COOKBOOK SQL经典实例代码 笔记第一章代码

    -- SQL COOKBOOK CHAPTER1 -- 查看所有内容 select * from emp; -- 可以单列 select empno,ename,job,sal,mgr,hiredat ...

  7. Python Email发送,通知业务完成

    Email 发送 #!/usr/bin/python # -*- coding: UTF-8 -*- import base64 import smtplib from email.mime.text ...

  8. python yield 使用示例

    1.yield由于创建迭代器 def deal(): tmp = [] for i in range(20): tmp.append(i) if i % 4 == 0: yield tmp tmp = ...

  9. VUE.js入门学习(3)-深入理解VUE组建

    1.使用组件的细节点 (1)is="模版名" (2)在子组建定义data的时候,data必须是一个函数,而不能是一个对象,每个子组建都有自己的数据存储.之间不会相互影响. (3)操 ...

  10. C++保存数据到CSV文件

    主要是今天工作的时候需要把一些数据保存到本地,因为是一些预测值和标签的对比,还有预测值的概率,所以想到用CSV文件来保存,大概查了一下,还是比较简单的,所以记录一下. 首先要说明的是CSV文件有点类似 ...