简易的Pandas之路

任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas,请确保在终端中使用pip install安装:

pip install pandas

现在,让我们看看Pandas包中的默认方法可以做些什么:



以下内容写给不知道上面发生了什么的新手:

任何Pandas数据帧都有一个.descripe()返回上面的输出的方法。但是,此方法中没有注意到分类变量。在上面的示例中,输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。


Pandas分析



如果我告诉你仅用3行Python就可以产生以下统计信息,你会怎么想?但其实,如果不计算imports的话,总体上只用1行就够。

  • 要点:类型,唯一值,缺失值
  • 分位数统计信息:例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
  • 描述性统计数据:例如平均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
  • 常用值
  • 直方图
  • 高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示
  • 缺失值矩阵,计数,热图和缺失值树状图

(功能列表直接来自Pandas Profiling GitHub)

好吧,我们可以使用Pandas Profiling软件包!要安装Pandas Profiling软件包,只需在终端中使用pip install即可:

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻,但这对于快速获得数据的第一手印象肯定是有用的:

我们首先看到的是概述,其中提供了关于数据和变量的一些非常高级的统计信息,以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分,如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的,所以我制作了一个gif:



我强烈建议大家自己去探索一下这个包的特性,毕竟,这里提到的只是一行代码,在将来 的数据分析中,这个包可能会对你非常有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

原文链接:https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d



以上信息来源于网络,由“京东云开发者社区”公众号编辑整理,不代表京东云立场。

点击“京东云”了解京东云数据工厂产品

欢迎点击“链接”了解更多精彩内容

用一行Python进行数据收集探索的更多相关文章

  1. 第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)

    第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...

  2. 如何用 Python 和 API 收集与分析网络数据?

    摘自 https://www.jianshu.com/p/d52020f0c247 本文以一款阿里云市场历史天气查询产品为例,为你逐步介绍如何用 Python 调用 API 收集.分析与可视化数据.希 ...

  3. 数据挖掘(二)用python实现数据探索:汇总统计和可视化

    今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处 ...

  4. 三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)

    Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...

  5. 探索 OpenStack 之(17):计量模块 Ceilometer 中的数据收集机制

    本文将阐述 Ceilometer 中的数据收集机制.Ceilometer 使用三种机制来收集数据: Notifications:Ceilometer 接收 OpenStack 其它服务发出的 noti ...

  6. 网站统计中的数据收集原理及实现(share)

    转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工 ...

  7. 使用nginx lua实现网站统计中的数据收集

    导读网站数据统计分析工具是各网站站长和运营人员经常使用的一种工具,常用的有 谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于ja ...

  8. python和数据科学(Anaconda)

    Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...

  9. 用 Python 排序数据的多种方法

    用 Python 排序数据的多种方法 目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...

随机推荐

  1. Floyd--P2419 [USACO08JAN]牛大赛Cow Contest

    *传送 FJ的N(1 <= N <= 100)头奶牛们最近参加了场程序设计竞赛:).在赛场上,奶牛们按1..N依次编号.每头奶牛的编程能力不尽相同,并且没有哪两头奶牛的水平不相上下,也就是 ...

  2. 【转】ASP.NET Core MVC/WebAPi 模型绑定探索

    前言 相信一直关注我的园友都知道,我写的博文都没有特别枯燥理论性的东西,主要是当每开启一门新的技术之旅时,刚开始就直接去看底层实现原理,第一会感觉索然无味,第二也不明白到底为何要这样做,所以只有当你用 ...

  3. Vue.js(23)之 keepAlive和activated

    阅读: vue中前进刷新.后退缓存用户浏览数据和浏览位置的实践 keep-alive 组件级缓存 keep-alive <keep-alive> 包裹动态组件时,会缓存不活动的组件实例,而 ...

  4. ServletContext 详解

    ServletContext——它是一个全局的储存信息的空间,服务器开始,其就存在,服务器关闭,其才释放.request,一个用户可有多个:session,一个用户一个:而servletContext ...

  5. segger rtt 输出 log

    调试 mcu 的时候,使用 jlink 的 rtt 可以方便的输出信息. 输出有两种模式, client 和 logger. client 必须依附其他程序,比如说 mdk 调试状态,或者 logge ...

  6. Spring 框架介绍

    Spring 框架介绍 Spring 框架模块 Spring开发环境搭建(Eclipse) 创建一个简单的Spring应用 Spring 控制反转容器(Inversion of Control – I ...

  7. MacOS Safari无响应卡死解决方法

    之前也是用的好好的,突然一次进入一个网页就卡死了,强制退出,后面再重新进入Safari都会处于卡死状态,一直找不到解决方法,Safari也不能卸载重装,想着得等到更新系统或者重装系统,今天看到贴吧一个 ...

  8. java虚拟机之JVM生命周期

    java生命周期分为以下三部分:启动,运行,消亡. 启动.启动一个Java程序时,一个JVM实例就产生了,任何一个拥有public static void main(String[] args)函数的 ...

  9. exit(0)与exit(1)

    exit(0):正常运行程序并退出程序: exit(1):非正常运行导致退出程序: return():返回函数,若在主函数中,则会退出函数并返回一值. 详细说: 1. return返回函数值,是关键字 ...

  10. BGP联邦配置

    BGP联盟建立: ①:启用BGP进程. ②:关闭同步与自动汇总. ③:router-id ④:公布自己所属联盟.——confederation identifier ID ⑤:表达自己的与其他对等(p ...