用一行Python进行数据收集探索

京东云技术新知 2024-09-02 00:57:58 原文

简易的Pandas之路

任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas，请确保在终端中使用pip install安装：

pip install pandas

现在，让我们看看Pandas包中的默认方法可以做些什么：

以下内容写给不知道上面发生了什么的新手：

任何Pandas数据帧都有一个.descripe（）返回上面的输出的方法。但是，此方法中没有注意到分类变量。在上面的示例中，输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。

Pandas分析

如果我告诉你仅用3行Python就可以产生以下统计信息，你会怎么想？但其实，如果不计算imports的话，总体上只用1行就够。

要点：类型，唯一值，缺失值
分位数统计信息：例如最小值，Q1，中位数，Q3，最大值，范围，四分位数范围
描述性统计数据：例如平均值，众数，标准偏差，总和，中位数绝对偏差，变异系数，峰度，偏度
常用值
直方图
高相关变量Spearman，Pearson和Kendall矩阵的相关性突出显示
缺失值矩阵，计数，热图和缺失值树状图

（功能列表直接来自Pandas Profiling GitHub）

好吧，我们可以使用Pandas Profiling软件包！要安装Pandas Profiling软件包，只需在终端中使用pip install即可：

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻，但这对于快速获得数据的第一手印象肯定是有用的：

我们首先看到的是概述，其中提供了关于数据和变量的一些非常高级的统计信息，以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分，如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的，所以我制作了一个gif：

我强烈建议大家自己去探索一下这个包的特性，毕竟，这里提到的只是一行代码，在将来的数据分析中，这个包可能会对你非常有用。

import pandas as pd

import pandas_profiling

pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

原文链接：https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d

以上信息来源于网络，由“京东云开发者社区”公众号编辑整理，不代表京东云立场。

点击“京东云”了解京东云数据工厂产品

欢迎点击“链接”了解更多精彩内容

用一行Python进行数据收集探索的更多相关文章

第三百五十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...
如何用 Python 和 API 收集与分析网络数据？
摘自 https://www.jianshu.com/p/d52020f0c247 本文以一款阿里云市场历史天气查询产品为例,为你逐步介绍如何用 Python 调用 API 收集.分析与可视化数据.希 ...
数据挖掘（二）用python实现数据探索：汇总统计和可视化
今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处 ...
三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...
探索 OpenStack 之（17）：计量模块 Ceilometer 中的数据收集机制
本文将阐述 Ceilometer 中的数据收集机制.Ceilometer 使用三种机制来收集数据: Notifications:Ceilometer 接收 OpenStack 其它服务发出的 noti ...
网站统计中的数据收集原理及实现（share）
转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工 ...
使用nginx lua实现网站统计中的数据收集
导读网站数据统计分析工具是各网站站长和运营人员经常使用的一种工具,常用的有谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于ja ...
python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
用 Python 排序数据的多种方法
用 Python 排序数据的多种方法目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...

随机推荐

13.swoole学习笔记--DNS查询
<?php //执行DNS查询 swoole_async_dns_lookup("www.baidu.com",function($host,$ip){ echo $ip; ...
Windows平台整合SpringBoot+KAFKA__第3部分_代码部分（结束）
重要的地方说下,算是给自己提醒,也给阅读者凑合着看看吧: (1)序列化.反序列化: 注意看这个文章 https://www.jianshu.com/p/5da86afed228 很多网上的例子都是推 ...
Django——整体结构/MVT设计模式
MVT设计模式 Models 封装数据库,对数据进行增删改查; Views 进行业务逻辑的处理 Templates 进行前端展示前端展示看到的是模板 --> 发起 ...
100-PHP二维数组的元素输出三
<?php $stu=array(array(76,87,68), array(65,89,95), array(90,80,66), array(90,95,65)); //定义一个二维数组 ...
CSU-ACM2020寒假集训比赛2
A - Messenger Simulator CodeForces - 1288E 两种解法,我选择了第二种 mn很好求,联系过就是1,没联系过就是初始位置第一种:统计同一个人两次联系之间的出现的 ...
算法实战（六）Z 字形变换
一.前言之前因为第五题最长回文字符串需要使用到dp解法,所以我花了很长的时间来研究dp(因为每天又要上班,加上这段时间事情比较多,所以花了三个星期才搞定),好不容易算入了个门,有兴趣的同学可以看看我 ...
P1031 查验身份证
转跳点:
java 学生信息管理
题目: 一.测试要求: 1.按照测试内容要求完成程序的设计与编程: 2.将最终结果的源文件(.java)文件上传到以班级为单位,保存源程序. 3.建立学号姓名文件夹,如: ...
Java compare方法和compareTo方法
Java Comparator接口排序用法,详细介绍可以阅读这个链接的内容:https://www.cnblogs.com/shizhijie/p/7657049.html 对于 public int ...
Day2-T3
原题目 Describe:质数问题 code: #pragma GCC optimize(2) #include<bits/stdc++.h> #define KKK 1200 using ...