用一行Python进行数据收集探索

京东云技术新知 2024-09-02 00:57:58 原文

简易的Pandas之路

任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas，请确保在终端中使用pip install安装：

pip install pandas

现在，让我们看看Pandas包中的默认方法可以做些什么：

以下内容写给不知道上面发生了什么的新手：

任何Pandas数据帧都有一个.descripe（）返回上面的输出的方法。但是，此方法中没有注意到分类变量。在上面的示例中，输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。

Pandas分析

如果我告诉你仅用3行Python就可以产生以下统计信息，你会怎么想？但其实，如果不计算imports的话，总体上只用1行就够。

要点：类型，唯一值，缺失值
分位数统计信息：例如最小值，Q1，中位数，Q3，最大值，范围，四分位数范围
描述性统计数据：例如平均值，众数，标准偏差，总和，中位数绝对偏差，变异系数，峰度，偏度
常用值
直方图
高相关变量Spearman，Pearson和Kendall矩阵的相关性突出显示
缺失值矩阵，计数，热图和缺失值树状图

（功能列表直接来自Pandas Profiling GitHub）

好吧，我们可以使用Pandas Profiling软件包！要安装Pandas Profiling软件包，只需在终端中使用pip install即可：

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻，但这对于快速获得数据的第一手印象肯定是有用的：

我们首先看到的是概述，其中提供了关于数据和变量的一些非常高级的统计信息，以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分，如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的，所以我制作了一个gif：

我强烈建议大家自己去探索一下这个包的特性，毕竟，这里提到的只是一行代码，在将来的数据分析中，这个包可能会对你非常有用。

import pandas as pd

import pandas_profiling

pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

原文链接：https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d

以上信息来源于网络，由“京东云开发者社区”公众号编辑整理，不代表京东云立场。

点击“京东云”了解京东云数据工厂产品

欢迎点击“链接”了解更多精彩内容

用一行Python进行数据收集探索的更多相关文章

第三百五十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...
如何用 Python 和 API 收集与分析网络数据？
摘自 https://www.jianshu.com/p/d52020f0c247 本文以一款阿里云市场历史天气查询产品为例,为你逐步介绍如何用 Python 调用 API 收集.分析与可视化数据.希 ...
数据挖掘（二）用python实现数据探索：汇总统计和可视化
今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处 ...
三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...
探索 OpenStack 之（17）：计量模块 Ceilometer 中的数据收集机制
本文将阐述 Ceilometer 中的数据收集机制.Ceilometer 使用三种机制来收集数据: Notifications:Ceilometer 接收 OpenStack 其它服务发出的 noti ...
网站统计中的数据收集原理及实现（share）
转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工 ...
使用nginx lua实现网站统计中的数据收集
导读网站数据统计分析工具是各网站站长和运营人员经常使用的一种工具,常用的有谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于ja ...
python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
用 Python 排序数据的多种方法
用 Python 排序数据的多种方法目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...

随机推荐

11.json
import json # json反序列化 # json_str = '{"name":"qiyue","age":18}' # stud ...
068-PHP定义并输出数组
<?php $arr=array(98,'hello',67,'A',85,NULL); //定义一个数组 echo "输出第一个元素:{$arr[0]}"; //输出数组的 ...
移动MAS短信平台发送短信
MAS短信平台发送短信分为两种方式参考文档下载一.sdk调用 using mas.ecloud.sdkclient; using System; namespace 短信发送 { class Pr ...
Node.js NPM 介绍
章节 Node.js NPM 介绍 Node.js NPM 作用 Node.js NPM 包(Package) Node.js NPM 管理包 Node.js NPM Package.json NPM ...
洛谷 P5146 最大差值
题目传送门好水的题... AC代码: #include<iostream> #include<cstdio> using namespace std; ,a,ans = -; ...
COGS1487 麻球繁衍
不会做%%http://blog.csdn.net/doom_bringer/article/details/50428503 #include<bits/stdc++.h> #defin ...
Assignment写作需要掌握的两种表达方式
在正式开始写Assignment之前都会进行文献检索和整理,选择适合Assignment选题的文献资料进行阅读和引用.对于文献中与自己的观点高度相关的参考资料要如何具体引用,而不造成抄袭或者增加文章的 ...
bugku-Web-多次(异或注入，判断被过滤的关键字)
进去看到url感觉是sql注入, 加上',报错但是%23不报错,加上'--+,也不报错,说明可以用--+注释加上' or 1=1--+,报错尝试' oorr 1=1--+,正常说明or被过滤了. ...
maven学习（三）-使用maven来创建项目
转自https://www.cnblogs.com/xdp-gacl/p/4240930.html maven作为一个高度自动化构建工具,本身提供了构建项目的功能,下面就来体验一下使用maven构建项 ...
2020/1/30 PHP代码审计之CSRF漏洞
0x00 CSRF漏洞 CSRF(Cross-site request forgery)跨站请求伪造:也被称为"One Click Attack"或者Session Riding, ...