Pandas系列（十七）-EDA（pandas-profiling）

Pandas系列之入门篇

Pandas系列之入门篇简介 pandas 是 python用来数据清洗.分析的包,可以使用类sql的语法方便的进行数据关联.查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储.另外pandas还提供了大数据存储的API--HDFStore,来对接HDF5. 安装 pandas 利用豆瓣源,速度快 pip install pandas numpy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com pytabl…

Pandas系列

系列(Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组.轴标签统称为索引. pandas.Series Pandas系列可以使用以下构造函数创建 - pandas.Series( data, index, dtype, copy). Python 构造函数的参数如下 - 编号参数描述 1 data 数据采取各种形式,如:ndarray,list,constants 2 index 索引值必须是唯一的和散列的,与数据的长度相同. 默认np.ara…

【跟着stackoverflow学Pandas】 -Get list from pandas DataFrame column headers - Pandas 获取列名

最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stackoverflow.com/questions/tagged/pandas?sort=votes&pageSize=15 Get list from pandas DataFrame column headers - Pandas 获取列名 https://stackoverflow.com/ques…

Web 前端开发精华文章集锦（jQuery、HTML5、CSS3）【系列十七】

<Web 前端开发精华文章推荐>2013年第五期(总第十七期)和大家见面了.梦想天空博客关注前端开发技术,分享各种增强网站用户体验的 jQuery 插件,展示前沿的 HTML5 和 CSS3 技术应用,推荐优秀的网页设计案例,共享精美的设计素材和优秀的 Web 开发工具,希望这些精心整理的前端技术文章能够帮助到您. JavaScript [干货分享]32本优秀的 JavaScript 免费电子书 Verlet-js:超炫的开源 JavaScript 物理引擎优秀教程:创建基于 Aja…

pandas教程1：pandas数据结构入门

pandas是一个用于进行python科学计算的常用库,包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单.pandas建造在NumPy之上,它使得以NumPy为中心的应用很容易使用. pandas为数据提供了一些解决方案: 支持自动或明确的数据对齐的带有标签轴的数据结构.这可以防止由数据不对齐引起的常见错误,并可以处理不同来源的不同索引数据. 整合的时间序列功能. 以相同的数据结构来处理时间序列和非时间序列. 支持传递元数据(坐标轴标签)的算术运算和缩减. 灵活处理丢失…

Python：pandas（二）——pandas函数

Python:pandas(一) 这一章翻译总结自:pandas官方文档--General functions 空值:pd.NaT.np.nan //判断是否为空 if a is np.nan: ... 数据操作 melt 将DataFrame从一个宽类型转化为长类型:固定某一列,看该列变量其他列的值 pivot 用某些列将DataFrame变形(不是常见的大小变形) cut 切割一个一维数据为离散的区间 qcut 与cut相似,区别在于cut是等长切割,qcut是等元素数切割 merge 连接…

Pandas系列（十七）-EDA（pandas-profiling）

对于探索性数据分析来说,做数据分析前需要先看一下数据的总体概况,pandas_profiling工具可以快速预览数据. 安装 pip install pandas-profiling 使用 import pandas as pd import pandas_profiling data = pd.read_csv('books.csv') pandas_profiling.ProfileReport(data) profile = pandas_profiling.ProfileReport(d…

Pandas系列教程——写在前面

之前搜pandas资料,发现互联网上并没有成体系的pandas教程,于是乎突然有个爱迪页儿,打算自己把官网的文档加上自己用pandas的理解,写成一个系列的教程, 巩固自己,方便他人接下来就干这件事吧~~~ 是为序…

Pandas系列之入门篇——HDF5

Pandas系列之入门篇--HDF5 简介 HDF5(层次性数据格式)作用于大数据存储,其高效的压缩方式节约了不少硬盘空间,同时也给查询效率带来了一定的影响, 压缩效率越高,查询效率越低.pandas 0.20.1之后的版本默认选用blosc压缩,跟bzip2相比,其间做了一个小测试,10000 条数据,bzip2的压缩率是blosc的30倍,而查询效率blosc却是bzip2的8倍.至于项目中选用哪种压缩方式,需要看具体需求. 回顾上一节<Pandas系列之入门篇> 上一节提到用hdf5作为…

Pandas系列（四）-文本数据处理

内容目录 1. 为什么要用str属性 2. 替换和分割 3. 提取子串 3.1 提取第一个匹配的子串 3.2 匹配所有子串 3.3 测试是否包含子串 3.4 生成哑变量 3.5 方法摘要一.为什么要用str属性? # 导入相关库 import numpy as np import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "…

Pandas系列（一）-Series详解

一.初始Series Series 是一个带有名称和索引的一维数组,既然是数组,肯定要说到的就是数组中的元素类型,在 Series 中包含的数据类型可以是整数.浮点.字符串.Python对象等. pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False) 创建第一个Series import pandas as pd user_age = pd.Series(data=[18,…

Pandas系列（二）- DataFrame数据框

一.初识DataFrame dataFrame 是一个带有索引的二维数据结构,每列可以有自己的名字,并且可以有不同的数据类型.你可以把它想象成一个 excel 表格或者数据库中的一张表DataFrame是最常用的 Pandas 对象. 二.数据框的创建 1.字典套列表方式创建 index = pd.Index(data=["Tom", "Bob", "Mary", "James"], name="name"…

Pandas系列（三）-缺失值处理

内容目录 1. 什么是缺失值 2. 丢弃缺失值 3. 填充缺失值 4. 替换缺失值 5. 使用其他对象填充数据准备 import pandas as pd import numpy as np index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name") da…

Pandas系列（五）-分类数据处理

内容目录 1. 创建对象 2. 常用操作 3. 内存使用量的陷阱一.创建对象 1.基本概念:分类数据直白来说就是取值为有限的,或者说是固定数量的可能值.例如:性别.血型. 2.创建分类数据:这里以血型为例,假定每个用户有以下的血型,我们如何创建一个关于血型的分类对象呢? 方法一:明确指定 dtype="category" index = pd.Index(data=["Tom", "Bob", "Mary", "J…

Pandas系列（六）-时间序列详解

内容目录 1. 基础概述 2. 转换时间戳 3. 生成时间戳范围 4. DatetimeIndex 5. DateOffset对象 6. 与时间序列相关的方法 6.1 移动 6.2 频率转换 6.3 重采样在处理时间序列的的过程中,我们经常会去做以下一些任务: 生成固定频率日期和时间跨度的序列将时间序列整合或转换为特定频率基于各种非标准时间增量(例如,在一年的最后一个工作日之前的5个工作日)计算“相对”日期,或向前或向后“滚动”日期使用 Pandas 可以轻松完成以上任务. 一.基础概述…

Pandas系列（七）-计算工具介绍

内容目录 1. 统计函数 2. 窗口函数 3. 加深加强数据准备 # 导入相关库 import numpy as np import pandas as pd #Pandas 中包含了非常丰富的计算工具,如一些统计函数.窗口函数.聚合等计算工具. index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"]…

Pandas系列（八）-筛选工具介绍

内容目录 1. 字典式 get 访问 2. 属性访问 3. 切片操作 4. 通过数字筛选行和列 5. 通过名称筛选行和列 6. 布尔索引 7. isin 筛选 8. 通过Callable筛选数据准备 # 导入相关库 import numpy as np import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy&qu…

Pandas系列（九）-分组聚合详解

目录 1. 将对象分割成组 1.1 关闭排序 1.2 选择列 1.3 遍历分组 1.4 选择一个组 2. 聚合 2.1 一次应用多个聚合操作 2.2 对DataFrame列应用不同的聚合操作 3. transform 操作 4. apply 操作数据准备 # 导入相关库 import numpy as np import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", &quo…

Pandas系列（十）-转换连接详解

目录 1. 拼接 1.1 append 1.2 concat 2. 关联 2.1 merge 2.2 join 数据准备 # 导入相关库 import numpy as np import pandas as pd """ 拼接有两个DataFrame,都存储了用户的一些信息,现在要拼接起来,组成一个DataFrame,如何实现呢? """ data1 = { "name": ["Tom", "…

Pandas系列（十一）-文件IO操作

数据分析过程中经常需要进行读写操作,Pandas实现了很多 IO 操作的API,这里简单做了一个列举. 格式类型数据描述 Reader Writer text CSV read_ csv to_csv text JSON read_json to_json text HTML read_html to_html text clipboard read_clipboard to_clipboard binary Excel read_excel to_excel binary HDF5 read…

Pandas系列（十二）-可视化详解

目录 1. 折线图 2. 柱状图 3. 直方图 4. 箱线图 5. 区域图 6. 散点图 7. 饼图六边形容器图数据分析的结果不仅仅只是你来看的,更多的时候是给需求方或者老板来看的,为了更直观地看出结果, 数据可视化是必不可少的一个环节.这里带大家来看下一些常用的图形的画法. 数据准备 # 导入相关库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib # matplo…

Pandas系列（十三）-其他常用功能

一.统计数据频率 1. values_counts pd.value_counts(df.column_name) df.column_name.value_counts() Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)[source] Return a Series containing counts of unique values. 参数详解 normaliz…

Pandas系列（十四）- 实战案例

一.series import pandas as pd import string #创建Series的两种方式 #方式一 t = pd.Series([1,2,3,4,43],index=list('asdfg')) print(t) #方式二 temp_dict = {'name':'xiaohong','age':30,'tel':10086} t2 = pd.Series(temp_dict) print(t2) #字典推导式 a = {string.ascii_uppercase[i…

Pandas系列（十六）- 你需要学会的骚操作

pandas有一种功能非常强大的方法,它就是accessor,可以将它理解为一种属性接口,通过它可以获得额外的方法.其实这样说还是很笼统,下面我们通过代码和实例来理解一下. pd.Series._accessors Out[93]: {'cat', 'dt', 'str'} 对于Series数据结构使用_accessors方法,我们得到了3个对象:cat,str,dt. .cat:用于分类数据(Categorical data) .str:用于字符数据(String Object data) .…

Pandas系列-读取csv/txt/excel/mysql数据

本代码演示: pandas读取纯文本文件读取csv文件读取txt文件 pandas读取xlsx格式excel文件 pandas读取mysql数据表 import pandas as pd 1.读取纯文本文件 1.1 读取CSV,使用默认的标题行.逗号分隔符 fpath = "./datas/ml-latest-small/ratings.csv" # 使用pd.read_csv读取数据 ratings = pd.read_csv(fpath) # 查看前几行数据 ratings.h…

Pandas系列（十八）- 多级索引

多级索引多级索引(也称层次化索引)是pandas的重要功能,可以在Series.DataFrame对象上拥有2个以及2个以上的索引.实质上,单级索引对应Index对象,多级索引对应MultiIndex对象. 一.Series对象的多级索引多级索引Series对象的创建 import pandas as pd import numpy as np se1=pd.Series(np.random.randn(4),index=[list("aabb"),[1,2,1,2]]) se1…

【转】Pandas的Apply函数——Pandas中最好用的函数

转自:https://blog.csdn.net/qq_19528953/article/details/79348929 import pandas as pd import datetime #用来计算日期差的包 def dataInterval(data1,data2): d1 = datetime.datetime.strptime(data1, '%Y-%m-%d') d2 = datetime.datetime.strptime(data2, '%Y-%m-%d') delta =…

基于 Python 和 Pandas 的数据分析(2) --- Pandas 基础

在这个用 Python 和 Pandas 实现数据分析的教程中, 我们将明确一些 Pandas 基础知识. 加载到 Pandas Dataframe 的数据形式可以很多, 但是通常需要能形成行和列的数据集. 所以可以是如下的 dictionary 的形式: web_stats = {'Day':[1,2,3,4,5,6], 'Visitors':[43,34,65,56,29,76], 'Bounce Rate':[65,67,78,65,45,52]} 我们可以通过如下方式把这个 dictio…

python3安装pandas执行pip3 install pandas命令后卡住不动的问题及安装scipy、sklearn库的numpy.distutils.system_info.NotFoundError: no lapack/blas resources found问题

一直尝试在python3中安装pandas等一系列软件,但每次执行pip3 install pandas后就卡住不动了,一直停在那,开始以为是pip命令的版本不对,还执行过 python -m pip3 install -U pip3 升级命令,发现还是不行.有了上一篇python2中安装的经验可知肯定是numpy的版本不对,查看 /usr/lib/python3/dist-packages 目录下查看发现确实是1.8的版本,而从python2中的经验可知应该至少得1.9.0以上的版本. 1.…

[Pandas技巧] 如何把pandas dataframe对象或series对象转换成list

import pandas as pd >>> df = pd.DataFrame({'a':[1,3,5,7,4,5,6,4,7,8,9], 'b':[3,5,6,2,4,6,7,8,7,8,9]}) >>> df['a'].values.tolist() [1, 3, 5, 7, 4, 5, 6, 4, 7, 8, 9] or you can just use >>> df['a'].tolist() [1, 3, 5, 7, 4, 5, 6, 4…

【Pandas系列（十七）-EDA（pandas-profiling）】的更多相关文章