python pandas数据分析基础入门2——（数据格式转换、排序、统计、数据透视表）

//2019.07.18
pyhton中pandas数据分析学习——第二部分
2.1 数据格式转换
1、查看与转换表格某一列的数据格式：
(1)查看数据类型：某一列的数据格式：df["列属性名称"].dtype
(2)数据类型转换：某一列的数据类型转换需要用到数据转换函数：
df[列属性名称]=df[列属性名称].astype("新的数据类型")
代码举例如下：
import numpy as np
import pandas as pd
df=pd.read_excel("D:/Byrbt2018/Study/Python数据分析课程+练习+讲解/Python数据分析课程+练习+讲解/作业/作业4/作业4/酒店数据1.xlsx")
print(df)
print(df["评分"].dtype) #查看类型这一列的数据类型
print(df["评分"])
df["评分"]=df["评分"].astype("int") #进行数据表格的数据类型转换需要用到数据类型转换函数df["列名称"].astype("类型名称”)
print(df["评分"])
print(df["评分"].dtype)

2.2 数据的排序
1、单个表格列数据的排序需要用到函数：
df.sort_values(by=列名称，ascending=True(升)/False（降）)
print(df.sort_values(by="评分",ascending=False)["评分"])
2、多排序问题：
对于多列排序问题，主要是遇到其中一个列数据相同的时候需要看另外一个列数据进行排序，使用的函数及其使用规则如下：
df.sort_values(by=[列1,列2...]，ascending=[True,False...])
其中函数参数by=[,,]前后顺序代表了多列排序优先级顺序，ascending=[,,]中False和True代表了相应每列的排序原则（升降））

2.3 基本统计数据分析
1、对于数值型的数据通常都需要进行相应的常见统计数据分析，最常见的描述性统计函数是.describe()，它可以给出数据的多项统计指标；
2、对于表格各个列的数据统计指标主要有以下几个函数：
(1)最值：最大值和最小值df[].max()和df[].min()
(2)中位数:df[].median()
(3)平均值:df[].mean()
(4)方差：df[].var()
(5)标准差：df[].std()
(6)求和函数：df[].sum()
(7)相关系数与协方差：
相关系数：df[[1,2...]].corr()
协方差：df[[1,2...]].cov()
(8)计数：
1）对于每一类数据中出现的唯一值统计可以用函数df[列属性].unique()来进行查询，个数的话直接在前面加len就可以了
2）表格中数据的替换：使用函数df[列名称1].replace(A,B,inplace=True)#代表的是将表格中列1的数据中的所有数据A替换为数据B
3）统计出现唯一值的出现次数使用函数df[列].valuecounts()它默认是以降序的排列对每个不同出现的数据进行相关的次数统计输出

2.4数据透视操作和函数
1、数据透视是一个使用广泛并且功能强大的数据信息挖掘功能，它的函数是pd.pivot_table()
2、数据透视函数的参数与使用规则
函数的形式如下：
pd.pivot_table(df,index=[列1，列2...]，values=[其余列1,其余列2...],aggfunc=np.sum...,,fill_value=0(处理非数值性质数据)，margins=True(总和统计数据),columns=[列1，列2...](只要是指列方向的分层，类似于index的行分层，非必要参数))
具体举例代码如下：
pd.set_option("max_columns",1000)
pd.set_option("max_rows",1000)
#设置pyhton输出数据的行和列的最大行数目（大于设定值之后才会出现省略号）
print(df)
print(pd.pivot_table(df,index="地区")) #输出以地区为属性的各列数据均值
print(pd.pivot_table(df,index=["地区","类型"])) #输出以地区为第一层，类型为第二层的其他各列数据均值
print(pd.pivot_table(df,index=["地区","类型"],values=["价格"]))
print(pd.pivot_table(df,index=["地区","类型"],values=["价格"],aggfunc=[np.sum,np.mean]))
print(pd.pivot_table(df,index=["地区"],values=["评分","价格"],columns=["类型"],aggfunc={"评分":np.mean,"价格":np.sum},fill_value=0))
table=pd.pivot_table(df,index=["地区","类型"],values=["价格"])
#print(table.sort_values(by="评分",ascending=False)) #对于评分进行降序排列
print(table.index)

整体的入门运行代码如下所示（可以直接拷贝运行，含有详细的代码注释，可以轻松帮助你入门理解）：

import numpy as np
import pandas as pd
df=pd.read_excel("D:/Byrbt2018/Study/Python数据分析课程+练习+讲解/Python数据分析课程+练习+讲解/作业/作业4/作业4/酒店数据1.xlsx")
print(df)
print(df.index)
print(df.columns)
print(df[:5])   #输出前5行数据
print(df["评分"].dtype)  #查看类型这一列的数据类型
print(df["评分"])
df["评分"]=df["评分"].astype("int")  #进行数据表格的数据类型转换需要用到数据类型转换函数df["列名称"].astype("类型名称”)
print(df["评分"])
print(df["评分"].dtype)
print(df["地区"].dtype)
df["地区"]=df["地区"].astype("str")  #将地区列的数据转换为字符串类型的数据
print(df["地区"].dtype)
print(df["地区"])

#表格数据的排序
print(df.sort_values(by="评分",ascending=False)["评分"]) #数据的排序用函数df.sort_values(by=列名称，ascending=True(升)/False（降）)
print(df.sort_values(by=["评分","价格"],ascending=False))
print(df.sort_values(by=["评分","价格"],ascending=[False,True])[["评分","价格"]])  #多列排序问题（根据参数by=[,,]前后顺序代表了多列排序优先级顺序，ascending=[,,]代表了相应每列的排序原则（升降））

#数据的统计分析与描述
print(df.describe())  #给出一个数据表格里面所有列数据是数值型数据的统计指标（包括数据平均值、数目，中值，最小值，最大值）
print(df["价格"].mean())#输出价格列数据的平均值
print(df["价格"].var()) #输出价格列数据的方差
print(df["价格"].max()) #输出价格列数据的最大值
print(df["价格"].min()) #输出价格列数据的最小值
print(df["价格"].std()) #输出价格的标准差
print(df["价格"].median())  #输出价格的中位数
print(df[["价格","评分"]].corr())  #输出价格和评分的相关系数
print(df[["价格","评分"]].cov())  #输出价格和评分的协方差
print(len(df))       #计数统计
print(df["评分"].unique())  #查询一列数据中的所有唯一值
print(len(df["评分"].unique())) #查询出现唯一不同值的个数
df["评分"].replace(4,4.1,inplace=True)  #表格评分数据中的替换（将4替换为4.1）
print(df["评分"])
print(df["地区"].unique())    #输出所有的唯一值
print(len(df["地区"].unique()))  #输出一列数据中不同数据的个数
print(df["地区"].value_counts())  #对于每个唯一值出现的个数
print(df["地区"].value_counts()[:5]) #输出数据个数前五的地区及其出现的个数

#数据透视函数的使用和功能pd.pivot_table(df,index=[列1，列2...]，values=[其余列1,其余列2...],aggfunc=np.sum...,,fill_value=0(处理非数值性质数据)，margins=True(总和统计数据),columns=[列1，列2...](只要是指列方向的分层，类似于index的行分层，非必要参数))
pd.set_option("max_columns",1000) #设置pyhton输出数据的行和列的最大行数目（大于设定值之后才会出现省略号）
pd.set_option("max_rows",1000)
print(df)
print(pd.pivot_table(df,index="地区")) #输出以地区为属性的各列数据均值
print(pd.pivot_table(df,index=["地区","类型"])) #输出以地区为第一层，类型为第二层的其他各列数据均值
print(pd.pivot_table(df,index=["地区","类型"],values=["价格"]))
print(pd.pivot_table(df,index=["地区","类型"],values=["价格"],aggfunc=[np.sum,np.mean]))
print(pd.pivot_table(df,index=["地区"],values=["评分","价格"],columns=["类型"],aggfunc={"评分":np.mean,"价格":np.sum},fill_value=0))
table=pd.pivot_table(df,index=["地区","类型"],values=["价格"])
#print(table.sort_values(by="评分",ascending=False)) #对于评分进行降序排列
print(table.index)

运行结果如下：

python pandas数据分析基础入门2——（数据格式转换、排序、统计、数据透视表）的更多相关文章

pyhton pandas数据分析基础入门（一文看懂pandas）
//2019.07.17 pyhton中pandas数据分析基础入门(一文看懂pandas), 教你迅速入门pandas数据分析模块(后面附有入门完整代码,可以直接拷贝运行,含有详细的代码注释,可以轻 ...
【转载】使用Pandas创建数据透视表
使用Pandas创建数据透视表本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas创建数据透视表目录 pandas.pivot_table() 创建简单的数据透视表增加一个行维度(inde ...
python中pandas数据分析基础3（数据索引、数据分组与分组运算、数据离散化、数据合并）
//2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...
小白学 Python 数据分析（12）：Pandas （十一）数据透视表（pivot_table）
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
【转】在Python的struct模块中进行数据格式转换的方法
这篇文章主要介绍了在Python的struct模块中进行数据格式转换的方法,文中还给出了C语言和Python语言的数据类型比较,需要的朋友可以参考下 Python是一门非常简洁的语言,对于数据类型的表 ...
MyBatis基础入门《十三》批量新增数据
MyBatis基础入门<十三>批量新增数据批量新增数据方式1:(数据小于一万) xml文件接口: 测试方法: 测试结果: =============================== ...
MyBatis基础入门《十二》删除数据 - @Param参数
MyBatis基础入门<十二>删除数据 - @Param参数描述: 删除数据,这里使用了@Param这个注解,其实在代码中,不使用这个注解也可以的.只是为了学习这个@Param注解,为此 ...
MyBatis基础入门《十一》修改数据
MyBatis基础入门<十一>修改数据实体类: 接口类: xml文件: 测试类: 测试结果: 数据库: 如有问题,欢迎纠正!!! 如有转载,请标明源处:https://www.cnbl ...
python pandas使用数据透视表
1) 官网啰嗦这一堆, pandas.pivot_table函数中包含四个主要的变量,以及一些可选择使用的参数.四个主要的变量分别是数据源data,行索引index,列columns,和数值value ...

随机推荐

Servlet 学习（八）
Filter 1.功能 Java Servlet 2.3 中新增加的功能,主要作用是对Servlet 容器的请求和响应进行检查和修改 Filter 本身并不生成请求和响应对象,它只提供过滤作用在Se ...
Openstack----学习笔记
ceph 分布式存储,用于存放新创建的云主机磁盘镜像文件和磁盘创建云主机流程记录简易版本: 上图中所有发送的请求都会存放在rabbit_mq(消息队列)中,各个组件会定时取消息队列中与自己相关的请 ...
[转]Java——Servlet的配置和测试
本文转自:http://blog.csdn.net/makefish/article/details/6904807 本文以一个实例介绍如何用Java开发Servlet. 主要内容有: 配置和验证To ...
in comment after two dashes (--) next character must be > not - (position: START_TAG seen ...
Error executing Maven. in comment after two dashes (--) next character must be > not - (position: ...
CSP2019 括号树
Description: 给定括号树,每个节点都是 ( 或 ) ,定义节点的权值为根到该节点的简单路径所构成的括号序列中不同合法子串的个数(子串需要连续,子串所在的位置不同即为不同.)与节点编号的乘积 ...
RIFF
RIFF全称为资源互换文件格式(Resources Interchange File Format),是Windows下大部分多媒体文件遵循的一种文件结构. RIFF文件所包含的数据类型由该文件的扩展 ...
「Violet」蒲公英
「Violet」蒲公英传送门区间众数,强制在线. 分块经典题. 像这题一样预处理,然后就直接爆搞,复杂度 \(O(n \sqrt n)\) 参考代码: #include <algorithm ...
Guava LoadingCache不能缓存null值
测试的时候发现项目中的LoadingCache没有刷新,但是明明调用了refresh方法了.后来发现LoadingCache是不支持缓存null值的,如果load回调方法返回null,则在get的时候 ...
Ubuntu18.04--双显卡Nvida笔记本安装之各种问题
(1)安装出现卡logo或者黑屏关机重启,按住esc键或shift键不放,进入选择模式,按F6进入选择,nomodeset模式 (2)循环的登陆,或者安装好后重启无法再次进入系统关机重启,在 ...
oracle练习-day02
.查询员工表和部门表.查询出雇员的编号,姓名,部门的编号和名称,地址.查询出每个员工的上级领导.在上一个例子的基础上查询该员工的部门名称.在上一个例子的基础上查询员工工资等级和他的上级领导工资等级.查 ...

python pandas数据分析基础入门2——（数据格式转换、排序、统计、数据透视表）

python pandas数据分析基础入门2——（数据格式转换、排序、统计、数据透视表）的更多相关文章

随机推荐

热门专题