pyhton pandas数据分析基础入门（一文看懂pandas）

//2019.07.17

pyhton中pandas数据分析基础入门（一文看懂pandas），

教你迅速入门pandas数据分析模块（后面附有入门完整代码，可以直接拷贝运行，含有详细的代码注释，可以轻松帮助你入门理解）

1.1 pandas模块简介

首先，使用pandas相应的操作之前都需要导入pandas模块

import pandas as pd
import numpy as np  #导入pandas和numpy模块

1、pandas中具有两种常见的数据结构：
(1)Series
它是指一维列表或者数组(列向量)，和numpy中的array比较类似，可以储存很多不同类型的数据类型；
(2)DataFrame
二维型的数据结构，和Excel表格比较类似，它可以理解为是Series的容器。

1.2 pandas里面的series类型应用：
1、对于series的定义：
s=pd.Series([1,2,3,np.nan,2,3,1,...],index=["a","b","c","d","e"...])
其中对于index是对于每一行数字属性的规定
2、对于series的索引index，其实质是指列表的行标签，可以serie.index来进行查询和输出；

1.3 DataFrame二维列表的相关操作大全
(一)构造DataFrame二维列表的方式
1、对于DataFrame的二维列表数据的出入主要有两种方式：传入二维数组和使用字典的定义方法；
方式一：df=pd.DataFrame(np.random.randn(6,4)) #二维数组的传入方法
方式二：df=pd.DataFrame({"A":[1,2,3,4,5],"B":["1,1,2,1,1"],"C":list("abcde"),"D":["yanjiangyi"]*5}) #字典的传入方式
2、对于二维列表各行各列的属性名称定义主要采用的是index(各行名称)和columns(各列名称)：
df=pd.DataFrame(np.random.randn(6,4)，index=pd.date_range("20180701",periods=6,freq="M"),columns=[list("abcd")])
3、关于DateFrame的字典数据传入方式，其中字典的key指的是列表的列名称，即columns的取值，另外对于每一列的取值主要有以下六种方式，都可以传入数组：
df=pd.DataFrame({"A":1.0,"B":np.array([3]*4,dtype=int),"C":pd.Timestamp("20190701"),"D":pd.Series([1.21,2.21,3.24,4.26],dtype=float),"E":pd.Categorical(["a","b","c","d"]),"F":"abc"})
(二)DataFrame二维数组的数据的查询
1、头尾数据查询：采用函数.head(x)和.tail(x)可以查询前后x行的数据；
2、查看表格数据的每一列数据类型可以采用df.dtypes来进行查看数据类型；

1.4pandas读取数据及其数据操作
1、pandas读取表格数据的方式是采用自带的函数pd.read_excle(表格的路径)和pd.read_csv(表格的路径)
例如：
df=pd.read_excel("D:/Byrbt2018/Study/Python数据分析课程+练习+讲解/Python数据分析课程+练习+讲解/作业/作业3/作业3/香港酒店数据.xlsx") #表格的读取操作主要依靠的是pd.read_excel/csv函数+文件路径
2、提取表格中的某几行某几列数据的方式：
(1)采用属性名称的方式：
df.loc[行属性A:行属性B,列属性:列属性]
(2)采用表格下标的方式：
df.iloc[行序号:行序号,列序号:列序号]
(3)直接采用数组的方式：
df[[列属性1，列属性2，列属性3...]][行号:行号]
(4)采用标准格式：
df.loc[[index,,...],[columns,,...]] #先行后列
3、表格行的增加和删减
(1)增加一行：
先用字典定义好这一行的新的数据(字典的key是表格的各列属性)，然后将其转换为series一维列表，之后采用表格的增添函数df.append(s)来进行添加这一行的数据，另外还可以用s.name来定义新添加行的行属性名称
s={0:"天水宾馆",1:"休闲娱乐",2:"天水",3:"甘谷县",4:"中关村街道",5:4.5,6:11000,7:345} #先定义一行数据,利用字典的操作来进行定义新的一行
s1=pd.Series(s) #转换字典为一维列表
s1.name=420 #定义列表的行属性
(2)删减其中一行：
直接调用pandas模块的删减函数df.drop([行号])函数来进行删减相应需要删减的某一行数据。
4、列的相关操作
(1)列的增加：
列的增加通过直接增加定义就可以：
df["序号"]=range(1,len(df)+1) #增加了序号这一个新的列
(2)列的删减：
列的删减可以通过df.drop["列属性名称"，axis=1]来进行操作，其中axis=1必须要设置，他表示删除的是列而不是行，如果不写axis或者设置axis=0,表示的是要进行删减的行：
df.drop["列属性名称"，axis=1]
5、有关数据条件选择的操作：
关于数据条件性选择主要可以采用df[(选择条件)]来继续操作，举例如下：
print(df[df.评分>4.5]) #选择评分高于4.5的数据列表
print(df[(df.评分>4.5 )& (df.类型=="浪漫情侣")]) #选择评分高于4.5并且类型属于浪漫情侣的数据列表
print(df[((df.类型=="香港")|(df.日常人数>1000))&(df.评分>4.5)])
#选择类型时香港或者日常人数超过1000人的，并且评分高于4.5的数据列表
6、对于数据缺失值和异常值的处理操作：
(1)缺失值的处理主要包含以下四个操作:
isnull(返回一个布尔型的数据类型，判断是否为缺失值)
notnull(和isnull正好相反，判断不是缺失值)
fillna(对于缺失值进行填充)
dropna(对于缺失值进行相应的删减过滤)
(2)缺失值的处理规则：
#数据缺失值及其异常值的处理
对于缺失值的删减dropna()主要有三个参数：how=all(删掉所有行和列),inplace=Ture(实时对于删减的表格进行更新),axis=0或者1(删减处理的是行或列)
print(df.isnull())
print(df[df["评分"].isnull()]) #缺失值的判断和输出
#对于缺失值的填充
print(df[df["评价人数"].isnull()]) #首先判断是否有残缺值
df["评价人数"].fillna(np.mean(df["评价人数"]),inplace=True) #缺失值的填充和实时更新inplace=1
print(df)
print(len(df[df["评价人数"].isnull()]))
print(len(df))
print(len(df.dropna()))
df.dropna(inplace=True)
print(len(df))

#异常值的处理
异常值一般主要是判断表格里面的数据是否和列属性的性质不符(比如对于人数属性的列数据存在一小数点负数的情况)，然后结合判断的情况进行数据的处理和更新
print(len(df[df["日常人数"]%1!=0])) #对于异常值的判断和处理
df=df[(df["日常人数"]%1==0)&(df["日常人数"]>0)] #根据异常值的条件进行实时更新
print(df)

整体的入门运行代码如下所示（可以直接拷贝运行，含有详细的代码注释，可以轻松帮助你入门理解）：

import pandas as pd
import numpy as np  #导入pandas和numpy模块

# Series一维列表操作
s=pd.Series([1,2,3,4,np.nan,2,3,4,6,7])
print(s)
print(s.index) #输出series的行标签（属性）
print(s.values) #输出series的取值
print(s[2:9:2]) #隔行输出相应的值（切片操作）
s.index.name="属性"  #定义列表series的属性名称
print(s)
s.index=list("abcdefghij")  #重新定义表格每一行的属性名字
print(s)
print(s["a":"h":2])           #提取其中一部分，进行相关的的切片操作

# Dataframe二维列表操作大全
date=pd.date_range("20180101",periods=6,freq="D")  #生成时间序列
print(date)
df=pd.DataFrame(np.random.randn(6,4),index=date,columns=list("abcd")) #定义随机数的二维列表6x4,然后定义各行各列的名称（index和columns）
df.index.name="date"
print(df)
df1=pd.DataFrame({"A":1.0,"B":np.array([3]*4,dtype=int),"C":pd.Timestamp("20190701"),"D":pd.Series([1.21,2.21,3.24,4.26],dtype=float),"E":pd.Categorical(["a","b","c","d"]),"F":"abc"})
print(df1)
print(df1.values)    #查看数据的值
print(df1.index)     #查看数据的行属性名称
print(df1.head(3))   #c查看数据的前三行
print(df1.tail(3))   #查看数据的后三行
print(df1.dtypes)   #查看表格数据的每一类数据类型

#数据表格的读取与各种操作
df=pd.read_excel("D:/Byrbt2018/Study/Python数据分析课程+练习+讲解/Python数据分析课程+练习+讲解/作业/作业3/作业3/香港酒店数据.xlsx") #表格的读取操作主要依靠的是pd.read_excel/csv函数+文件路径
print(df)

#表格的行操作
print(df.iloc[0])  #采用下标的形式来进行数据的查询df.iloc[:,;]
print(df.iloc[:5]) #采用下标的形式来进行数据的查询df.iloc[:,;]
print(df.loc[0:5,0:3]) #采用行和列属性的形式来进行数据的查询df.iloc[:,;]
#增加一行操作
s={0:"天水宾馆",1:"休闲娱乐",2:"天水",3:"甘谷县",4:"中关村街道",5:4.5,6:11000,7:345}  #先定义一行数据,利用字典的操作来进行定义新的一行
s1=pd.Series(s)      #转换字典为一维列表
s1.name=420          #定义列表的行属性
print(s1)
df=df.append(s1)       #增加一行数据操作（需要重新定义列表）
print(df)
print(df[-5:])
df=df.drop([420])      #删除某一行数据操作（需要重新定义列表）
print(df)
df.columns=["名称","类型","城市","地区","街道","评分","评价人数","日常人数"]  #改变表格的各列名称
print(df)
print(type(df.index))
print(df.columns)
print(df["名称"])
#提取某几行某几列数据的三种方法（df.loc[;,;,iloc[;,;],df[[,,][:]）
print(df[["名称","类型"]][:5]) #提取某几列某几行
print(df.iloc[0:5,0:3])        #提取某行某列（行在前，列在后）
print(df.loc[1:40,"类型":"评分"])
print(df[["名称","评分","城市"]][0:400:20]) #列在前，行在后

#列的相关操作
df["序号"]=range(1,len(df)+1) #增加列的操作
print(df[:5])
df=df.drop("序号",axis=1)  #删减列时采用.drop函数，此时drop(x,axis=1)x表示列的名称，axis=1表示删除的是列，不写axis表示它为0，删除的默认是行
print(df)
print(df.loc[[1,2,3,5,10],["类型","评分"]])  #标准形式提取表格中的数据

#条件选择的数据操作
print(df[df.评分>4.5])
print(df[(df.评分>4.5 )& (df.类型=="浪漫情侣")])
print(df[((df.类型=="香港")|(df.日常人数>1000))&(df.评分>4.5)])

#数据缺失值及其异常值的处理
print(df.isnull())
print(df[df["评分"].isnull()]) #缺失值的判断和输出
#对于缺失值的填充
print(df[df["评价人数"].isnull()])  #首先判断是否有残缺值
df["评价人数"].fillna(np.mean(df["评价人数"]),inplace=True)  #缺失值的填充和实时更新inplace=1
print(df)
print(len(df[df["评价人数"].isnull()]))
print(len(df))
print(len(df.dropna()))
df.dropna(inplace=True)
print(len(df))
print(len(df[df["日常人数"]%1!=0])) #对于异常值的判断和处理
df=df[(df["日常人数"]%1==0)&(df["日常人数"]>0)]  #根据异常值的条件进行实时更新
print(df)

pyhton pandas数据分析基础入门（一文看懂pandas）的更多相关文章

python pandas数据分析基础入门2——（数据格式转换、排序、统计、数据透视表）
//2019.07.18pyhton中pandas数据分析学习——第二部分2.1 数据格式转换1.查看与转换表格某一列的数据格式:(1)查看数据类型:某一列的数据格式:df["列属性名称&q ...
python中pandas数据分析基础3（数据索引、数据分组与分组运算、数据离散化、数据合并）
//2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...
基础篇|一文搞懂RNN（循环神经网络）
基础篇|一文搞懂RNN(循环神经网络) https://mp.weixin.qq.com/s/va1gmavl2ZESgnM7biORQg 神经网络基础神经网络可以当做是能够拟合任意函数的黑盒子,只 ...
[转帖] 一文看懂："边缘计算"究竟是什么？为何潜力无限？
一文看懂:"边缘计算"究竟是什么?为何潜力无限? 转载cnbeta 云计算雾计算边缘计算... 知名创投调研机构CB Insights撰文详述了边缘计算的发展和应用前景 ...
Nature 为引，一文看懂个体化肿瘤疫苗前世今生
进入2017年,当红辣子鸡PD-1疗法,一路横扫多个适应症.而CAR-T治疗的“小车”在获得FDA专委会推荐后也已经走上高速路,成为免疫治疗又一里程碑事件.PD-1.CAR-T之后,下一个免疫治疗产品 ...
一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...
一文看懂java io系统 (转)
出处: 一文看懂java io系统学习java IO系统,重点是学会IO模型,了解了各种IO模型之后就可以更好的理解java IO Java IO 是一套Java用来读写数据(输入和输出)的A ...
一文看懂YOLO v3
论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf论文:YOLOv3: An Incremental Improvement YOLO系列的 ...
一文看懂web服务器、应用服务器、web容器、反向代理服务器区别与联系
我们知道,不同肤色的人外貌差别很大,而双胞胎的辨识很难.有意思的是Web服务器/Web容器/Web应用程序服务器/反向代理有点像四胞胎,在网络上经常一起出现.本文将带读者对这四个相似概念如何区分. 1 ...

随机推荐

三 Spring和DI(面试)
IOC:控制反转,将对象的创建权反转给了Spring DI:依赖注入,前提要有IOC的环境.Spring管理这个类的时候会将类的依赖的属性,在xml注入(设置)进来. 面向对象的时候,类和类之间的 ...
含有namespace的类型如何访问
下图中包含的String类型,如果想要在别的文件中去访问的话: 1)需要include"ApiClient.hpp" 2)需要使用oatpp::web::client::ApiCl ...
Android音频录制MediaRecorder之简易的录音软件实现代码（转）
原文:http://www.jb51.net/article/46182.htm Android音频录制MediaRecorder之简易的录音软件实现代码这篇文章主要介绍了Android音频录制Me ...
【剑指Offer面试编程题】题目1372：最大子向量和--九度OJ
题目描述: HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学.今天JOBDU测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决.但 ...
【剑指Offer面试编程题】题目1510：替换空格--九度OJ
题目描述: 请实现一个函数,将一个字符串中的空格替换成"%20".例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 输入: 每个 ...
5G将重新定义物联网和边缘计算
导读比上一代蜂窝服务(4G)相比,5G提供的无线蜂窝连接性具有更高的带宽.更低的延迟和更高的设备密度. 比上一代蜂窝服务(4G)相比,5G提供的无线蜂窝连接性具有更高的带宽.更低的延迟和更高的设备密 ...
MariaDB——数据库集群
Mariadb数据库集群 mariadb主从主从多用于网站架构,因为主从的同步机制是异步的,数据的同步有一定的延迟性,也就是说可能会导致数据丢失,但是性能比较好,因此网站大多数用的是主从架构的数据 ...
redis中关闭rdb跟aof
https://zm10.sm-tc.cn/?src=l4uLj8XQ0IiIiNGdip2KlJDRnJCS0JaRmZCbmouelpPSzc%2FJz8vJxtGXi5KT&uid=49 ...
Python2 和 Python3 编码问题
基本存储单元位(bit, b):二进制数中的一个数位,可以是0或者1,是计算机中数据的最小单位. 字节(Byte,B):计算机中数据的基本单位,每8位组成一个字节. 1B = 8b 各种信息在计算机 ...
Python Download Image (python + requests + BeautifulSoup)
环境准备 1 python + requests + BeautifulSoup 页面准备主页面: http://www.netbian.com/dongman/ 图片伪地址: http://www ...

pyhton pandas数据分析基础入门（一文看懂pandas）

pyhton pandas数据分析基础入门（一文看懂pandas）的更多相关文章

随机推荐

热门专题