pyhton中pandas数据分析模块快速入门（非常容易懂）

//2019.07.16
python中pandas模块应用
1、pandas是python进行数据分析的数据分析库，它提供了对于大量数据进行分析的函数库和各种方法，它的官网是http://pandas.pydata.org/；

2、对于pandas数据分析模块的应用主要包括：数据结构的定义，对于数据表格的基础操作大全、数据文件的读入与导出，数据的切片与拼接、表中数据的提取与选择、数据统计方面的应用、缺失数据处理、数据表格的拼接、数据的拷贝与设置等

3、pandas各个模块应用详细代码其标注如下所示：

import pandas as pd #输出数据分析pandas模块
import numpy as np
import scipy.linalg as lg 
s=pd.Series([i*2 for i in range(1,11)])
print(type(s))
dates=pd.date_range("20170301",periods=8)
df=pd.DataFrame(np.random.randn(8,5),index=dates,columns=list("ABCDE")) #输出表格格式定义，行属性和列属性1-1
print(df)
df2=pd.DataFrame({"A":1,"B":pd.Timestamp("20170301"),"C":pd.Series(1,list(range(4)),dtype="float32"),"D":np.array([3]*4,dtype="float32"),"E":pd.Categorical(["police","student","teacher","doctor"])})
#定义表格个行属性及其数据结构，1-2
print(df2)
#对于表格的基础操作
print(df.head(3)) #前三行
print(df.tail(3)) #后三行
print(df.index) #打印每一行属性
print(df.values) #以矩阵的形式打印出数据结构里面的数据行列（除去表格第一行和第一列的属性规定）
print(df.sort_index(axis=1,ascending=False)) #将表格行属性进行倒序排列
print(df.describe()) #输出数据的简单描述和分析（包括数量、最小值，最大值，平均数等）
#Select数据的切片
print(df["B"]) #输出某一列
print(df[:3]) #输出前几行
print(df["20170301":"20170304"]) #从某一行到某一行
print(df.loc[dates[0]])
print(df.loc["20170301":"20170304","B":"D"])
a=df.loc["20170301":"20170304","B":"D"]
print(a)
print(df.at[dates[0],"C"])
print(df)
#采用下标提取表格中的相应的数据
print(df.iloc[1:3,2:4])
print(df.iloc[1,4])
print(df.iat[1,4])

#条件判断语句输出
print(df[df.B>0][df.A<0])  #
print(df[df>0])
print(df[df["E"].isin([1,2])])

#set设置改变表格中的一些数据
s1=pd.Series([1,2,3,4,5,6,7,8],index=pd.date_range("20170301",periods=8)) #定义一组新的数据
df["F"]=s1  #在原来的表格里面增加一列数据
print(df)
df.at[dates[0],"A"]=100  #利用属性来设置表格里面的数据
print(df)
df.iat[0,0]=10000  #利用下标设置表格里面的数字
print(df)
df.loc[:,"D"]=np.array(range(10,18)) #设置表格里面D的新数据为该数组里的字符串
print(df)
#表格数据的拷贝和改变
df2=df.copy()
df2[df2>0]=-df2  #据条件语句重新设置表格里面的新的数据，使得其其为负数集合
print(df2)

#Missing Values缺失值处理
df1=df.reindex(index=dates[:4],columns=list("ABCD")+["G"])
df1.loc[dates[0]:dates[1],"G"]=1
print(df1)
print(df1.dropna())     #第三行和第四行除去（除去缺失数据的行）
print(df1.fillna(value=2))  #对表格中所缺失的数据进行整体赋值

# Statistic统计方面的应用
print(df)
print(df.mean())
print(df.var())
s=pd.Series([1,2,3,np.nan,5,7,2,5],index=dates)
print(s)
print(s.shift(2))   #表格每列里面的数据向下平移2行，并且后面的数据不会补到前面，前面的数据直接变为空值
print(s.diff())    #求取两行数据之间的差值
print(s.value_counts())  #统计出一组数据中各个数据的个数
print(df)
print(df.apply(np.cumsum))#每行数据之间的累加值表格
print(df.apply(lambda x:x.max()-x.min()))   #输出每一行数据中的最大减最小数值
for i in range(0,6):
    s=df.iloc[0:8,i]
    print(s.value_counts())  #输出各个列数据中每个元素的个数

#表格拼接
pieces=[df[:3],df[-3:]]  #先按照自己的要求位置放在一起
print(pd.concat(pieces)) #表格拼接工作
left=pd.DataFrame({"key":["x","y"],"value":[1,2],"name":["yanjiangyi","yanjiangdi"]})
right=pd.DataFrame({"key":["x","z"],"value":[3,4],"name":["yanjiangyi","yanjiangdi"]})
print(left)
print(right)
#对于不同的表格提取某一属性（key属性）里面相同的元素所在行的数据融合（how代表融合方式，on代表以哪个属性为主）
print(pd.merge(left,right,on="key",how="left"))
print(pd.merge(left,right,on="key",how="inner"))
print(pd.merge(left,right,on="key",how="outer"))
print(pd.merge(right,left,on="key",how="outer"))
df3=pd.DataFrame({"A":list("abcb"),"B":[0,1,2,1]})
print(df3)
print(df3.groupby("A").sum())  #合并以A属性为主包含的各个元素的总个数

#reshape数据交叉分解：透视表功能
import datetime
df4=pd.DataFrame({"A":["one","one","two","three"]*6,
                  "B":["a","b","c"]*8,
                  "C":["foo","foo","foo","bar","bar","bar"]*4,
                  "D":np.random.randn(24),
                  "E":np.random.randn(24),
                  "F":[datetime.datetime(2017,i,1) for i in range(1,13)]+[datetime.datetime(2017,i,15) for i in range(1,13)]
                  })
print(df4)

#python里面的透视表功能函数pd.pivot_table(index,values,columns,aggfunc,fill_value,margins=True),fill_value填充空值,margins=True进行汇总,具体举例如下：
print(pd.pivot_table(df4,values="D",index=["A","B"],aggfunc=np.sum,columns="C"))
print(pd.pivot_table(df4,values="D",index=["A","B"],aggfunc=np.mean,columns="C",fill_value=0,margins=True))
table=pd.pivot_table(df4,values="D",index=["A","B"],aggfunc=np.mean,columns="C")

#pandas时间序列讲解(其中freq决定了时间序列变化的频率大小（S-秒，MIN-分钟，H-小时，D-日，M-月，Y-年），如果不写默认为日-D)
t_exam=pd.date_range("20170301",periods=10,freq="MIN")
print(t_exam)
#图表
ts=pd.Series(np.random.randn(1000),index=pd.date_range("20170301",periods=1000))
print(ts)
from pylab import *
import matplotlib.pyplot as plt
ts.plot()
plt.show()

#file 数据文件的输入输出操作（主要包括Excel表格和csv表格文件）
import pandas as pd #输出数据分析pandas模块
import numpy as np
from pylab import *
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"]=["SimHei"]#输出图像的标题可以为中文正常输出
plt.rcParams["axes.unicode_minus"]=False #可以正常输出图线里的负号
df6=pd.read_csv("C:/Users/yan-j/Desktop/e_env2.csv") #数据文件的读操作，写入操作
print(df6)
print(type(df6))
X=df6.iloc[:,0]
Y=df6.iloc[:,1]
print(X)
print(Y)
plt.plot(X,Y,"r",linewidth=0.5,label="原图像")
plt.plot(range(0,330),Y,"g",label="元数据")
plt.xlabel("X")
plt.ylabel("Y")
plt.title("二维图像原来离散点输出")
plt.legend()
print(len(X))
plt.show()
df6.to_csv("C:/Users/yan-j/Desktop/save-test1.csv") #数据文件的保存操作，写出操作（csv文件）
df6.to_excel("C:/Users/yan-j/Desktop/save-test2.xlsx") #数据文件的保存操作，写出操作（Excel文件）

pyhton中pandas数据分析模块快速入门（非常容易懂）的更多相关文章

python中pandas数据分析基础3（数据索引、数据分组与分组运算、数据离散化、数据合并）
//2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...
IdentityServer4 中文文档 -16- （快速入门）使用 EntityFramework Core 存储配置数据
IdentityServer4 中文文档 -16- (快速入门)使用 EntityFramework Core 存储配置数据原文:http://docs.identityserver.io/en/r ...
IdentityServer4 中文文档 -15- （快速入门）添加 JavaScript 客户端
IdentityServer4 中文文档 -15- (快速入门)添加 JavaScript 客户端原文:http://docs.identityserver.io/en/release/quicks ...
IdentityServer4 中文文档 -14- （快速入门）使用 ASP.NET Core Identity
IdentityServer4 中文文档 -14- (快速入门)使用 ASP.NET Core Identity 原文:http://docs.identityserver.io/en/release ...
IdentityServer4 中文文档 -13- （快速入门）切换到混合流并添加 API 访问
IdentityServer4 中文文档 -13- (快速入门)切换到混合流并添加 API 访问原文:http://docs.identityserver.io/en/release/quickst ...
IdentityServer4 中文文档 -12- （快速入门）添加外部认证支持
IdentityServer4 中文文档 -12- (快速入门)添加外部认证支持原文:http://docs.identityserver.io/en/release/quickstarts/4_e ...
IdentityServer4 中文文档 -11- （快速入门）添加基于 OpenID Connect 的用户认证
IdentityServer4 中文文档 -11- (快速入门)添加基于 OpenID Connect 的用户认证原文:http://docs.identityserver.io/en/releas ...
IdentityServer4 中文文档 -8- （快速入门）设置和概览
IdentityServer4 中文文档 -8- (快速入门)设置和概览原文:http://docs.identityserver.io/en/release/quickstarts/0_overv ...
IdentityServer4 中文文档 -9- （快速入门）使用客户端凭证保护API
IdentityServer4 中文文档 -9- (快速入门)使用客户端凭证保护API 原文:http://docs.identityserver.io/en/release/quickstarts/ ...

随机推荐

Spring注解@Qualifier、@Autowired、@Primary
@Qualifier 1.当一个接口有多个实现类,且均已注入到Spring容器中了,使用@AutoWired是byType的,而这些实现类类型都相同,此时就需要使用@Qualifier明确指定使用那个 ...
The 2019 ICPC China Nanchang National Invitational and International Silk-Road Programming Contest - F.Sequence(打表+线段树)
题意:给你一个长度为$n$的数组,定义函数$f(l,r)=a_{l} \oplus a_{l+1} \oplus...\oplus a_{r}$,$F(l,r)=f(l,l)\oplus f(l,l+ ...
代理实现aop以及代理工厂实现增强
一.静态代理实现 1.接口(抽象主题) 2.接口的实现类(真实主题) 3.代理类(代理主题) 4.测试类: ApplicationContext context=new ClassPathXmlApp ...
HTML相关知识点(2)
CSS: 字体: 网页默认字体16px; 网站通用字体大小14px 最小是12px,最大无限大单位换算:1em=16px 选择器:标签选择器:选择页面中所有指定标签,权重为1 通配符选择器:选择所 ...
Spark教程——（5）PySpark入门
启动PySpark: [root@node1 ~]# pyspark Python 2.7.5 (default, Nov 6 2016, 00:28:07) [GCC 4.8.5 20150623 ...
MongoDB in 数量限制
1.查询语句本身其实是一个document, 最大为16MB(3.4,4.0 的限制,官方文档)2.查询语句本身,也就是{ '' : { '$in' : [] }}, 大小为 22字节3.每增加一个字 ...
java关于hasNext()
编写一段程序实现如果输入的一组数中含非整数数字,输出数字相加的和以及"attention"字符,如果全部是数字便输出数字的和. 程序1: package mian; import ...
「AT2292」Division into Two
传送门 Luogu 解题思路考虑如何 $\text{DP}$ 为了方便处理,我们设 $A > B$ 设 $dp[i]$ 表示处理完 $1...i$ ,并且第 $i$ 个数放 ...
IOS 常用View属性设置
设置按钮属性 1.设置按钮背景颜色 backgroundColor @property (weak, nonatomic) IBOutlet UIButton *deleteButton; self. ...
[AHK]输入法状态提示，中文状态提示“中”，英文状态提示“EN”[转]
测试中发现使用小鹤双拼,如果不是使用shift切换中英文,效果不理想,留下此文章做个标记 https://www.autoahk.com/archives/8755 输入法状态提示,中文状态提示&qu ...

pyhton中pandas数据分析模块快速入门（非常容易懂）

pyhton中pandas数据分析模块快速入门（非常容易懂）的更多相关文章

随机推荐

热门专题