数据分析库Pandas

Pandas介绍

导入pandas库

import pandas as pd

读取CSV文件

df = pd.read_csv('file_name')  #注意文件路径

读取前几条数据

df.head(num)  #num默认值是5，可以自己指定

返回当前文件的信息

df.info()

df.index

df.columns

df.dtypes

df.values

注意：Pandas的处理对象是DataFrame结构

创建一个dataframe结构

data = {‘name’:['wemo', 'azhu', 'john'],'age':[23, 18, 30]}

df_data = pd.DataFrame(data)

取指定的数据

age = df['Age']

age[:5] #取出前五个年龄的值

指定索引读取数据

df = df.set_index('Name')

df.head()

得到数据的基本统计特性

df.describle()

pandas索引

df[['Age','Fare']][:5]

iloc和loc的不同了：loc是根据dataframe的具体标签选取列，而iloc是根据标签所在的位置，从0开始计数

df.iloc[0:5, 1:3]

df.set_index('Name').loc['wemo, azhu', 'Fare']

bool类型的索引

df['Fare'] > 40  #返回的是True or False

df[ df['Fare'] > 40]  #通过bool类型索引返回票价大于40的数据

(df.['Age'] > 70).sum()  #统计年龄大于70的人数

groupby操作

import pandas as pd

df = pd.DataFrame({'key':['A', 'B', 'C', 'A', 'B', 'C'], 'data':[0, 5, 10, 5, 10, 15, 10, 15, 20]})

#进行分类统计操作

for key in ['A', 'B', 'C']:

     print(df[df['key']==key].sum())

#下面通过groupby来实现上面代码的功能

df.groupby('key').sum(()

groupby的应用

df.groupby('Sex')['Age'].mean()  #统计男女性别的年龄平均数

数值运算

进行数值计算的操作

import pandas as pd

df = pd.DataFrame([[1,2,3],[4,5,6]],index = ['a','b'],columns = ['A','B','C'])

df.sum()  #默认按照第0维度计算

df.sum(axis = 1)

df.sum(axis = 'columns')

df.mean(axis = 1)

df.min()

df.max()

df.median()  #进行中位数计算

df.cov()  #协方差

df.corr()  #相关系数

df['Age'].value_counts()  #统计某特征的值的分布

df['Age'].value_counts(ascending = True,bins = 5)  #升序排列，bins表示平均分成五个区间

对象操作

Series结构的增删改查

Series 是一维带标签的数组，它可以包含任何数据类型。包括整数，字符串，浮点数，Python 对象等。Series 可以通过标签来定位。

定义一个Series结构

data = [10,11,12]

index = ['a','b','c']

s = pd.Series(data = data,index = index)

Series结构的查操作

s[0]  #通过位置来查询，类似于numpy

mask = [True,False,True]

s[mask]  #通过布尔类型查询

s.loc['b']    #通过标签查询，区别于numpy的地方

s.iloc[1]    #通过位置查询

Series结构的改操作

s1['a'] = 100  #通过对标签赋值

s1.replace(to_replace = 100,value = 101,inplace = True)  #inplace为True表示改变s1的值，默认为false不改变原series的值（需要进行赋值操作）

s1.index = ['a','b','d']  #改变标签

s1.rename(index = {'a':'A'},inplace = True)  #改变一个标签的值

Series结构的增操作

data = [100,110]

index = ['h','k']

s2 = pd.Series(data = data,index = index)

s3 = s1.append(s2)  #直接append一组数据进来

#

s3['j'] = 500  #类似于字典添加键值对的操作

#

s1.append(s2,ignore_index = True)  #ignore_index表示是否重新创建索引（0-n）,默认ignore_index = False

Series结构的删操作

del s1['A']  #类似字典操作

s1.drop(['b','d'],inplace = True)

DataFrame结构的增删改查

DataFrame 是二维的带标签的数据结构。我们可以通过标签来定位数据。

定义一个DataFrame结构

data = [[1,2,3],[4,5,6]]

index = ['a','b']

columns = ['A','B','C']

df = pd.DataFrame(data=data,index=index,columns = columns)

查操作

df['A']

df.iloc[0]

df.loc['a']

改操作

df.loc['a']['A'] = 150

增操作

df.loc['c'] = [1,2,3]

df3 = pd.concat([df,df2],axis = 0)

删操作

df5.drop(['j'],axis=0,inplace = True)

merge函数的操作

res = pd.merge(left, right, on = ['key1', 'key2'],  on='key'，how = 'outer', indicator = True)

left：为DataFrame结构的对象，表示合并后位于左边

right：为DataFrame结构的对象，表示合并后位于左边

on：表示以什么为基准合并

how：默认以交集的方式合并，outer指明以并集方式合并。还有可以以right/left为基准合并

indicator：在合并后DataFrame结构中显示数据的来源

result = left.join(right, on='key') #还有一个合并操作join，需要时细查文档

数据显示设置

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.set_option.html?highlight=set_option#pandas.set_option

pd.set_option('display.max_rows',6)

pd.set_option('display.precision',5)

数据透视表

数据透视表：可以动态地改变它们的版面布置，以便按照不同方式分析数据，也可以重新安排行号、列标和页字段。每一次改变版面布置时，数据透视表会立即按照新的布置重新计算数据

df.pivot_table(index = 'Sex',columns='Pclass',values='Fare',aggfunc='max')

Pclass	1	2	3

Sex

female	512.3292	65.0	69.55

male	512.3292	73.5	69.55

aggfunc默认是求平均值，也可以是计数count、求最大值max

时间序列的操作

import datetime

dt = datetime.datetime(year=2018,month=4,day=23,hour=10,minute=30)

print (dt)  #普通的时间操作

output:2018-04-23 10:30:00

#Pandas对时间序列的操作

import pandas as pd

ts = pd.Timestamp('2017-11-24')  #通过Timestamp是一种方式

pd.to_datatime('2017-11-24')

数据分析库Pandas的更多相关文章

Python数据分析库pandas基本操作
Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多个人分类: Pyt ...
教程 | 一文入门Python数据分析库Pandas
首先要给那些不熟悉 Pandas 的人简单介绍一下,Pandas 是 Python 生态系统中最流行的数据分析库.它能够完成许多任务,包括: 读/写不同格式的数据选择数据的子集跨行/列计算寻找并 ...
python数据分析库pandas
在我看来,对于Numpy以及Matplotlib,Pandas可以帮助创建一个非常牢固的用于数据挖掘与分析的基础.而Scipy(会在接下来的帖子中提及)当然是另一个主要的也十分出色的科学计算库,但是我 ...
预备知识-python核心用法常用数据分析库（上）
1.预备知识-python核心用法常用数据分析库(上) 目录 1.预备知识-python核心用法常用数据分析库(上) 概述实验环境任务一:环境安装与配置 [实验目标] [实验步骤] 任务二:Pan ...
Python 数据处理库 pandas 入门教程
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
Python 金融数据分析库及相关框架
BackTest框架库: PyAlgoTrade ZipLine 金融数据分析库: pandas
在量化金融中15个最流行的Python数据分析库
Python是当今应用最广泛的编程语言之一,以其效率和代码可读性著称.作为一个科学数据的编程语言,Python介于R和java之间,前者主要集中在数据分析和可视化,而后者主要应用于大型应用.这种灵活性 ...
Python 数据处理库pandas教程（最后附上pandas_datareader使用实例）
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
Python数据分析之Pandas操作大全
从头到尾都是手码的,文中的所有示例也都是在Pycharm中运行过的,自己整理笔记的最大好处在于可以按照自己的思路来构建矿建,等到将来在需要的时候能够以最快的速度看懂并应用=_= 注:为方便表述,本章设 ...

随机推荐

spring-boot @Async 的使用、自定义Executor的配置方法
1. TaskExecutor Spring异步线程池的接口类,其实质是java.util.concurrent.Executor Spring 已经实现的异常线程池: 1. SimpleAsyncT ...
PTA第一次作业和第二次作业
PTA的第一次作业第一题: #include <stdio.h> int main (void) { int grade,i,N ,a=0,b=0,c=0,d=0,e=0; printf( ...
2018.10.22 bzoj1009: [HNOI2008]GT考试（kmp+矩阵快速幂优化dp）
传送门 f[i][j]f[i][j]f[i][j]表示从状态"匹配了前i位"转移到"匹配了前j位"的方案数. 这个东西单次是可以通过跳kmp的fail数组得到的 ...
javascript 字符数组转换成以逗号隔开的字符串
var ids = [];angular.forEach(pulsarServers,function (server) { ids.push(server.id);});ids = ids.join ...
S3 exercise -- 文件操作&函数
编码请说明python2 与python3中的默认编码是什么? # 答案 py2默认ASCII码,py3默认的utf8 为什么会出现中文乱码?你能列举出现乱码的情况有哪几种? # 答案 #codin ...
hdu1089 Ignatius's puzzle
题目其实这道题不是很难,但是我刚开始拿到这道题的时候不知道怎么做, 因为这个式子我就不知道是干什么的: 65|f(x) 百度解释(若a/b=x...0 称a能被b整除,b能整除a,即b|a,读作& ...
西邮Linux兴趣小组2014级免试挑战题
原文链接:西邮Linux兴趣小组2014级免试挑战题又到了小组纳新的季节^_^,时间过的真快! 想起去年这会儿自己做免试题的时候根本找不着北@_@ 有幸今年能够在这里和大家分享免试挑战题,也正如我 ...
hdu 4982 贪心构造序列
http://acm.hdu.edu.cn/showproblem.php?pid=4982 给定n和k,求一个包含k个不相同正整数的集合,要求元素之和为n,并且其中k-1的元素的和为完全平方数枚举 ...
eclipse中java build path下 allow output folders for source folders 无法勾选,该如何解决 eclipse中java build path下 allow output folders for source folders 无法勾选,
在创建maven工程时,在设置output folders时,总是勾选以后,老是自动恢复到原来的状态,对比其他的maven的工程发现是在创建maven时候选择的项目为pom,而不是war或者jar,将 ...
NotMapped属性特性
NotMapped特性可以应用到领域类的属性中,Code-First默认的约定,是为所有带有get,和set属性选择器的属性创建数据列.. NotManpped特性打破了这个约定,你可以使用NotMa ...