Pandas介绍

导入pandas库

import pandas as pd

读取CSV文件

df = pd.read_csv('file_name')  #注意文件路径

读取前几条数据

df.head(num)  #num默认值是5,可以自己指定

返回当前文件的信息

df.info()
df.index
df.columns
df.dtypes
df.values

注意:Pandas的处理对象是DataFrame结构

创建一个dataframe结构

data = {‘name’:['wemo', 'azhu', 'john'],'age':[23, 18, 30]}
df_data = pd.DataFrame(data)

取指定的数据

age = df['Age']
age[:5] #取出前五个年龄的值

指定索引读取数据

df = df.set_index('Name')
df.head()

得到数据的基本统计特性

df.describle()

pandas索引

df[['Age','Fare']][:5]

iloc和loc的不同了:loc是根据dataframe的具体标签选取列,而iloc是根据标签所在的位置,从0开始计数

df.iloc[0:5, 1:3]
df.set_index('Name').loc['wemo, azhu', 'Fare']

bool类型的索引

df['Fare'] > 40  #返回的是True or False
df[ df['Fare'] > 40] #通过bool类型索引返回票价大于40的数据
(df.['Age'] > 70).sum() #统计年龄大于70的人数

groupby操作

import pandas as pd
df = pd.DataFrame({'key':['A', 'B', 'C', 'A', 'B', 'C'], 'data':[0, 5, 10, 5, 10, 15, 10, 15, 20]})
#进行分类统计操作
for key in ['A', 'B', 'C']:
print(df[df['key']==key].sum())
#下面通过groupby来实现上面代码的功能
df.groupby('key').sum(()

groupby的应用

df.groupby('Sex')['Age'].mean()  #统计男女性别的年龄平均数

数值运算

进行数值计算的操作
import pandas as pd
df = pd.DataFrame([[1,2,3],[4,5,6]],index = ['a','b'],columns = ['A','B','C'])
df.sum() #默认按照第0维度计算
df.sum(axis = 1)
df.sum(axis = 'columns')
df.mean(axis = 1)
df.min()
df.max()
df.median() #进行中位数计算
df.cov() #协方差
df.corr() #相关系数
df['Age'].value_counts() #统计某特征的值的分布
df['Age'].value_counts(ascending = True,bins = 5) #升序排列,bins表示平均分成五个区间

对象操作

Series结构的增删改查

Series 是一维带标签的数组,它可以包含任何数据类型。包括整数,字符串,浮点数,Python 对象等。Series 可以通过标签来定位。

定义一个Series结构

data = [10,11,12]
index = ['a','b','c']
s = pd.Series(data = data,index = index)

Series结构的查操作

s[0]  #通过位置来查询,类似于numpy
mask = [True,False,True]
s[mask] #通过布尔类型查询
s.loc['b'] #通过标签查询,区别于numpy的地方
s.iloc[1] #通过位置查询

Series结构的改操作

s1['a'] = 100  #通过对标签赋值
s1.replace(to_replace = 100,value = 101,inplace = True) #inplace为True表示改变s1的值,默认为false不改变原series的值(需要进行赋值操作)
s1.index = ['a','b','d'] #改变标签
s1.rename(index = {'a':'A'},inplace = True) #改变一个标签的值

Series结构的增操作

data = [100,110]
index = ['h','k']
s2 = pd.Series(data = data,index = index)
s3 = s1.append(s2) #直接append一组数据进来
#
s3['j'] = 500 #类似于字典添加键值对的操作
#
s1.append(s2,ignore_index = True) #ignore_index表示是否重新创建索引(0-n),默认ignore_index = False

Series结构的删操作

del s1['A']  #类似字典操作
s1.drop(['b','d'],inplace = True)

DataFrame结构的增删改查

DataFrame 是二维的带标签的数据结构。我们可以通过标签来定位数据。

定义一个DataFrame结构

data = [[1,2,3],[4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data,index=index,columns = columns)

查操作

df['A']
df.iloc[0]
df.loc['a']

改操作

df.loc['a']['A'] = 150

增操作

df.loc['c'] = [1,2,3]
df3 = pd.concat([df,df2],axis = 0)

删操作

df5.drop(['j'],axis=0,inplace = True)

merge函数的操作

res = pd.merge(left, right, on = ['key1', 'key2'],  on='key',how = 'outer', indicator = True)
left:为DataFrame结构的对象,表示合并后位于左边
right:为DataFrame结构的对象,表示合并后位于左边
on:表示以什么为基准合并
how:默认以交集的方式合并,outer指明以并集方式合并。还有可以以right/left为基准合并
indicator:在合并后DataFrame结构中显示数据的来源
result = left.join(right, on='key') #还有一个合并操作join,需要时细查文档

数据显示设置

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.set_option.html?highlight=set_option#pandas.set_option

pd.set_option('display.max_rows',6)
pd.set_option('display.precision',5)

数据透视表

数据透视表:可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据

df.pivot_table(index = 'Sex',columns='Pclass',values='Fare',aggfunc='max')
Pclass 1 2 3
Sex
female 512.3292 65.0 69.55
male 512.3292 73.5 69.55
aggfunc默认是求平均值,也可以是计数count、求最大值max

时间序列的操作

import datetime
dt = datetime.datetime(year=2018,month=4,day=23,hour=10,minute=30)
print (dt) #普通的时间操作
output:2018-04-23 10:30:00 #Pandas对时间序列的操作
import pandas as pd
ts = pd.Timestamp('2017-11-24') #通过Timestamp是一种方式
pd.to_datatime('2017-11-24')

数据分析库Pandas的更多相关文章

  1. Python数据分析库pandas基本操作

    Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多 个人分类: Pyt ...

  2. 教程 | 一文入门Python数据分析库Pandas

    首先要给那些不熟悉 Pandas 的人简单介绍一下,Pandas 是 Python 生态系统中最流行的数据分析库.它能够完成许多任务,包括: 读/写不同格式的数据 选择数据的子集 跨行/列计算 寻找并 ...

  3. python数据分析库pandas

    在我看来,对于Numpy以及Matplotlib,Pandas可以帮助创建一个非常牢固的用于数据挖掘与分析的基础.而Scipy(会在接下来的帖子中提及)当然是另一个主要的也十分出色的科学计算库,但是我 ...

  4. 预备知识-python核心用法常用数据分析库(上)

    1.预备知识-python核心用法常用数据分析库(上) 目录 1.预备知识-python核心用法常用数据分析库(上) 概述 实验环境 任务一:环境安装与配置 [实验目标] [实验步骤] 任务二:Pan ...

  5. Python 数据处理库 pandas 入门教程

    Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...

  6. Python 金融数据分析库及相关框架

    BackTest框架库: PyAlgoTrade ZipLine 金融数据分析库: pandas

  7. 在量化金融中15个最流行的Python数据分析库

    Python是当今应用最广泛的编程语言之一,以其效率和代码可读性著称.作为一个科学数据的编程语言,Python介于R和java之间,前者主要集中在数据分析和可视化,而后者主要应用于大型应用.这种灵活性 ...

  8. Python 数据处理库pandas教程(最后附上pandas_datareader使用实例)

    0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...

  9. Python数据分析之Pandas操作大全

    从头到尾都是手码的,文中的所有示例也都是在Pycharm中运行过的,自己整理笔记的最大好处在于可以按照自己的思路来构建矿建,等到将来在需要的时候能够以最快的速度看懂并应用=_= 注:为方便表述,本章设 ...

随机推荐

  1. 【Maven】安装及配置(Win)

    Maven Maven是一款自动化构建的工具软件,它是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具. 检查环境 maven是基于Java的工具软件, ...

  2. AJAX初尝试——ACM/ICPC类比赛气球管理系统

    很早之前做过一个,白板没界面,20秒暴力刷新,数据库每个team一个n列的对应n个题目的标记项,只能对单个比赛暴力把全部user_id导入单独的气球表(也就是cid=1000用这个表的话,cid100 ...

  3. 2018.10.20 NOIP模拟 面包(数学期望)

    传送门 把方差的式子拆开. 方差=平方的期望-期望的平方. 显然只用维护点对的个数和总方案数就行了. 利用分步的思想来统计. 要统计覆盖一个矩形(x1,y1,x2,y2)(x1,y1,x2,y2)(x ...

  4. Nginx的两种负载均衡搭建(Tomcat版)

    前言 Nginx的负载均衡一般采用upstream来实现,但是,还有另一种文件拓展的方式,同样可以实现负载均衡. 一.一般的负载均衡 upstream my_server { server local ...

  5. JavaNIO学习一

    文章来源:http://cucaracha.iteye.com/blog/2041847 对文件来说,可能最常用的操作就是创建.读取和写出.NIO.2 提供了丰富的方法来完成这些任务.本文从简单的小文 ...

  6. php PDO mysql

    php PDO写法连接mysql: $db=new PDO("mysql:host=localhost;dbname=sql","root","roo ...

  7. 端口模式(IN,OUT,INOUT,BUFFER)

    in: OUT: INOUT: BUFFER:缓冲模式,与OUT类似可作为输出使用,但也可把输出的信号作为输入使用.

  8. python调用dll方法

    在python中调用dll文件中的接口比较简单,实例代码如下: 如我们有一个test.dll文件,内部定义如下: extern "C"{ int __stdcall test( v ...

  9. 用Socket开发的一枚小型实时通信App

    Socket 英文原意是插座. 在网络世界里, 当一台主机温柔而体贴的同时提供多个服务时, 每个服务被绑定在一个端口上, 而每个端口就好像一个小插座. 用户们连接对应的插座去获取相应的服务. 在Nod ...

  10. (字典树模板)统计难题--hdu--1251

    链接: http://acm.hdu.edu.cn/showproblem.php?pid=1251 在自己敲了一遍后终于懂了,这不就用了链表的知识来建立了树,对!就是这样的,然后再查找 代码: #i ...