python数据分析之pandas库的DataFrame应用二
本节介绍Series和DataFrame中的数据的基本手段
- 重新索引
pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
from pandas import * print "--------------obj result:-----------------"
obj=Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
print obj print "--------------obj2 result:-----------------"
obj2=obj.reindex(['a','b','c','d','e'])
print obj2 print "--------------obj3 result:-----------------"
obj3=obj.reindex(['a','b','c','d','e'],fill_value=0)
print obj3
reindex
#reindex对索引值进行重排,如果当前索引值不存在,就引入缺失值
#可以指定fill_value=0来进行缺失值的替换
--------------obj result:-----------------
d 4.5
b 7.2
a -5.3
c 3.6
dtype: float64
--------------obj2 result:-----------------
a -5.3
b 7.2
c 3.6
d 4.5
e NaN
dtype: float64
--------------obj3 result:-----------------
a -5.3
b 7.2
c 3.6
d 4.5
e 0.0
dtype: float64
reindex_index
2.插值
对于时间序列这样的有序数据,重新索引时可能需要做一些插值处理,method选项即可达到此目的:
对于时间序列这样的有序数据,重新索引时可能需要做一些插值处理,method选项即可达到此目的:
| method参数介绍 | |
| 参数 | 说明 |
| ffill或pad | 前向填充 |
| bfill或backfill | 后向填充 |
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
from pandas import * print "--------------obj3 result:-----------------"
obj3=Series(['blue','red','yellow'],index=[0,2,4])
print obj3 print "--------------obj4 result:-----------------"
obj4=obj3.reindex(range(6),method='ffill') print obj4
ffill前向填充
--------------obj3 result:-----------------
0 blue
2 red
4 yellow
dtype: object
--------------obj4 result:-----------------
0 blue
1 blue
2 red
3 red
4 yellow
5 yellow
dtype: object
ffill结果:
对于DataFrame数据类型,reindex可以修改行与列索引,但如果仅传入一个序列,则优先重新索引行:
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
from pandas import * print "--------------frame result:-----------------"
frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])
print frame print "--------------frame2 result:-----------------"
frame2=frame.reindex(['a','b','c','d'])
print frame2 print "--------------frame3 result:-----------------"
frame3=frame.reindex(columns=['texas','utah','california'])
print frame3 print "--------------frame3 result:-----------------"
frame4=frame.ix[['a','b','c','d'],['texas','utah','california']]
print frame4
reindex_dataframe
--------------frame result:-----------------
ohio texas california
a 0 1 2
c 3 4 5
d 6 7 8
--------------frame2 result:-----------------
ohio texas california
a 0.0 1.0 2.0
b NaN NaN NaN
c 3.0 4.0 5.0
d 6.0 7.0 8.0
--------------frame3 result:-----------------
texas utah california
a 1 NaN 2
c 4 NaN 5
d 7 NaN 8
--------------frame3 result:-----------------
texas utah california
a 1.0 NaN 2.0
b NaN NaN NaN
c 4.0 NaN 5.0
d 7.0 NaN 8.0
reindex结果:
3.指定轴上的项
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
from pandas import * print "--------------Series drop item by index:-----------------"
obj=Series(np.arange(3,8),index=['a','b','c','d','e'])
print obj obj1=obj.drop('c')
print obj1 print "--------------DataFrame drop item by index :-----------------"
frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])
print frame frame1=frame.drop(['ohio'],axis=1)
print frame1
指定轴上的项
--------------Series drop item by index:-----------------
a 3
b 4
c 5
d 6
e 7
dtype: int32
a 3
b 4
d 6
e 7
dtype: int32
--------------DataFrame drop item by index :-----------------
ohio texas california
a 0 1 2
c 3 4 5
d 6 7 8
texas california
a 1 2
c 4 5
d 7 8
drop_item
#对于DataFrame,可以删除任意轴上的索引值
4.索引,选取和过滤
Series利用标签的切片运算与普通的python切片运算不同,其末端是包含的,
DataFrame进行索引就是获取一个或多个列
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
from pandas import * print "--------------DataFrame drop item by index :-----------------"
frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])
print frame frame1=frame.drop(['ohio'],axis=1)
print frame1 print "--------------DataFrame filter item by index :-----------------"
#也可通过切片和布尔型来选取
print frame['ohio']
print frame[:2]
print frame[frame['ohio']>=3] print "--------------DataFrame filter item by index :-----------------"
#在DateFrame上进行标签索引,引入ix: 注意行标签在前,列标签在后
print frame.ix['a',['ohio','texas']]
索引选取和过滤
--------------DataFrame drop item by index :-----------------
ohio texas california
a 0 1 2
c 3 4 5
d 6 7 8
texas california
a 1 2
c 4 5
d 7 8
--------------DataFrame filter item by index :-----------------
a 0
c 3
d 6
Name: ohio, dtype: int32
ohio texas california
a 0 1 2
c 3 4 5
ohio texas california
c 3 4 5
d 6 7 8
--------------DataFrame filter item by index :-----------------
ohio 0
texas 1
Name: a, dtype: int32
结果:
5.算术运算和数据对齐
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
from pandas import * print "--------------DataFrame drop item by index :-----------------"
s1=Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])
s2=Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])
print s1+s2
算术运算和数据对齐
--------------DataFrame drop item by index :-----------------
a 5.2
c 1.1
d NaN
e 0.0
f NaN
g NaN
dtype: float64
结果:
'''
Created on 2016-8-10
@author: xuzhengzhu
'''
from pandas import * print "--------------DataFrame drop item by index :-----------------"
df1=DataFrame(np.arange(9).reshape((3,3)),columns=list('bcd'),index=['ohio','texas','colorado'])
df2=DataFrame(np.arange(12).reshape((4,3)),columns=list('bde'),index=['utah','ohio','texas','oregon']) print df1
print "--------------------" print df2 #只返回行列均匹配的数值
print "-------df1+df2-------------"
print df1+df2 #在对不同的索引对象进行算术运算时,当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值
print "-------df3-------------"
df3=df1.add(df2,fill_value=0)
print df3
对齐操作
--------------DataFrame drop item by index :-----------------
b c d
ohio 0 1 2
texas 3 4 5
colorado 6 7 8
--------------------
b d e
utah 0 1 2
ohio 3 4 5
texas 6 7 8
oregon 9 10 11
-------df1+df2-------------
b c d e
colorado NaN NaN NaN NaN
ohio 3.0 NaN 6.0 NaN
oregon NaN NaN NaN NaN
texas 9.0 NaN 12.0 NaN
utah NaN NaN NaN NaN
-------df3-------------
b c d e
colorado 6.0 7.0 8.0 NaN
ohio 3.0 1.0 6.0 5.0
oregon 9.0 NaN 10.0 11.0
texas 9.0 4.0 12.0 8.0
utah 0.0 NaN 1.0 2.0
结果:
python数据分析之pandas库的DataFrame应用二的更多相关文章
- python数据分析之pandas库的DataFrame应用一
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔型).DateFrame既有行索引也有列索引,可以被看作为由Series组成的字典. 构建Dat ...
- 利用python进行数据分析之pandas库的应用(二)
本节介绍Series和DataFrame中的数据的基本手段 重新索引 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 >>> from panda ...
- Python数据分析:pandas玩转Excel (二)
1 对Excel文件的操作 方法一: 使用xlrd库或者xlwt库进行对excel表格的操作读与写: 方法二: pandas库同样支持excel的读写操作:且更加简便. 2 pd.read_excel ...
- python数据分析之pandas库的Series应用
一.pandas的数据结构介绍 1. Series 1.1 Series是由一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据索引构成.仅由一组数据可产生最简单的Series. from p ...
- Python数据分析之pandas基本数据结构:Series、DataFrame
1引言 本文总结Pandas中两种常用的数据类型: (1)Series是一种一维的带标签数组对象. (2)DataFrame,二维,Series容器 2 Series数组 2.1 Series数组构成 ...
- Python之使用Pandas库实现MySQL数据库的读写
本次分享将介绍如何在Python中使用Pandas库实现MySQL数据库的读写.首先我们需要了解点ORM方面的知识. ORM技术 对象关系映射技术,即ORM(Object-Relational ...
- Pandas库之DataFrame
Pandas库之DataFrame 1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表. 或许说它可能有点像matlab的矩阵,但是matlab ...
- Python 数据分析:Pandas 缺省值的判断
Python 数据分析:Pandas 缺省值的判断 背景 我们从数据库中取出数据存入 Pandas None 转换成 NaN 或 NaT.但是,我们将 Pandas 数据写入数据库时又需要转换成 No ...
- 【Python学习笔记】Pandas库之DataFrame
1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表. 或许说它可能有点像matlab的矩阵,但是matlab的矩阵只能放数值型值(当然matla ...
随机推荐
- 查看本机的IP地址方法:
查看本机的IP地址方法:对于XP系统:方法一:如果右下角系统托盘区有本地连接的小电脑,双击小电脑→支持,就可以看到本机IP地址.无线连接也是一样.方法二:开始→运行cmd /k ipconfig,IP ...
- JS 概述
HTML+javascript+CSSjavascript 1995出现,JQuery -2006出现--React.js 阿里/美团/去哪儿 2013, Facebook发布UI框架库React,引 ...
- python之map、filter、reduce、lambda函数 转
python之map.filter.reduce.lambda函数 转 http://www.cnblogs.com/kaituorensheng/p/5300340.html 阅读目录 map ...
- 树(二)——二叉树
目录 本章主要讲解内容为: 树的非递归遍历算法,两种版本 树的扩展前缀以及前缀中缀构建方法 源码 btree.cpp btree.h 基础知识 一.定义 二叉树的递归定义:二叉树是每个结点最多含有两棵 ...
- 贪心算法 hdu 1009
1.因为要排序只派j[i]/f[i],不能知道f[i]和j[i]各自排序后的顺序,因此要用到结构体 2.用sort(ware,ware+n,cmp) cmp 为俩个数组的元素比较大小的布尔值 #inc ...
- nginx 负载均衡、用数据库存储Session,来实现多站点共享Session[转]
多站点共享Session常见的作法有: 1.使用.net自动的状态服务(Asp.net State Service); 2.使用.net的Session数据库: 3.使用Memcached. 4.使用 ...
- CodeForces #369 C. Coloring Trees DP
题目链接:C. Coloring Trees 题意:给出n棵树的颜色,有些树被染了,有些没有.现在让你把没被染色的树染色.使得beauty = k.问,最少使用的颜料是多少. K:连续的颜色为一组 ...
- Linux gcc 编译日记
gcc 编译器是众多编译器组合入口,例如在编译 .cpp 文件时,使用c++ 编译器,编译.c 文件时,使用c编译器. 在编译c++程序时, 库文件与头文件可通过 -L[dir] 指定库目录 , -l ...
- Rhel6-torque作业调度系统配置文档
系统环境: rhel6 x86_64 iptables and selinux disabled 主机: 192.168.122.121 server21.example.com 计算节点 192.1 ...
- JavaScript取子串方法slice,substr,substring对比表
在程序语言中,字符串可以说是最常用的一种类型,而在程序中对字符串的操作也是十分频繁.当程序语言自带多种字符串操作的方法时,用该语言编程程序时就有很多的便利性,提高开发的效率.但是当方法过多,甚至目的相 ...