panda2

pandas是python为数据分析建造的可靠工具，很多地方和R语言有想通之处。数据分析并不是工具越高深越好，excel,R,python都是针对不同情况的不同工具，各有各的优缺点，
就像你要搭一个架子，或者做一个工艺品，有的小锤子比较合适，有的就得用大斧子了。
excel其实是数据分析的强力武器。对于小数据量的情况下，excel有其先天的优势。而Python和R更像一个高性能的数据处理工具。
然而仅仅会使用各种厉害工具，数据落不了地是啥也没用的。落地，和业务贴合，永远是数据最终走向。近期转到研发部门，和业务贴合的机会少了，对这方面更有很多深刻感触。

下面这几点可能更像从excel角度去看python.
1.panda 的 index 更像横坐标 x，同时也可以把它当做一个list ，可以像数组一样赋值，取数。
2.两个跟属性判断相关的语句。in 是判断某个columns 或者 index中是否存在某个字段。 is 是判断数据格式类型。
3.另外基本功能，reindex 调整 index的工具函数。
基本格式：

obj.reindex(['a','b','c','d','e'],fill_value = 0.0)

功能：可以在横坐标和纵坐标上进行修改

frame = DataFrame(np.arange(9).reshape(3,3),index=['a','b','c'],columns=['Ohio','Texas','California'])
frame.reindex(['a','b','c','d'])
frame.reindex(columns=['Ohio','Texas','California','NewYork'])

4.取数据子矩阵 frame.ix 函数，同时还可以有reindex的功能。

frame.ix(['a','b','d'],states)

data.ix[['Colorado','Utah'],['three','four']]

5.现在已经隐约可以感觉到 python的两个子模块运算类似于线性代数了
所以 两个dataframe的结果十分像线性代数的结果。
df1+df2

df1.add(df2,fill_value=0)
df1.mul(df2,fill_value=0)
df1.div(df2,fill_value=0)
df1.sub(df2,fill_value=0)

详细数据如下
========================================================================================

'''panda's index objects are responsible for holding the axis labels,like series'''
import pandas as pd
obj = Series(range(3),index=['a','b','c'])
index = obj.index
index
index[1:]
'''index = immutable'''
index[1]='d'
'''so the index can be valued by function'''
index = pd.Index(np.arange(3))
obj2 = Series([1.5,-2.5,0],index=index)
obj2

''' evaluate the attribute of index 判断属性用Is，判断存不存在用in'''
obj2.index is index

'Ohio' in frame3.columns

'2002' in obj2.index

'''Essential functionality'''
'''reindexing'''
obj=Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
obj2=obj.reindex(['a','b','c','d','e'])
obj2
'''fill the missing data'''
obj.reindex(['a','b','c','d','e'],fill_value = 0.0)
'''ordering fill the missing data'''
obj3=Series(['blue','green','black'],index=[0,2,4])
obj3.reindex(np.arange(5),method='ffill')

'''reindex can be alter row,column and both in data frame'''
frame = DataFrame(np.arange(9).reshape(3,3),index=['a','b','c'],columns=['Ohio','Texas','California'])
frame.reindex(['a','b','c','d'])
frame.reindex(columns=['Ohio','Texas','California','NewYork'])

months = ['APR','MAY','JUN','JUL','AUG']
frame.reindex(columns=months)
label=['a','b','c','d','e']
states=['Ohio','Texas','California','NewYork']
'''reindex 仅对x-axis有效'''
frame.reindex(label,method='ffill')
'''取子矩阵'''
frame.ix(['a','b','d'],states)

'''dropping entries from axis'''
obj = Series(np.arange(5.),index=['a','b','c','d','e'])
new_obj = obj.drop('c')
new_obj

'''drop from data frame'''
data=DataFrame(np.arange(16).reshape(4,4),index=['Ohio','Colorado','Utah','NewYork'],columns=['one','two','three','four'])
'''drop from index'''
data.drop(['Colorado','Utah'])
'''drop from column'''
data.drop('two',axis=1)

'''index,selection,filtering'''
obj=Series(np.arange(4.),index=['a','b','c','d'])
'''index可以像数组一样，通过数字定位,index 定位,取一个数，一串数'''
obj['b']
obj[1]
obj[1:2]
obj[['a','c','d']]
obj[[1,3]]
obj[obj < 2]

obj['b':'c']=5

data=DataFrame(np.arange(16).reshape(4,4),index=['Ohio','Colorado','Utah','New York'],columns=['one','two','three','four'])
'''follow by columns,但只是单维度的'''
data['two']
data[['three','one']]
data.ix['Ohio']
data[data['three']>5]
data[:2]

'''把data小于5的赋值0'''
data[data<5]=0

'''按照位置选择值'''
data.ix['Colorado','two']
data.ix['Colorado',['two','three']]
data.ix[['Colorado','Utah'],['three','four']]
data.ix[2]
data.ix[:'Utah','two']
data.ix[:2,'two']
data.ix[data.three>5,:3]

'''reindex'''
data.ix[['Colorado','Utah'],[3,0,1]]

'''arithmetic and data alignment'''
s1=Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])
s2=Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])
'''not overlap return NA'''
s1+s2
'''dataframe'''
df1=DataFrame(np.arange(9.).reshape(3,3),columns=list('bcd'),index=['Ohio','Texas','Colorado'])
df2=DataFrame(np.arange(12.).reshape(4,3),columns=list('bde'),index=['Utah','Ohio','Texas','Oregon'])

df1+df2
'''只要有一个为空，就是空'''
df1.add(df2,fill_value=0)
'''只要有一个有数，另外一个就设为0'''
'''reindex'''
df1.reindex(columns=df2.columns,fill_value=0)

df1 = DataFrame(np.arange(12.).reshape(3,4),columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape(4,5),columns=list('abcde'))
df1.add(df2,fill_value=0)
df1.mul(df2,fill_value=0)
df1.div(df2,fill_value=0)
df1.sub(df2,fill_value=0)

panda2的更多相关文章

访问图片可以使用闭包map
1 imageView.animationImages = [ UIImage(named:"panda1"), UIImage(named:"panda2") ...
javascript构造函数以及原型对象的理解
以下是一个构造函数的例子如果是实例方法,不同的实例化,它们引用的地址是不一样的,是唯一的. //定义一个构造函数 function People(name,age){ this.name=name; ...
数据结构实习-迷宫（基于Qt实现）
预览效果: Maze.pro文件 #------------------------------------------------- # # Project created by QtCreator ...
记Angular与Django REST框架的一次合作（2）：前端组件化——Angular
注:这是这个系列的第二部分,主要集中在Angular的使用方面.之前使用过AngularJS(Angular 1.x),混在Django的模板中使用,这些页面一般完全是结果展示页.在有Django表单 ...

随机推荐

创建Java不可变类
不可变(immutable)类的意思是创建该类的实例后,该实例的Field是不可改变的,Java提供的8个包装类和java.lang.String类都是不可变类. 如果需要创建自定义的不可变类,可遵守 ...
20165324《Java程序设计》第四周
学号 2016-2017-2 <Java程序设计>第四周学习总结教材学习内容总结第五章:子类与继承子类的定义:class 子类名 extends 父类名 { ... } 子类继承性: ...
vim中快速定位到某行以及快捷删除多行
vim filename 在命令行中直接输入 numberG 比如 100G直接定位到100行输入 :set number即显示行号 : i,.d删除从第i行到目前所在行内容
[Windows Powershell]-学习笔记（6）
Powershell环境变量传统的控制台一般没有象Powershell这么高级的变量系统.它们都是依赖于机器本身的环境变量,进行操作 .环境变量对于powershell显得很重要,因为它涵盖了许多操 ...
Winter-2-STL-C Where is the Marble? 解题报告及测试数据
Time Limit:3000MS Memory Limit:0KB Description Download as PDF Raju and Meena love to play with ...
c++之旅:类型的强制转换
类型强制转换在编程的时候我们经常遇到类型的强制转换,C++为此提供了更安全的转换方式,在编程中我们更多的应该采用C++提供的类型转换方式基本类型转换基本类型转换用的最多,一般将高精度转换为低精度 ...
Ubuntu 16.04 安装Postman
Ubuntu 16.04 安装Postman: 1.官网下载地址:https://www.getpostman.com/根据机器类型选择64位下载. 2.进入下载目录,解压该文件sudo tar -x ...
20145314郑凯杰《Java程序设计》实验二实验报告
20145314郑凯杰 <Java程序设计>实验二实验报告实验要求完成实验.撰写实验报告,实验报告以博客方式发表在博客园,注意实验报告重点是运行结果,遇到的问题(工具查找,安装,使用 ...
20145327 实验四 Andoid开发基础
20145327 实验四 Andoid开发基础安装Android Studio 安装过程出现未找到SDK的错误,只需在打开界面找到右下角的设置按钮,将路径设置为如下就可以运行.(默认安装路径) 设计 ...
20145329 《Java程序设计》第五周学习总结
20145329 <Java程序设计>第五周学习总结教材学习内容总结第八章 Java异常处理是要处理Exception类及其子类(Checked Exception),RuntimeE ...

panda2

panda2的更多相关文章

随机推荐

热门专题