Pandas 高级应用 数据分析
深入pandas 数据处理
三个阶段
- 数据准备
- 数据转化
- 数据聚合
数据准备
- 加载
- 组装
- 合并 - pandas.merge()
- 拼接 - pandas.concat()
- 组合 - pandas.DataFrame.combine_first()
- 变形
- 删除
合并
example1:
import numpy as np
import pandas as pd
frame1 = pd.DataFrame({'id':['ball','pencil','pen','mug','ashtray'],'price':[12.33,11.44,33.21,13.23,33.62]})
frame2 = pd.DataFrame({'id':['pencil','ball','pencil','pen'],'color':['white','red','red','black']})
pd.merge(frame1,frame2)
有必要定义合并操作的标准 用 on 来指定
example2:
frame2.columns=['brand2','id2']
pd.merge(frame1,frame2,on='brand') # 需要重新明明
pd.merge(frame1,frame2,right_on='brand', left_on='sid')
拼接
concatenation
numpy 的 concatenate()函数就是做这种拼接操作
array1=np.arange(9).reshape((3,3))
array2=np.arange(9).reshape((3,3))+6
np=concatenate([array1,array2],axis=1)# axis=1 从行拼接 axis=0 从列拼接
pandas的concat()函数可以做拼接操作
ser1=pd.concat([ser1,ser2])
# axis=1 从行拼接 axis=0 从列拼接
# join='inner' or 'outer'
组合
Series对象: combine_first()
组合的同时还可以对齐数据
ser1=pd.Series(np.random.rand(5),index=[1,2,3,4,5])
ser2=pd.Series(np.random.rand(4),index=[2,4,5,6])
ser1.combine_first(ser2)
轴向旋转
意思是 需要按照行重新调整列或者反过来
两个操作:
- stacking 入栈, 把列转化为行
- unstacking 出站, 把行转化为列
frame1=pd.DataFrame(np.arange(9).reshape(3,3),index=['w','b','r'], columns=['ball','pen','pencil'])
frame1.stack() # 得到一个Series对象
ser.unstack() # 得到一个DataFrame对象
# 长格式向宽格式转化: DateFrame.pivot
wideframe=longframe.pivot('color','item')
删除
- 删除一列
del frame['ball']
- 删除多余的行
frame.drop('white')
数据转化
删除重复数据
DataFrame 中duplicated()函数可以用来检测重复的行,返回bool型Series对象
dframe.duplicated()
# 得到过滤结果
dframe[dframe.duplicated()]
# 讲重复的行删除
dframe.drop_duplicates<>
映射
dict 映射关系比较好
replace() 替换元素
map() 新建一列
rename() 替换索引
### 替换
newcolor={'rosso':'red','verde':'green'}
frame.replace(newcolors)
ser.replace(np.nan, 0)
### 添加元素
price={'ball':5.56,'mug':4.3}
frame['price']=frame['item'].map(price)
### 重命名轴索引
reindex={o:'first',2:'second'}
frame.replace(reindex)
frame.replace(index={1:'first'}, columns={'item':'object'})
# inplace 参数: 是否改变调用函数对象本身
离散化
result=[12,34,67,55,28,90.99,12,3,56,74,44,87,23,49,89,87]
bins=[0,25,50,75,100]
# 对result用cut函数
cat=pd.cut(result,bins)
cat >>> type(cat)
<class 'pandas.core.categorical.Categorical'>
# 返回的是类别对象
cat.levels
cat.labels
# 类别中计数
pd.value_counts(cat)
# cut 函数中的labels标签 labels=['a','b','c']
异常值的检测和过滤
randframe=pd.DataFrame(np.random.randn(1000,3))
descibe()函数查看每一列的描述性统计量
假设讲比标准差大三倍的元素是为异常值,用std()函数可以求出每一列的标准差
randframe.std()
对DataFrame对象进行过滤
randframe[(np.abs(randframe)>(3*randframe.std())).any(1)]
排序
nframe=pd.DataFrame(np.arange(25).reshape(5,5))
# permutation(5)创建一个随机顺序整数
new_order=np.random.permutation(5) # 0-4
nframe.take(new_order)
随机取样
np.random.randint()函数
sample=np.random.randint(0,len(nframe),size=3)
字符串处理
内置字符串处理方法
split() 函数 切割
test='12312,bob'
test.split(',')
# ['12312', 'bob']
strip()函数 去空白
tokens=[s.strip() for s in test.split(',')]
join() 拼接
>>> strings=['1','2','3','45','5']
','.join(strings)
in index() find() 查找操作
test.index('bottom')
test.find('bottom')
'bottom' in test
count() 出现次数
test.count('bottom')
replace()
test.replace('A','a')
正则表达式
import re
几个类别:
- 模式匹配
- 替换
- 切分
re.split()
text="This is an \t odd \n text!"
re.split('\s+',text)
# 内部过程
regex=re.compile('\s+')
regex.split(text)
re.findall()
# 以A开头不区分大小写
text='A! This is my address: 16 Boltom Avenue, Boston'
re.findall('[A,a]\w+',text)
数据聚合
GroupBy
SPLIT-APPLY-COMBINE 三个阶段
- 分组
- 用函数处理
- 合并
# 实际上只使用了GroupBy函数
frame=pd.DataFrame({'color':['white','red','green','red','green'],'obj':['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.3,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})
>>> frame
color obj price1 price2
0 white pen 5.56 4.75
1 red pencil 4.20 4.12
2 green pencil 1.30 1.60
3 red ashtray 0.56 0.75
4 green pen 2.75 3.15
# 想要根据color组,计算price1的均值
group=frame['price1'].groupby(frame['color'])
# 得到一个group对象
group.groups # 查看分组情况
group.mean() # 查看均值
group.sum() # 查看分组总和
等级分组
ggroup=frame['price1'].groupby([frame['color'],frame['obj']])
frame[['price1','price2']].groupby(frame['color']).mean()
组迭代
for name, group in frame.groupby('color'):
print(name)
print(group)
分组函数
group=frame.groupby('color')
group['price1'].quantile(0.6) # 直接计算分位数
# 自定义聚合函数
def range(series):
return series.max()-series.min()
group['price1'].agg(range)
group.agg(range)
Pandas 高级应用 数据分析的更多相关文章
- 数据分析06 /pandas高级操作相关案例:人口案例分析、2012美国大选献金项目数据分析
数据分析06 /pandas高级操作相关案例:人口案例分析.2012美国大选献金项目数据分析 目录 数据分析06 /pandas高级操作相关案例:人口案例分析.2012美国大选献金项目数据分析 1. ...
- pandas小记:pandas高级功能
http://blog.csdn.net/pipisorry/article/details/53486777 pandas高级功能:面板数据.字符串方法.分类.可视化. 面板数据 {pandas数据 ...
- Pandas高级教程之:GroupBy用法
Pandas高级教程之:GroupBy用法 目录 简介 分割数据 多index get_group dropna groups属性 index的层级 group的遍历 聚合操作 通用聚合方法 同时使用 ...
- pandas高级操作
pandas高级操作 import numpy as np import pandas as pd from pandas import DataFrame,Series 替换操作 替换操作可以同步作 ...
- Pandas之:Pandas高级教程以铁达尼号真实数据为例
Pandas之:Pandas高级教程以铁达尼号真实数据为例 目录 简介 读写文件 DF的选择 选择列数据 选择行数据 同时选择行和列 使用plots作图 使用现有的列创建新的列 进行统计 DF重组 简 ...
- pandas模块(数据分析)------Series
pandas是一个强大的Python数据分析的工具包. pandas是基于NumPy构建的. pandas的主要功能: 具备对其功能的数据结构DataFrame.Series 集成时间序列功能 提供丰 ...
- 5,pandas高级数据处理
1.删除重复元素 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True - keep参数:指定保留哪一重复的行 ...
- tushare+pandas实现财经数据分析
写在前面的话: 这是一个优秀的财经接口包,博主平时工作中也有使用,觉得很好,现在分享一些使用心得给需要的人,tushare并不是一个炒股软件,只是一个提供pandas数据的工具,具体如何使用,因人而异 ...
- Pandas高级教程之:Dataframe的合并
目录 简介 使用concat 使用append 使用merge 使用join 覆盖数据 简介 Pandas提供了很多合并Series和Dataframe的强大的功能,通过这些功能可以方便的进行数据分析 ...
随机推荐
- 一个非常棒的jQuery 评分插件--好东西要分享
现在做网页已经不仅限于实现功能了,更多的是要实现功能的同时追求更加美观的实现.比如页面上让用户评分的功能,你完全可以放5个RdioButton让用户选择分数,也可以用DropDownList来实现,但 ...
- SpringCloud 进阶之Ribbon和Feign(负载均衡)
1. Ribbon 负载均衡 Spring Cloud Ribbon是基于Netflix Ribbon实现的一套客户端,负载均衡的工具; 1.1 Ribbon 配置初步 1.1.1 修改 micros ...
- Json与字符串互相转换
jQuery插件支持的转换方式: $.parseJSON( jsonstr ); //jQuery.parseJSON(jsonstr),可以将json字符串转换成json对象 浏览器 ...
- Python之OS模块函数
函数列表: 1 os.sep:取代操作系统特定的路径分隔符 os.name:指示你正在使用的工作平台.比如对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'. os. ...
- Flask之wtforms源码分析
一.wtforms源码流程 1.实例化流程分析 # 源码流程 1. 执行type的 __call__ 方法,读取字段到静态字段 cls._unbound_fields 中: meta类读取到cls._ ...
- debian flam3 源码
https://packages.debian.org/source/jessie/flam3 Source Package: flam3 (3.0.1-3) Links for flam3 Debi ...
- 2-AMD
诞生背景1.随着前端逻辑越来越多,项目越来越大,开发大型项目就必须分模块开发2.一切都那么完美,在NodeJs实现后,当人们开始热情的打算把这种实现也用于浏览器时,却发现并不适合.NodeJS应用加载 ...
- 手写ArrayList、LinkedList
ArrayList package com.hjp.labs; import org.omg.CORBA.PRIVATE_MEMBER; /* 一.ArrayList的底层是Object类的数组,默认 ...
- OpenStack的架构详解
OpenStack既是一个社区,也是一个项目和一个开源软件,它提供了一个部署云的操作平台或工具集.其宗旨在于,帮助组织运行为虚拟计算或存储服务的云,为公有云.私有云,也为大云.小云提供可扩展的.灵活的 ...
- C++命名规则(转)
如果想要有效的管理一个稍微复杂一点的体系,针对其中事物的一套统一.带层次结构.清晰明了的命名准则就是必不可少而且非常好用的工具. 活跃在生物学.化学.军队.监狱.黑社会.恐怖组织等各个领域内的大量有识 ...