深入pandas 数据处理

三个阶段

数据准备
数据转化
数据聚合

数据准备

加载
组装
- 合并 - pandas.merge()
- 拼接 - pandas.concat()
- 组合 - pandas.DataFrame.combine_first()
变形
删除

合并

example1:

import numpy as np

import pandas as pd

frame1 = pd.DataFrame({'id':['ball','pencil','pen','mug','ashtray'],'price':[12.33,11.44,33.21,13.23,33.62]})

frame2 = pd.DataFrame({'id':['pencil','ball','pencil','pen'],'color':['white','red','red','black']})

pd.merge(frame1,frame2)

有必要定义合并操作的标准用 on 来指定

example2:

frame2.columns=['brand2','id2']

pd.merge(frame1,frame2,on='brand') # 需要重新明明

pd.merge(frame1,frame2,right_on='brand', left_on='sid')

拼接

concatenation

numpy 的 concatenate()函数就是做这种拼接操作

array1=np.arange(9).reshape((3,3))

array2=np.arange(9).reshape((3,3))+6

np=concatenate([array1,array2],axis=1)# axis=1 从行拼接 axis=0 从列拼接

pandas的concat()函数可以做拼接操作

ser1=pd.concat([ser1,ser2])

# axis=1 从行拼接 axis=0 从列拼接

# join='inner' or 'outer'

组合

Series对象： combine_first()

组合的同时还可以对齐数据

ser1=pd.Series(np.random.rand(5),index=[1,2,3,4,5])

ser2=pd.Series(np.random.rand(4),index=[2,4,5,6])

ser1.combine_first(ser2)

轴向旋转

意思是需要按照行重新调整列或者反过来

两个操作：

stacking 入栈，把列转化为行
unstacking 出站，把行转化为列

frame1=pd.DataFrame(np.arange(9).reshape(3,3),index=['w','b','r'], columns=['ball','pen','pencil'])

frame1.stack() # 得到一个Series对象

ser.unstack() # 得到一个DataFrame对象

# 长格式向宽格式转化： DateFrame.pivot

wideframe=longframe.pivot('color','item')

删除

删除一列

del frame['ball']

删除多余的行

frame.drop('white')

数据转化

删除重复数据

DataFrame 中duplicated()函数可以用来检测重复的行，返回bool型Series对象

dframe.duplicated()

# 得到过滤结果

dframe[dframe.duplicated()]

# 讲重复的行删除

dframe.drop_duplicates<>

映射

dict 映射关系比较好

replace() 替换元素

map() 新建一列

rename() 替换索引

### 替换

newcolor={'rosso':'red','verde':'green'}

frame.replace(newcolors)

ser.replace(np.nan, 0)

### 添加元素

price={'ball':5.56,'mug':4.3}

frame['price']=frame['item'].map(price)

### 重命名轴索引

reindex={o:'first',2:'second'}

frame.replace(reindex)

frame.replace(index={1:'first'}, columns={'item':'object'})

# inplace 参数： 是否改变调用函数对象本身

离散化

result=[12,34,67,55,28,90.99,12,3,56,74,44,87,23,49,89,87]

bins=[0,25,50,75,100]

# 对result用cut函数

cat=pd.cut(result,bins)

cat >>> type(cat)

<class 'pandas.core.categorical.Categorical'>

# 返回的是类别对象

cat.levels

cat.labels

# 类别中计数

pd.value_counts(cat)

# cut 函数中的labels标签 labels=['a','b','c']

异常值的检测和过滤

randframe=pd.DataFrame(np.random.randn(1000,3))

descibe()函数查看每一列的描述性统计量

假设讲比标准差大三倍的元素是为异常值，用std()函数可以求出每一列的标准差

randframe.std()

对DataFrame对象进行过滤

randframe[(np.abs(randframe)>(3*randframe.std())).any(1)]

排序

nframe=pd.DataFrame(np.arange(25).reshape(5,5))

# permutation(5)创建一个随机顺序整数

new_order=np.random.permutation(5) # 0-4

nframe.take(new_order)

随机取样

np.random.randint()函数

sample=np.random.randint(0,len(nframe),size=3)

字符串处理

内置字符串处理方法

split() 函数切割

test='12312,bob'

test.split(',')

# ['12312', 'bob']

strip()函数去空白

tokens=[s.strip() for s in test.split(',')]

join() 拼接

>>> strings=['1','2','3','45','5']

','.join(strings)

in index() find() 查找操作

test.index('bottom')

test.find('bottom')

'bottom' in test

count() 出现次数

test.count('bottom')

replace()

test.replace('A','a')

正则表达式

import re

几个类别:

模式匹配
替换
切分

re.split()

text="This is        an \t odd \n text!"

re.split('\s+',text)

# 内部过程

regex=re.compile('\s+')

regex.split(text)

re.findall()

# 以A开头不区分大小写

text='A! This is my address: 16 Boltom Avenue, Boston'

re.findall('[A,a]\w+',text)

数据聚合

GroupBy

SPLIT-APPLY-COMBINE 三个阶段

分组
用函数处理
合并

# 实际上只使用了GroupBy函数

 frame=pd.DataFrame({'color':['white','red','green','red','green'],'obj':['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.3,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})

  >>> frame

   color      obj  price1  price2

0  white      pen    5.56    4.75

1    red   pencil    4.20    4.12

2  green   pencil    1.30    1.60

3    red  ashtray    0.56    0.75

4  green      pen    2.75    3.15

# 想要根据color组，计算price1的均值

group=frame['price1'].groupby(frame['color'])

# 得到一个group对象

group.groups # 查看分组情况

group.mean() # 查看均值

group.sum() # 查看分组总和

等级分组

ggroup=frame['price1'].groupby([frame['color'],frame['obj']])

frame[['price1','price2']].groupby(frame['color']).mean()

组迭代

for name, group in frame.groupby('color'):

	print(name)

	print(group)

分组函数

group=frame.groupby('color')

group['price1'].quantile(0.6) # 直接计算分位数

# 自定义聚合函数

def range(series):

	return series.max()-series.min()

group['price1'].agg(range)

group.agg(range)

Pandas 高级应用数据分析的更多相关文章

数据分析06 /pandas高级操作相关案例：人口案例分析、2012美国大选献金项目数据分析
数据分析06 /pandas高级操作相关案例:人口案例分析.2012美国大选献金项目数据分析目录数据分析06 /pandas高级操作相关案例:人口案例分析.2012美国大选献金项目数据分析 1. ...
pandas小记：pandas高级功能
http://blog.csdn.net/pipisorry/article/details/53486777 pandas高级功能:面板数据.字符串方法.分类.可视化. 面板数据 {pandas数据 ...
Pandas高级教程之:GroupBy用法
Pandas高级教程之:GroupBy用法目录简介分割数据多index get_group dropna groups属性 index的层级 group的遍历聚合操作通用聚合方法同时使用 ...
pandas高级操作
pandas高级操作 import numpy as np import pandas as pd from pandas import DataFrame,Series 替换操作替换操作可以同步作 ...
Pandas之:Pandas高级教程以铁达尼号真实数据为例
Pandas之:Pandas高级教程以铁达尼号真实数据为例目录简介读写文件 DF的选择选择列数据选择行数据同时选择行和列使用plots作图使用现有的列创建新的列进行统计 DF重组简 ...
pandas模块（数据分析）------Series
pandas是一个强大的Python数据分析的工具包. pandas是基于NumPy构建的. pandas的主要功能: 具备对其功能的数据结构DataFrame.Series 集成时间序列功能提供丰 ...
5，pandas高级数据处理
1.删除重复元素使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True - keep参数:指定保留哪一重复的行 ...
tushare+pandas实现财经数据分析
写在前面的话: 这是一个优秀的财经接口包,博主平时工作中也有使用,觉得很好,现在分享一些使用心得给需要的人,tushare并不是一个炒股软件,只是一个提供pandas数据的工具,具体如何使用,因人而异 ...
Pandas高级教程之:Dataframe的合并
目录简介使用concat 使用append 使用merge 使用join 覆盖数据简介 Pandas提供了很多合并Series和Dataframe的强大的功能,通过这些功能可以方便的进行数据分析 ...

随机推荐

PXE,ipmi,bare metal
IPMI(Intelligent Platform Management Interface)是一个智能平台管理接口. 用户可以利用IPMI 监视服务器等设备的物理特征,如各部件的温度.电压.风扇工作 ...
vue下给title配置图标.ico
在根目录下放入要作为浏览网站时看到的网页title里的图标.如 32*32 后缀为.ico的图然后再项目中build文件夹中的,webpack.dev.conf.js文件加入一句代码,加入完重启即可 ...
python基础-第十二篇-12.1jQuery基础与实例
一.查找元素 1.选择器基本选择器 $("*") $("#id") $(".class") $("element") ...
【npm start 启动失败】ubuntu 将node和npm同时更新到最新的稳定版本
https://blog.csdn.net/u010277553/article/details/80938829 npm start 启动失败,报错如下错误提示 make sure you hav ...
Guess Your Way Out! II---cf 558D （区间覆盖，c++STL map 的使用）
题目链接:http://codeforces.com/contest/558/problem/D 题意就是有一个二叉树高度为 h ,人站在根节点上,现在要走出去,出口在叶子节点上,有 q 条信息,每条 ...
用Recover来实现更健壮的go程序
缘起:线上的go service 挂了,无法启动. 原因:采用的第三方库有个bug, 在go携程里面执行task的时候会产生out of range 的panic, 而我又把任务队列每次加载的时候重做 ...
同步机制及windows同步函数的使用
最近面试的许多公司都询问关于多线程的问题,但是问的深度一般不会很难,仅仅问相关的同步问题以及对应的API函数,下面是windows下几个常用的同步方法,对于应付帮助或者一般的开发都非常有用目录一临 ...
redis哨兵集群、docker入门
redis-sentinel主从复制高可用 Redis-Sentinel Redis-Sentinel是redis官方推荐的高可用性解决方案,当用redis作master-slave的高可用时,如果m ...
Java-多线程基本
Java-多线程基本一相关的概念进程:是一个正在执行中的程序每个进程都有一个执行的顺序,该顺序是一个执行路径,或者叫一个控制单元线程:就是进程中的一个独立的控制单元,线程在控制着进程的执行 ...
学习完成CSS布局(左右浮动)
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/stri ...

Pandas 高级应用 数据分析