Pandas

安装

anaconda 安装:
- conda list pandas 查看是否已经安装
- conda install pandas
- conda update pandas
pip 安装
- pip install pandas
apt 安装
- sudo apt-get install python-pandas

测试是否安装成功

nosetests pandases

不成功会进行提醒，可以重新安装或者更新

pandas数据结构

Series
DataFrame

Series

1 声明series 对象

s = pd.Series([12,3,9,1])

s

s = pd.Series([12,52,4,2],index=['a','b','c','d'])

s.values

s.index

2 用numpy数组或其他对象定义

arr=np.array([1,2,3])

s=pd.Series(arr)

# 注意这里的s对象中的元素是对arr的引用，如果改变arr的值，s的值也会改变

# 用作字典

dic={'red':123,'blue',122,'green':129}

s.Series(dic)

3 筛选元素

s[s>8] # 对values的比较

s/2

np.log(s)

4 其他函数

s.unique() # 只出现一次

s.value_counts() # 统计数量

# 做筛选

s.isin([0,3])

s[s.isin([0,3])]

# 空和不空

s.isnull()

s.notnull()

DataFrame

和excel类似

创建Frame

data={'title1':[1,2,3],'title2':[5,4,3]}

frame=pd.DataFrame(data)

frame=pd.DataFrame(data,columns=['title1'])

# index 会自动生成索引也可以通过index属性进行更改

pd.DataFrame(data,index=['one','two','three']) # 个数需要匹配

选取元素

frame.columns

frame.index

frame.values

frame['title1'] or frame.title1

# 行

frame.ix[2]

frame.ix[[0,1]]

frame[0:2]

frame['title1'][2]

赋值

frame.index.name='id'

frame.columns.name='cols'

frame['title1'][3]= 3

ser=pd.Series(np.arange(5))

frame['new']=ser

其他

# 所属关系

frame.isin([1.0,'a'])

# 删除一列

del frame['new']

# 筛选

frame[frame <= 2]

# 转置

frame.T

Index 对象

ser.idxmin()

ser.idxmax()

ser.index.is_unique()

# 执行更换索引

ser.reindex(['a','b','c'])

# 删除

ser.drop('0')

算数运算方法

frame1.add(frame2)

sub(), div(), mul()

DataFrame 与 Series的运算

frame=pd.DataFrame(np.arange(16).reshape(4,4),index=['red','blue','gren','yellow'],columns=['ball','pen','paper','socket'])

ser=pd.Series(np.arange(4),index=['ball','pen','paper','socket'])

frame - ser

Pandas 库函数

按行或列执行

f=lambda x:x.max() - x.min()

def f(x):

return x.max()-x.min()

frame.apply(f,axis=1) # 处理行

函数

sum()

mean()

describe() # 计算多个统计量

# 排序函数

sort_index([ascending=False][axis=1])

对数据结构中的元素排序

# series

ser.order()

# DataFrame

frame.sort_index(by='pen')

frame.sort_index(by=['pen','pencil'])

位次排序

ser.rank()
ser.rank(method='first')
ser.rank(ascending=False)

NaN

过滤NaN

# series obj

ser.dropna()

or

ser[ser.notnull()]

# DataFrame obj

frame.dropna() # 整行都被删除

frame.dropna(how='all') # 删除全部Nan的列

为NaN填充

frame.fillna(0)

frame.filena('ball':1,'mug':2)

等级索引&分级

>>> mser=pd.Series(np.random.rand(6),[['a','a','b','b','c','c'],[2,3,6,4,5,8]])

>>> mser

a  2    0.936455

   3    0.431867

b  6    0.996895

   4    0.584551

c  5    0.883911

   8    0.049483

dtype: float64

# 选取

mser['a'][2]=0.936455

DataFrame 与　Series转化

DataFrame -> Series : stack()

frame.stack()

Series -> DataFrame : unstack()

mser.unstack()

交换层级:

frame.colums.names=['a','b']

frame.index.name=['c','d']

frame.swaplevel('c','d')

frame.sortlevel('c')# 只按照一个层级进行排序

# 按层级统计数据

frame.sum(level='c')

frame.sum(level='c',axis=1)

Pandas 数据读写

读

read_csv()
read_excel()
read_sql()
read_json()
read_html()
read_clipboard()

写

to_csv()
to_excel()
to_sql()
to_json()
to_html()
to_clipboard()

CSV 文件

read_csv()

read_table()

to_csv()

pd.csvframe=read_csv('data.csv')

pd.read_table('data.csv',sep=',')

# names 指定表头

read_csv('data.csv',names=['id'])

# header 添加表头

TxT RegExp 解析

在read_table中使用sep中的正则表达式

.	单个字符
\d	数字
\D	非数字
\s	空白字符
\S	非空白字符
\n	换行符
\t	制表符

>>> pd.read_table('tt.txt',sep='\s*')

   white  red  blue  green

0      1    5     2      3

1      2    7     8      5

2      3    3     6      7

>>> pd.read_table('tt.txt',sep='\D*',header=None)

 # skiprows=[1,3,6]排除1,3,6 行

 # skiprows=5 排除前五行

部分数据读取(常用用法)

从 skiprows 开始读，读多少 nrows行

read_csv('data.csv',skiprows=[2],nrows=3,header=None)

解析文本：

out=pd.Series()

i=0

# chunksize 一次处理数据行数

pieces = pd.read_csv('tips.csv',chunksize=3)

for piece in pieces:

	out.set_value(i,piece['size'].sum())

	i=i+1

往CSV中写数据

frame.to_csv('tt.csv',index=False,header=False)

替换，，中内容

frame.to_csv('new.csv',na_rep='NaN')

HTML

读取HTML

read_html()

to_html()

安装html5lib库

conda install html5lib

tf=pd.DataFrame(np.arange(4).reshape(2,2))

print(tf.to_html()) # 自动转化html

更加复杂的例子：(生成)

frame=pd.DataFrame(np.random.random((4,4)),index=['white','black','red','blue'],columns=['up','down','right','left'])

s=['<html>']

s.append('<head><title>DataFrame</title></head>')

s.append('<body>')

s.append(frame.to_html())

s.append('</body></html>')

html=''.join(s)

html_file=open('myFrame.html','w')

html_file.write(html)

html_file.close()

打开HTML文件：

>>> web_frame=pd.read_html('myFrame.html')

>>> web_frame

[  Unnamed: 0        up      down     right      left

0      white  0.654247  0.917280  0.599515  0.401334

1      black  0.647599  0.555069  0.612985  0.279210

2        red  0.204044  0.719828  0.950169  0.749252

3       blue  0.089194  0.498193  0.568361  0.427534]

局限于读表格

从XML读取数据

lxml 库文件

from lxml import objectify

xml=objectify.parse('test.xml')

root=xml.getroot()

读写excel文件

pd.read_excel('data.xlsx')

pd.read_excel('data.xlsx','sheet2')

Pandas 数据分析基础的更多相关文章

python中pandas数据分析基础3（数据索引、数据分组与分组运算、数据离散化、数据合并）
//2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...
pyhton pandas数据分析基础入门（一文看懂pandas）
//2019.07.17 pyhton中pandas数据分析基础入门(一文看懂pandas), 教你迅速入门pandas数据分析模块(后面附有入门完整代码,可以直接拷贝运行,含有详细的代码注释,可以轻 ...
python pandas数据分析基础入门2——（数据格式转换、排序、统计、数据透视表）
//2019.07.18pyhton中pandas数据分析学习——第二部分2.1 数据格式转换1.查看与转换表格某一列的数据格式:(1)查看数据类型:某一列的数据格式:df["列属性名称&q ...
利用Python进行数据分析基础系列随笔汇总
一共 15 篇随笔,主要是为了记录数据分析过程中的一些小 demo,分享给其他需要的网友,更为了方便以后自己查看,15 篇随笔,每篇内容基本都是以一句说明加一段代码的方式, 保持简单小巧,看起来也清晰 ...
动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题
动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3 ...
pyhton中pandas数据分析模块快速入门（非常容易懂）
//2019.07.16python中pandas模块应用1.pandas是python进行数据分析的数据分析库,它提供了对于大量数据进行分析的函数库和各种方法,它的官网是http://pandas. ...
Numpy使用大全（python矩阵相关运算大全)-Python数据分析基础2
//2019.07.10python数据分析基础——numpy(数据结构基础) import numpy as np: 1.python数据分析主要的功能实现模块包含以下六个方面:(1)numpy—— ...
Python数据分析基础教程
Python数据分析基础教程(第2版)(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1_FsReTBCaL_PzKhM0o6l0g 提取码:nkhw 复制这段内容后 ...
Python数据分析基础PDF
Python数据分析基础(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1ImzS7Sy8TLlTshxcB8RhdA 提取码:6xeu 复制这段内容后打开百度网盘手 ...

随机推荐

Python笔记-进程Process、线程Thread、上锁
1.对于操作系统来说,一个任务就是一个进程(Process).比如打开一个浏览器就是启动一个浏览器进程,打开一个记事本就启动了一个记事本进程. 2.在一个进程内部,要同时干多件事,就需要同时运行多个“ ...
Flowers---hdu4325（区间处理离散化）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4325 题意:有n种花,每种花都有自己的开花时间段从S到E,有m个查询,每个查询都是一个时间点,求这一时 ...
PCI 设备详解一
2016-10-09 其实之前是简单学习过PCI设备的相关知识,但是总感觉自己的理解很函数,很多东西说不清楚,正好今天接着写这篇文章自己重新梳理一下,文章想要分为三部分,首先介绍PCI设备硬件相关的 ...
Swift学习——Swift基础具体解释（一）
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/zhenyu5211314/article/details/34807025 注:由于基础部分在Swi ...
Java基础—注解（转载）
概念注解(Annotation),也叫元数据.一种代码级别的说明.它是JDK1.5及以后版本引入的一个特性,与类.接口.枚举是在同一个层次.它可以声明在包.类.字段.方法.局部变量.方法参数等的前面 ...
sql 区分大小写
sql server默认是不区分大小写的. 要查看sqlserver数据库是否区分大小写,我么可以查看系统存储过程sys.sp_server_info exec sys.sp_server_info ...
vs2010 net4.0 c# 操作 sqlite
1.百科介绍 SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它包含在一个相对小的C库中.它是D.RichardHipp建立的公有领域项目.它的设计目标是嵌入式的,而且目前已经 ...
PKU 1204 Word Puzzles(AC自动机)
题目大意:原题链接给定一个字符串矩阵和待查找的单词,可以朝8个不同的方向查找,输出待查找单词第一个字母在矩阵中出现的位置和该单词被查到的方向. A~H代表8个不同的方向,A代表正北方向,其他依次以4 ...
最值得阅读学习的 10 个 C 语言开源项目代码
1. Webbench Webbench是一个在linux下使用的非常简单的网站压测工具.它使用fork()模拟多个客户端同时访问我们设定的URL,测试网站在压力下工作的性能,最多可以模拟3万个并发连 ...
splay伸展树模板
普通版本: struct SplayTree { ; ], key[maxn], val[maxn], sz[maxn], lz[maxn], fa[maxn]; , ) { ch[x][]=ch ...

Pandas 数据分析基础

Pandas

安装

测试是否安装成功

pandas数据结构

Series

1 声明series 对象

2 用numpy数组或其他对象定义

3 筛选元素

4 其他函数

DataFrame

创建Frame

选取元素

赋值

其他

Index 对象

算数运算方法

DataFrame 与 Series的运算

Pandas 库函数

按行或列执行

函数

对数据结构中的元素排序

位次排序

相关性和协方差

NaN

过滤NaN

为NaN填充

等级索引&分级

DataFrame 与 Series转化

Pandas 数据读写

读

写

CSV 文件

TxT RegExp 解析

部分数据读取(常用用法)

往CSV中写数据

HTML

读取HTML

从XML读取数据

读写excel文件

Pandas 数据分析基础的更多相关文章

随机推荐

热门专题

DataFrame 与　Series转化