pandas数据处理攻略

首先熟悉numpy随机n维数组的生成方法(只列出常用的函数)：

np.random.random([3, 4])     #生成shape为[3, 4]的随机数组，随机数范围[0.0, 1.0)

np.random.rand(3,4,5)         #生成shape为[3, 4, 5]的随机数组，随机数范围[0.0, 1.0)

np.random.randn(3,4)          #生成shape为[3，4]的随机数组，其中样本符合标准正态分布

pandas两种典型数据结构及创建方式：

Series

In [4]: s = pd.Series([1,3,5,np.nan,6,8])

In [5]: s

Out[5]:

0    1.0

1    3.0

2    5.0

3    NaN

4    6.0

5    8.0

dtype: float64

DataFrame

通过np.random多维数组创建

In [6]: dates = pd.date_range('20130101', periods=6)

In [7]: dates

Out[7]:

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',

               '2013-01-05', '2013-01-06'],

              dtype='datetime64[ns]', freq='D')

In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

In [9]: df

Out[9]:

                   A         B         C         D

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

2013-01-05 -0.424972  0.567020  0.276232 -1.087401

2013-01-06 -0.673690  0.113648 -1.478427  0.524988

通过字典创建

In [10]: df2 = pd.DataFrame({ 'A' : 1.,

                         'B' : pd.Timestamp('20130102'),

                         'C' : pd.Series(1,index=list(range(4)),dtype='float32'),

                         'D' : np.array([3] * 4,dtype='int32'),

                         'E' : pd.Categorical(["test","train","test","train"]),

                         'F' : 'foo' })

In [11]: df2

Out[11]:

     A          B    C  D      E    F

0  1.0 2013-01-02  1.0  3   test  foo

1  1.0 2013-01-02  1.0  3  train  foo

2  1.0 2013-01-02  1.0  3   test  foo

3  1.0 2013-01-02  1.0  3  train  foo

pandas选取数据

df['2']     #一个参数是表示取某列

df[0: 2]    #范围参数表示取某一范围的行!注意与上面区别

df.loc['20130102' : '20130104', ['A', 'B']]    #通过标签名切取数据

df.iloc[3: 5, [0, 2]]     #通过索引值切取数据

df[df[] > 0]   #里面的df[]结合第一二条切取一定范围的数据

df.drop_duplicates(['pop', 'state'])   #去重：去除同时满足两列重复的冗余行

df = data[data['A' == 2]]    #删除所有在列'A'中等于2的行

pandas数据处理攻略的更多相关文章

Moon.Orm3.8技术全攻略
Moon.ORM技术全攻略一.绪论本文主要是针对Moon.ORM的技术的讨论及其使用使用指导.如有其它疑问,请留言.本文主要针对Moon.ORM3.9版本,同时将会对4.0做一个技术预览.本文从 ...
Anaconda使用教程全攻略
Anaconda使用教程全攻略本文转自 https://zhuanlan.zhihu.com/p/32925500 〇.序 Python是一种面向对象的解释型计算机程序设计语言, ...
【C#代码实战】群蚁算法理论与实践全攻略——旅行商等路径优化问题的新方法
若干年前读研的时候,学院有一个教授,专门做群蚁算法的,很厉害,偶尔了解了一点点.感觉也是生物智能的一个体现,和遗传算法.神经网络有异曲同工之妙.只不过当时没有实际需求学习,所以没去研究.最近有一个这样 ...
微软MVP攻略（如何成为MVP？一个SQL Server MVP的经验之谈）
一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 初衷什么是微软MVP? 成为微软MVP的条件? 如何成为微软MVP? (一) 申请时间划分 (二) 前期准备 (三) ...
Windows下LATEX排版论文攻略—CTeX、JabRef使用介绍
Windows下LATEX排版论文攻略—CTeX.JabRef使用介绍一.工具介绍 TeX是一个很好排版工具,在学术界十分流行,特别是数学.物理学和计算机科学界. CTeX是TeX中的一个版本,指的 ...
linux下安装apache与php;Apache+PHP+MySQL配置攻略
1.apache 在如下页面下载apache的for Linux 的源码包 http://www.apache.org/dist/httpd/; 存至/home/xx目录,xx是自建文件 ...
生成 PDF 全攻略【2】在已有PDF上添加内容
项目在变,需求在变,不变的永远是敲击键盘的程序员..... PDF 生成后,有时候需要在PDF上面添加一些其他的内容,比如文字,图片.... 经历几次失败的尝试,终于获取到了正确的代码书写方式. 在此 ...
Java数组技巧攻略
Java数组技巧攻略 0. 声明一个数组(Declare an array) String[] aArray = new String[5]; String[] bArray = {" ...
BZOJ3252: 攻略
Description 题目简述:树版[k取方格数] 众所周知,桂木桂马是攻略之神,开启攻略之神模式后,他可以同时攻略k部游戏. 今天他得到了一款新游戏<XX半岛>,这款游戏有n个场景 ...

随机推荐

jmap dump文件压缩后失效
最近线上出问题,于是用jmap -dump拿到dump文件,再linux压缩后拿到windows下无效,后来又直接拿了一个没有压缩的竟然可以用...坑啊!~
对象 Object
在js 中创建最简单的对象,然后给它添加属性或者方法示例如下: var obj = new Object(); //或者 var obj = {}; obj.name = '张三'; obj.fun ...
PHP和Nginx 文件上传大小限制问题解决方法
对于nginx+php的一些网站,上传文件大小会受到多个方面的限制,一个是nginx本身的限制,限制了客户端上传文件的大小,一个是php.ini文件中默认了多个地方的设置. 所以为了解决上传文件大小限 ...
zookeeper windows7下集群搭建
模拟分布式环境!!! 搞了好几天,各种错误!!终于成功了. 环境: windows7 /centos/xsheel 安装了三个虚拟机... 1.下载zookeeper http://archi ...
easyUi弹出window窗口传值与调用父页面的方法,子页面给父页面赋值
 <!DOCTYPE html PUBLIC "-/W3C/DTD HTML 4.01 Transitional/EN" "ht ...
深入Spring Boot：怎样排查expected single matching bean but found 2的异常
写在前面这个demo来说明怎么排查一个常见的spring expected single matching bean but found 2的异常. https://github.com/hengy ...
DOS批量拷贝本地目录到远程主机（定时执行）
echo !USER! net use \\!REMOTE_ADDR!\IPC$ /u:!USER! copy D:\batch\ip.bat \\!REMOTE_ADDR!\Admin$\ / ...
Pandas数据存取
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA']) Pandas数据存取 Pandas可以存取多种介质类型数据, ...
Spark之机器学习(Python版)(一)——聚类
https://www.cnblogs.com/charlotte77/p/5437611.html
idea 这样会快点
最近使用IDEA来开发JAVA应用,对IDEA的界面很有爱,但是缺受不了它的运行速度.每次运行都要编译,所以就有了这边文章总感觉IDEA的编译速度比eclipse慢,eclipse每次保存都自动 ...

pandas数据处理攻略

pandas数据处理攻略的更多相关文章

随机推荐

热门专题