读书笔记一、pandas数据结构介绍

pandas数据结构介绍

主要两种数据结构：Series和DataFrame.

Series

Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）+数据标签（即索引）组成。

#直接传入一组数据

from pandas import Series,DataFrame

obj=Series([4,2,3])

obj

#Series的values和index属性获取数组表示形式和索引对象

obj.values

obj.index

Series字符串的表现形式：索引在左，值在右边。

不为数据指定索引，自动创建一个0~N-1的整数型索引。

Series的index和values的元素之间虽然存在对应关系，但是与字典的映射不同。index和values实际上仍为互相独立的ndarray数组.

#创建一个对各个数据点进行标记索引的Series

obj2=Series([4,2,3],index=['a','b','c'])

obj2

obj2.index

#通过索引的方式选取Series中的单个或者一组值

obj2['a']

obj2[['a','c','b']]

obj2['d']=6

#对数组进行运算保留索引和值之间的关系

obj2

obj2+obj2

obj2[obj2>2]

obj2*2

#将Series看成一个定长的有序字典，它是索引值到数据值的一个映射

'b' in obj2

'e' in obj2

#通过字典来创建Series

#只传入一个字典，则结果Series中的索引就是原字典中的键。

sdata={'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}

obj3=Series(sdata)

obj3

states=['California','Ohio','Oregon','Texas']

obj4=Series(sdata,index=states)

obj4

sdata中和states索引相匹配的三个值会被找出来并放到相应的位置上，找不到“California"对应的sdata值，其结果就为NaN。在pandas中，NaN用于表示缺失或NA值。

#pandas的isnull函数、notnull函数用于检测缺失数据

pd.isnull(obj4)

pd.notnull(obj4)

#Series也有类似的实例方法

obj4.isnull()

Series最重要的一个功能：在算术运算中会自动对齐不同索引的数据。（换句话说就是Series在进行算术运算时，index会自动对齐）

obj3

obj4

obj3+obj4

#会发现'California'和'Utah'索引对应的数据值是NaN

#name属性

#Series本身以及其索引都有name属性

obj4.name='population'

obj4.index.name='state'

obj4

#通过赋值的方式就地修改Series的索引

obj.index=['Bob','Steve','Jeff']

obj

DataFrame

DataFrame是一个表格型数据结构，含有一组有序的列，每列可以是不同的值的类型。基本上可以把DataFrame看成一个共享同一个index的Series的集合。

DataFrame的构造方法与Series类似，只不过同时接受一条一维数据源，每一条都会成为单独的一列。

创建DataFrame

最常用的是直接传入一个由等长列表或NumPy数组组成的字典。

data={'state':['Ohino','Ohino','Ohino','Nevada','Nevada'],

     'year':[2000,2001,2002,2001,2002],

     'pop':[1.5,1.7,3.6,2.4,2.9]}

df=DataFrame(data)

df

结果会自动加上索引，且全部列会被有序排列。

虽然参数data看起来是个字典，但是字典的键并非充当DataFrame的index的角色，而是Series的“name”属性。

#构造较为完整的DataFrame的参数：

DataFrame(data=None,index=None,columns=None)

#columns即“name”

如果指定了列序列，则DataFrame的列会按照指定顺序进行排列：

DataFrame(data,columns=['year','state','pop'])

#如果传入的列找不到，就会产生NA值

df=DataFrame(data,index=['one','two','three','four','fiva'],

             columns=['year','state','pop','debt'])

缺失值由NaN补上。

df.index

df.columns

type(df['debt'])

DataFrame 面向行和面向列的操作基本上是平衡的，任意抽出一列都是Series。

将DataFrame的列获取为一个Series

#两者等价

df['state']

df.state

注意，返回的Series拥有原DataFrame 相同的索引，且其name属性也已经被相应地设置好。

获取行

行也可以使用位置或名称的方式进行获取，使用索引字段ix

df.ix['three']

列可以通过赋值的方式进行修改。

#对空列进行赋值

df['debt']=16.5

df['debt']=np.arange(5.)

将列表或数组进行赋值给某个列时，其长度必须跟DataFrame的长度相匹配。如果赋值的时一个Series，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失值：

val=Series([-1.2,-1.5,-1.7],index=['two','four','fiva'])

df['debt']=val

df

为不存在的列赋值会创建出一个新列。关键字del用于删除列：

df['eastern']=df.state=='Ohino'

del df['eastern']

df.columns

另一种常见的数据形式是嵌套字典,将其传给DataFrame，被解释为：外层字典的键作为列，内层字典的键作为索引（也可以显示指定索引）

pop={'Nevada':{2001:2.4,2002:2.9},

     'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame=pd.DataFrame(pop)

#对frame进行转置，内层字典的键会被合并、排序以形成最终的索引

frame.T

#显示指定索引

DataFrame(pop,index=[2001,2002,2003])

#由Series组成的字典

pdata={'Ohio':frame3['Ohio'][:-1],

       'Nevada':frame3['Nevada'][:2]}

#设置DataFrame的index和columns的name属性，也会显示出来

frame3.index.name='year'

frame3.columns.name='state'

和Series一样，values属性也会以二维ndarray的形式分返回DataFrame中的数据：

frame3.values

读书笔记一、pandas数据结构介绍的更多相关文章

[redis读书笔记] 第一部分数据结构与对象简单动态字符串
本读书笔记主要来自于<<redis设计与实现>> -- 黄键宏(huangz) redis主要设计了字符串,链表,字典,跳跃表,整数集合,压缩列表来做为基本的数据结构,实现键值 ...
深入探索Android热修复技术原理读书笔记 —— 热修复技术介绍
1.1 什么是热修复对于广大的移动开发者而言,发版更新是最为寻常不过的事了.然而,如果你发现刚发出去的包有紧急的BUG需要修复,那你就必须需要经过下面这样的流程: 这就是传统的更新流程,步骤十分繁 ...
[REDIS 读书笔记]第一部分数据结构与对象跳跃表
下面是跳跃表的基本原理,REDIS的实现大致相同跳跃表的一个特点是,插入NODE是通过随机的方式来决定level的,比较奇特下面是skipList的一个介绍,转载来的,源地址:http://ken ...
.Net中的AOP读书笔记系列之AOP介绍
返回<.Net中的AOP>系列学习总目录本篇目录 AOP是什么? Hello,World! 小结本系列的源码本人已托管于Coding上:点击查看,想要注册Coding的可以点击该连接注 ...
[redis读书笔记] 第一部分数据结构与对象对象类型
- 从前面redis的基本数据结构来看,可以看出,redis都是在基本结构(string)的基础上,封装了一层统计的结构(SDS),这样让对基本结构的访问能够更快更准确,提高可控制度. - redis ...
读书笔记：《数据结构与算法分析Java语言描述》
目录第 3 章表.栈和队列 3.2 表 ADT 3.2.1 表的简单数组实现 3.2.2 简单链表 3.3 Java Collections API 中的表 3.3.1 Collection 接口 ...
R语言实战读书笔记(一)R语言介绍
1.3.3 工作空间 getwd():显示当前工作目录 setwd():设置当前工作目录 ls():列出当前工作空间中的对象 rm():删除对象 1.3.4 输入与输出 source():执行脚本
深入理解linux网络技术内幕读书笔记(二)--关键数据结构
Table of Contents 1 套接字缓冲区: sk_buff结构 1.1 网络选项及内核结构 1.2 结构说明及操作函数 2 net_device结构 2.1 MTU 2.2 结构说明及操作 ...
[redis读书笔记] 第一部分数据结构与对象对象特性
一类型检查和多态类型检查,即有的命令是只针对特定类型的,如果类型不对,就会报错,此处的类型,是指的键类型,即robj.type.下面为有类型检查的命令: 对于某一种类型,redis下底层的实 ...

随机推荐

Anacond的介绍
Anacond的介绍 Anaconda指的是一个开源的Python发行版本,其包含了conda.Python等180多个科学包及其依赖项. 因为包含了大量的科学包,Anaconda 的下载文件比较大( ...
【HDOJ6662】Acesrc and Travel（树形DP，换根）
题意:有一棵n个点的树,每个点上有两个值a[i],b[i] A和B在树上行动,A到达i能得到a[i]的偷税值,B能得到b[i],每次行动只能选择相邻的点作为目标两个人都想最大化自己的偷税值和对方的差 ...
C#中如何通过点击按钮切换窗口
实现方法如下: 1.设计首先在左侧放一个panel,右侧放一个panel(命名为pnlMain),调整大小,在左侧panel里放置两个按钮(多个按钮同理) 2.在按钮里面写方法在[命名规范检查] ...
16/8/23-jQuery子调用匿名函数
通过创建一个自调用匿名函数,创建一个特殊的函数作用域,该作用域中的代码不会和已有的同名函数.方法和变量以及第三方库冲突. 自调用匿名函数写法方法一: (function(){ //... })(); ...
AtCoder ABC 140D Face Produces Unhappiness
题目链接:https://atcoder.jp/contests/abc140/tasks/abc140_d 题目大意有一对 N 个人, 用字符串 S 表示, S[i] 如果等于 'L' 说明这个人 ...
python操作mysql之增删改查
[insert] import MySQLdb conn = MySQLdb.connect(","08day5" ) cur = conn.cursor() #把数据放 ...
servlet--禁用浏览器缓存
禁用浏览器缓存:Cache-Control.pragma.expires response.setHeader("Cache-Control", "no-cache&qu ...
sed删除注释行和空行
典型需求: 删除nginx.conf文件中注释行和空行 sed -i '/^#/d;/^$/d' nginx.conf 删除一个或多个空格加 # 号的行 sed -i '/[:blank:]*#/d' ...
Mysql 在 select 查询时追加(添加)一个字段并指定值
在特定时候,在 mysql 的查询结果中我们需要追加一个字段来实现某些特定的功能,这时我们可以用到以下语法来实现值 as 字段比如我们需要给这个查询结果追加一个 xx 字段并赋值为 null ,可以 ...
Python入门习题8.羊车门问题
例8. 羊车门问题描述:有3扇关闭的门,一扇后停着汽车,另外两扇门后是山羊,主持人知道每扇门后是什么.参赛者首先选择一扇门.在开启它之前,主持人会从另外两扇门中打开一扇门,露出门后的山羊.此时,允许参 ...

读书笔记一、pandas数据结构介绍

读书笔记一、pandas数据结构介绍的更多相关文章

随机推荐

热门专题