Pandas之索引

Pandas的标签处理需要分成多种情况来处理,Series和DataFrame根据标签索引数据的操作方法是不同的,单列索引和双列索引的操作方法也是不同的。

单列索引

In [2]: import pandas as pd

In [3]: import numpy as np

In [4]: df = pd.DataFrame(np.ones((2, 4)), index=list("AB"), columns=list("abcd"))

In [5]: df.iloc[0,0]=100

In [6]: df

Out[6]:

       a    b    c    d

A  100.0  1.0  1.0  1.0

B    1.0  1.0  1.0  1.0

reindex所插入的标签如果是原来的标签中没有的，就会将该行的值全部置为NaN

In [7]: df.reindex(["A", "f"])

Out[7]: ssss

       a    b    c    d

A  100.0  1.0  1.0  1.0

f    NaN  NaN  NaN  NaN

In [8]: df

Out[8]:

       a    b    c    d

A  100.0  1.0  1.0  1.0

B    1.0  1.0  1.0  1.0

使用index修改标签

In [9]: df.index = ["a", "b"]

In [10]: df

Out[10]:

       a    b    c    d

a  100.0  1.0  1.0  1.0

b    1.0  1.0  1.0  1.0

使用set_index将某一列变为标签

In [11]: df.set_index("a")

Out[11]:

         b    c    d

a

100.0  1.0  1.0  1.0

1.0    1.0  1.0  1.0

In [12]: df

Out[12]:

       a    b    c    d

a  100.0  1.0  1.0  1.0

b    1.0  1.0  1.0  1.0

# 使用drop参数控制将某一列作为索引后是否删除原数据

In [13]: df.set_index("a", drop=False)

Out[13]:

           a    b    c    d

a

100.0  100.0  1.0  1.0  1.0

1.0      1.0  1.0  1.0  1.0

# 使用unique函数可以去除重复值

In [14]: df.set_index("b", drop=False).index.unique()

Out[14]: Float64Index([1.0], dtype='float64', name='b')

In [15]: df.set_index("b", drop=False).index

Out[15]: Float64Index([1.0, 1.0], dtype='float64', name='b')

In [16]: len(df.set_index("b", drop=False).index.unique())

Out[16]: 1

双列索引

In [17]: df.set_index(["a","b"])

Out[17]:

             c    d

a     b

100.0 1.0  1.0  1.0

1.0   1.0  1.0  1.0

# levels这个列表中含有两个列表,分别是双列索引的每一列

In [18]: df.set_index(["a","b"]).index

Out[18]:

MultiIndex(levels=[[1.0, 100.0], [1.0]],

           labels=[[1, 0], [0, 0]],

           names=['a', 'b'])

In [19]: a = pd.DataFrame({'a': range(7),'b': range(7, 0, -1),'c': ['one','one','one','two','two','two', 'two'],'d': list("hjklmno")})

In [20]: a

Out[20]:

   a  b    c  d

0  0  7  one  h

1  1  6  one  j

2  2  5  one  k

3  3  4  two  l

4  4  3  two  m

5  5  2  two  n

6  6  1  two  o

In [21]: b = a.set_index(["c","d"])

In [22]: b

Out[22]:

       a  b

c   d

one h  0  7

    j  1  6

    k  2  5

two l  3  4

    m  4  3

    n  5  2

    o  6  1

In [23]: c = b["a"]

In [24]: c

Out[24]:

c    d

one  h    0

     j    1

     k    2

two  l    3

     m    4

     n    5

     o    6

Name: a, dtype: int64

双列索引取值

In [25]: c["two"]["l"]

Out[25]: 3

In [26]: c["one"]

Out[26]:

d

h    0

j    1

k    2

Name: a, dtype: int64

In [27]: d = a.set_index(["d","c"])

In [28]: d = d["a"]

In [43]: d

Out[43]:

d  c

h  one    0

j  one    1

k  one    2

l  two    3

m  two    4

n  two    5

o  two    6

Name: a, dtype: int64

# 对于索引数少的列在后的情况,如果直接取会发生错误

In [44]: d["one"]

---------------------------------------------------------------------------

KeyError                                  Traceback (most recent call

...

KeyError: 'one'

swaplevel()函数进行标签列换位

In [45]: d.swaplevel()

Out[45]:

c    d

 one  h    0

     j    1

     k    2

 two  l    3

     m    4

     n    5

     o    6

Name: a, dtype: int64

In [46]: d = d.swaplevel()

In [47]: d["one"]

Out[47]:

d

h    0

j    1

k    2

Name: a, dtype: int64

In [48]: b

Out[48]:

       a  b

c   d

 one h  0  7

    j  1  6

    k  2  5

 two l  3  4

    m  4  3

    n  5  2

    o  6  1

对于DataFrame类型数组的双列索引,取值时应该加上loc或iloc

In [49]: b.loc["one"]

Out[49]:

   a  b

d

h  0  7

j  1  6

k  2  5

In [51]: d.loc["two"].loc["m"]

Out[51]: 4

Pandas之索引的更多相关文章

pandas重置索引的几种方法探究
pandas重置索引的几种方法探究 reset_index() reindex() set_index() 函数名字看起来非常有趣吧! 不仅如此. 需要探究. http://nbviewer.jupy ...
(三）pandas 层次化索引
pandas层次化索引 1. 创建多层行索引 1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 Series也可以创建多层索引 import numpy ...
pandas 数据索引与选取
我们对 DataFrame 进行选择,大抵从这三个层次考虑:行列.区域.单元格.其对应使用的方法如下:一. 行,列 --> df[]二. 区域 --> df.loc[], df.ilo ...
pandas重新索引
#重新索引会更改DataFrame的行标签和列标签.重新索引意味着符合数据以匹配特定轴上的一组给定的标签. #可以通过索引来实现多个操作 - #重新排序现有数据以匹配一组新的标签. #在没有标签数据的 ...
pandas DataFrame 索引（iloc 与 loc 的区别）
Pandas--ix vs loc vs iloc区别 0. DataFrame DataFrame 的构造主要依赖如下三个参数: data:表格数据: index:行索引: columns:列名: ...
Pandas重建索引
重新索引会更改DataFrame的行标签和列标签.重新索引意味着符合数据以匹配特定轴上的一组给定的标签. 可以通过索引来实现多个操作 - 重新排序现有数据以匹配一组新的标签. 在没有标签数据的标签位置 ...
pandas层级索引1
层级索引(hierarchical indexing) 下面创建一个Series, 在输入索引Index时,输入了由两个子list组成的list,第一个子list是外层索引,第二个list是内层索引. ...
pandas层级索引
层级索引(hierarchical indexing) 下面创建一个Series, 在输入索引Index时,输入了由两个子list组成的list,第一个子list是外层索引,第二个list是内层索引. ...
python库学习笔记——Pandas数据索引：ix、loc、iloc区别
Different Choices for Indexing 1. loc--通过行标签索引行数据 1.1 loc[1]表示索引的是第1行(index 是整数) import pandas as pd ...

随机推荐

poj 2420
太虚假了. 我为什么要手贱点开submission? 这道题两天之前被一个学弟A了. ? 我退役了. 其实就是爬山吧..好像有的题解还分方向什么的完全没必要吧. #include <iostre ...
cf954H
挖我自闭了这是什么东西啊. 给出一棵深度为的树,其中深度为的节点有个儿子.问树上的简单路径中长度在之间的每个有多少条. 表示对于在层的个节点,向下走步的方案数表示对于 ...
mac重启，开启apache时报错~~~镜像没有找到
mac重启apache时,报类似下面的错 dyld: Library not loaded: /usr/local/lib/libjpeg8.dylib Referenced from: /usr/l ...
ubuntu安装sublime-text
按照网上的教程, wget -qO - https://download.sublimetext.com/sublimehq-pub.gpg | sudo apt-key add - sudo apt ...
Web前端开发推荐书籍
Web前端开发推荐书籍前言学校里没有前端的课程,那如何学习JavaScript,又如何使自己成为一个合格的前端工程师呢? 读书吧~相对于在网上学习,在项目中学习和跟着有经验的同事学习,书中有着相 ...
MySQL优化小结
数据库的配置是基础.SQL优化最重要(贯穿始终,每日必做),由图可知,越往上优化的面越小,最基本的SQL优化是最重要的,往上各个参数也没太多调的,也不可能说调一个innodb参数性能就会好多少,而动不 ...
vc关于大文件读写
http://blog.csdn.net/believefym/article/details/1162461 在做tcp发送大文件的问题时,怎么读取大文件,现在还没有这方面的需求,留作以后处理: 在 ...
Java项目引用外部jar包时，使用bat启动
1.将项目导出为jar包 1)点击项目—>右击—>点击Export—>进入export页面 2)点击JAR file——>Next——>勾选项目——>选择jar包存 ...
使用hashlib进行登录校验
注册登录和密码验证用户注册时,文件中保存用户名,和密码的密文登录时,密码与文件中的密文进行比较,如果相同就同意登录 import hashlib # 导入模块 def md5(username,p ...
Elasticsearch学习笔记（六）核心概念和分片shard机制
一.核心概念 1.近实时(Near Realtime NRT) (1)从写入数据到数据可以被搜索到有一个小延迟(大概1秒): (2)基于es执行搜索和分析可以达到秒级 2.集群(Cluster) 一个 ...

Pandas之索引

单列索引

reindex所插入的标签如果是原来的标签中没有的，就会将该行的值全部置为NaN

使用index修改标签

使用set_index将某一列变为标签

双列索引

双列索引取值

swaplevel()函数进行标签列换位

对于DataFrame类型数组的双列索引,取值时应该加上loc或iloc

Pandas之索引的更多相关文章

随机推荐

热门专题