如何迭代pandas dataframe的行

from:https://blog.csdn.net/tanzuozhev/article/details/76713387

How to iterate over rows in a DataFrame in Pandas-DataFrame按行迭代

https://stackoverflow.com/questions/16476924/how-to-iterate-over-rows-in-a-dataframe-in-pandas

http://stackoverflow.com/questions/7837722/what-is-the-most-efficient-way-to-loop-through-dataframes-with-pandas

在对DataFrame进行操作时，我们不可避免的需要逐行查看或操作数据，那么有什么高效、快捷的方法呢？

index序号索引

import pandas as pd

inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]

df = pd.DataFrame(inp)

for x in xrange(len(df.index)):

    print df['c1'].iloc[x]

这似乎是最常规的办法，而且可以在迭代的过程中对DataFrame进行操作。

enumerate

for i, row in enumerate(df.values):

    index= df.index[i]

    print row

df.values 是 numpy.ndarray 类型
这里 i 是index的序号， row是numpy.ndarray类型。

iterrows

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.html

import pandas as pd

inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]

df = pd.DataFrame(inp)

for index, row in df.iterrows():

    print row['c1'], row['c2']

#10 100

#11 110

#12 120

df.iterrows() 的每次迭代都是一个tuple类型,包含了index和每行的数据。

采用iterrows的方法，得到的 row 是一个Series，DataFrame的dtypes不会被保留。
返回的Series只是一个原始DataFrame的复制，不可以对原始DataFrame进行修改；

itertuples

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.itertuples.html

import pandas as pd

inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]

df = pd.DataFrame(inp)

for row in df.itertuples():

    # print row[0], row[1], row[2] 等同于

    print row.Index, row.c1, row.c2

itertuples 返回的是一个 pandas.core.frame.Pandas 类型。

普遍认为itertuples 比 iterrows的速度要快。

zip / itertools.izip

zip 和 itertools.izip的用法是相似的，但是zip返回一个list，而izip返回一个迭代器。如果数据量很大，zip的性能不及izip

from itertools import izip

import pandas as pd

inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]

df = pd.DataFrame(inp)

for row in izip(df.index, df['c1'], df['c2']):

    print row

时间测评

import time

from numpy.random import randn

df = pd.DataFrame({'a': randn(100000), 'b': randn(100000)})

time_stat = []

# range(index)

test_list = []

t = time.time()

for r in xrange(len(df)):

    test_list.append((df.index[r], df.iloc[r,0], df.iloc[r,1]))

time_stat.append(time.time()-t)

# enumerate

test_list = []

t = time.time()

for i, r in enumerate(df.values):

    test_list.append((df.index[i], r[0], r[1]))

time_stat.append(time.time()-t)

# iterrows

test_list = []

t = time.time()

for i,r in df.iterrows():

    test_list.append((df.index[i], r['a'], r['b']))

time_stat.append(time.time()-t)

#itertuples

test_list = []

t = time.time()

for ir in df.itertuples():

    test_list.append((ir[0], ir[1], ir[2]))

time_stat.append(time.time()-t)

# zip

test_list = []

t = time.time()

for r in zip(df.index, df['a'], df['b']):

    test_list.append((r[0], r[1], r[2]))

time_stat.append(time.time()-t)

# izip

test_list = []

t = time.time()

from itertools import izip

for r in izip(df.index, df['a'], df['b']):

    test_list.append((r[0], r[1], r[2]))

time_stat.append(time.time()-t)

time_df = pd.DataFrame({'items':['range(index)', 'enumerate',  'iterrows', 'itertuples' , 'zip', 'izip'], 'time':time_stat})

time_df.sort_values('time')

items   time

5   izip    0.034869

4   zip 0.040440

3   itertuples  0.072604

1   enumerate   0.174094

2   iterrows    4.026293

0   range(index)    21.921407

可以发现在时间花销上， izip > zip > itertuples > enumerate > iterrows > range(index)

如何迭代pandas dataframe的行的更多相关文章

pandas.DataFrame的pivot()和unstack()实现行转列
示例: 有如下表需要进行行转列: 代码如下: # -*- coding:utf-8 -*- import pandas as pd import MySQLdb from warnings impor ...
pandas取dataframe特定行/列
1. 按列取.按索引/行取.按特定行列取 import numpy as np from pandas import DataFrame import pandas as pd df=DataFram ...
pandas DataFrame行或列的删除方法
pandas DataFrame的增删查改总结系列文章: pandas DaFrame的创建方法 pandas DataFrame的查询方法 pandas DataFrame行或列的删除方法 pand ...
[译]如何根据条件从pandas DataFrame中删除不需要的行？
问题来源:https://stackoverflow.com/questions/13851535/how-to-delete-rows-from-a-pandas-dataframe-based-o ...
pandas.DataFrame学习系列1——定义及属性
定义: DataFrame是二维的.大小可变的.成分混合的.具有标签化坐标轴(行和列)的表数据结构.基于行和列标签进行计算.可以被看作是为序列对象(Series)提供的类似字典的一个容器,是panda ...
pandas DataFrame apply()函数(1)
之前已经写过pandas DataFrame applymap()函数还有pandas数组(pandas Series)-(5)apply方法自定义函数 pandas DataFrame 的 app ...
pandas DataFrame.shift()函数
pandas DataFrame.shift()函数可以把数据移动指定的位数 period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列. eg: 有这样一个DataFrame ...
pandas DataFrame(3)-轴
和numpy数组(5)-二维数组的轴一样,pandas DataFrame也有轴的概念,决定了方法是对行应用还是对列应用: 以下面这个数据为例说明: 这个数据是5个车站10天内的客流数据: rider ...
pandas DataFrame(4)-向量化运算
pandas DataFrame进行向量化运算时,是根据行和列的索引值进行计算的,而不是行和列的位置: 1. 行和列索引一致: import pandas as pd df1 = pd.DataFra ...

随机推荐

根据wsdl，基于wsimport生成代码的客户端
根据wsdl,基于wsimport生成代码的客户端 wsimport是jdk自带的命令,可以根据wsdl文档生成客户端中间代码,基于生成的代码编写客户端,可以省很多麻烦. 局限性:wsimport ...
关于sqlite使用场景
对于sqlite,实际中从来没有用过,也几乎没有考虑过其使用场景,更不要说专门去研究它了,今天看最新的数据库流行度排行榜的时候,发现sqlite的长期趋势好像一直在第十位左右徘徊,特地搜索了下其使用场 ...
switch to hexo !
用 hexo 搭了个博客但是由于本博客内容过多,所以对于少数内容搬迁,而且本博客和那个博客相关联,但是这个博客不再更新. 新站地址再见!
STM32.SPI（25Q16）
1.首先认识下W25Q16DVSIG, SOP8 SPI FLASH 16MBIT 2MB(4096个字节) (里面可以放字库,图片,也可以程序掉电不丢失数据放里面) 例程讲解: ① 1.用到SPI ...
网络安全、Web安全、渗透测试之笔经面经总结（二）
这篇文章涉及的知识点有如下几方面: 1.SSL Strip(SSp)攻击到底是什么? 2.中间人攻击——ARP欺骗的原理.实战及防御 3会话劫持原理 4.CC攻击 5．添加时间戳防止重放攻击 6．浅析 ...
Python3基础 sys.path.append 增加模块的搜索路径
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
论文笔记——Data-free Parameter Pruning for Deep Neural Networks
论文地址:https://arxiv.org/abs/1507.06149 1. 主要思想权值矩阵对应的两列i,j,如果差异很小或者说没有差异的话,就把j列与i列上(合并,也就是去掉j列),然后在下 ...
获取String类型汉字乱码，如何进行编码
本文为博主原创,未经允许不得转载: 在解析properties文件中的汉字时,在java代码中解析得到的是一个乱码字符,形如图下: 导致乱码原因:由于在jdk中,默认为gbk编码方式进行编码盒接收的, ...
深度优先搜索初尝试-DFS-LakeCounting POJ No.2386
DFS入门的一道经典题目:LakeCounting 用栈或队列来实现: #include<cstdio> #include<stdlib.h> #include<iost ...
51nod 1444 破坏道路（最短路）
http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1444 题意: 思路: 哇,思路爆炸. 因为每条边的权值都为1,所以可以直 ...