【跟着stackoverflow学Pandas】How to iterate over rows in a DataFrame in Pandas-DataFrame按行迭代

最近做一个系列博客，跟着stackoverflow学Pandas。

以 pandas作为关键词，在stackoverflow中进行搜索，随后安照 votes 数目进行排序：

https://stackoverflow.com/questions/tagged/pandas?sort=votes&pageSize=15

How to iterate over rows in a DataFrame in Pandas-DataFrame按行迭代

https://stackoverflow.com/questions/16476924/how-to-iterate-over-rows-in-a-dataframe-in-pandas

http://stackoverflow.com/questions/7837722/what-is-the-most-efficient-way-to-loop-through-dataframes-with-pandas

在对DataFrame进行操作时，我们不可避免的需要逐行查看或操作数据，那么有什么高效、快捷的方法呢？

index序号索引

import pandas as pd
inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]
df = pd.DataFrame(inp)
for x in xrange(len(df.index)):
    print df['c1'].iloc[x]

这似乎是最常规的办法，而且可以在迭代的过程中对DataFrame进行操作。

enumerate

for i, row in enumerate(df.values):
    index= df.index[i]
    print row

df.values 是 numpy.ndarray 类型

这里 i 是index的序号， row是numpy.ndarray类型。

iterrows

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.html

import pandas as pd
inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]
df = pd.DataFrame(inp)

for index, row in df.iterrows():
    print row['c1'], row['c2']

#10 100
#11 110
#12 120

df.iterrows() 的每次迭代都是一个tuple类型,包含了index和每行的数据。

采用iterrows的方法，得到的 row 是一个Series，DataFrame的dtypes不会被保留。
返回的Series只是一个原始DataFrame的复制，不可以对原始DataFrame进行修改；

itertuples

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.itertuples.html

import pandas as pd
inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]
df = pd.DataFrame(inp)

for row in df.itertuples():
    # print row[0], row[1], row[2] 等同于
    print row.Index, row.c1, row.c2

itertuples 返回的是一个 pandas.core.frame.Pandas 类型。

普遍认为itertuples 比 iterrows的速度要快。

zip / itertools.izip

zip 和 itertools.izip的用法是相似的，但是zip返回一个list，而izip返回一个迭代器。如果数据量很大，zip的性能不及izip

from itertools import izip
import pandas as pd
inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]
df = pd.DataFrame(inp)

for row in izip(df.index, df['c1'], df['c2']):
    print row

时间测评

import time
from numpy.random import randn

df = pd.DataFrame({'a': randn(100000), 'b': randn(100000)})

time_stat = []

# range(index)
test_list = []
t = time.time()
for r in xrange(len(df)):
    test_list.append((df.index[r], df.iloc[r,0], df.iloc[r,1]))
time_stat.append(time.time()-t)

# enumerate
test_list = []
t = time.time()
for i, r in enumerate(df.values):
    test_list.append((df.index[i], r[0], r[1]))
time_stat.append(time.time()-t)

# iterrows
test_list = []
t = time.time()
for i,r in df.iterrows():
    test_list.append((df.index[i], r['a'], r['b']))
time_stat.append(time.time()-t)

#itertuples
test_list = []
t = time.time()
for ir in df.itertuples():
    test_list.append((ir[0], ir[1], ir[2]))
time_stat.append(time.time()-t)

# zip
test_list = []
t = time.time()
for r in zip(df.index, df['a'], df['b']):
    test_list.append((r[0], r[1], r[2]))
time_stat.append(time.time()-t)

# izip
test_list = []
t = time.time()
from itertools import izip
for r in izip(df.index, df['a'], df['b']):
    test_list.append((r[0], r[1], r[2]))
time_stat.append(time.time()-t)

time_df = pd.DataFrame({'items':['range(index)', 'enumerate',  'iterrows', 'itertuples' , 'zip', 'izip'], 'time':time_stat})

time_df.sort_values('time')

items   time
5   izip    0.034869
4   zip 0.040440
3   itertuples  0.072604
1   enumerate   0.174094
2   iterrows    4.026293
0   range(index)    21.921407

可以发现在时间花销上， izip > zip > itertuples > enumerate > iterrows > range(index)

【跟着stackoverflow学Pandas】How to iterate over rows in a DataFrame in Pandas-DataFrame按行迭代的更多相关文章

【跟着stackoverflow学Pandas】 - Adding new column to existing DataFrame in Python pandas - Pandas 添加列
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
【跟着stackoverflow学Pandas】 -Get list from pandas DataFrame column headers - Pandas 获取列名
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
【跟着stackoverflow学Pandas】add one row in a pandas.DataFrame -DataFrame添加行
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
【跟着stackoverflow学Pandas】Select rows from a DataFrame based on values in a column -pandas 筛选
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
【跟着stackoverflow学Pandas】“Large data” work flows using pandas-pandas大数据处理流程
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
【跟着stackoverflow学Pandas】Delete column from pandas DataFrame-删除列
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
【跟着stackoverflow学Pandas】Renaming columns in pandas-列的重命名
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
学机器学习，不会数据处理怎么行？—— 二、Pandas详解
在上篇文章学机器学习,不会数据处理怎么行?—— 一.NumPy详解中,介绍了NumPy的一些基本内容,以及使用方法,在这篇文章中,将接着介绍另一模块——Pandas.(本文所用代码在这里) Panda ...
跟着百度学PHP[14]-PDO之Mysql的事务处理2
前面所将仅仅是在纯mysql下的讲解,这节就是要将其搬到PDO台面上来了. 将自动提交关闭. SetAttribute下有一个PDO::ATTR_AUTOCOMMIT 将其设置为0即可关闭,如:$pd ...

随机推荐

Jquery6 DOM 节点操作
学习要点: 1.创建节点 2.插入节点 3.包裹节点 4.节点操作 DOM 中有一个非常重要的功能,就是节点模型,也就是 DOM 中的“M”.页面中的元素结构就是通过这种节点模型来互相对应着的,通过这 ...
nuget sources
https://docs.microsoft.com/en-us/nuget/tools/cli-ref-sources https://gemfury.com/help/nuget-server/ ...
HIVE分组排序问题
答案: hive> select *,row_number() over (partition by product_no order by start_time desc) from tabl ...
webservice的cxf和spring整合客户端开发
1.新建一个java项目 2.导入cxf相关的jar包,并部署到项目中 3.用命令生成客户端使用说明文档 wsdl2java -p com.xiaostudy -d . http://127.0.0. ...
deepin下用命令管理自己的Github仓库
用命令链接github 初始化需要用ssh公钥链接到github,注意不能从vim中直接复制介绍一个命令: xsel < test.txt 将文件中内容直接复制到剪切板中具体做法 git ...
counting the buildings - 第一类斯特灵数
2017-08-10 21:10:08 writer:pprp //TLE #include <iostream> #include <cstdio> #include < ...
Mybatis中传参包There is no getter for property named 'XXX' in 'class java.lang.String'
Mybatis中传参包There is no getter for property named 'XXX' in 'class java.lang.String' 一.发现问题 <select ...
wordpress安装插件提示“wordpress发生意外错误，可能WordPress.org或服务器配置文件存在问题”
安装wordpress插件,提示报错“wordpress发生意外错误,可能WordPress.org或服务器配置文件存在问题” 出问题的页面是http://*.*.*.*/wp-admin/updat ...
linux安装数据库删除
https://blog.csdn.net/qq_40550973/article/details/80721014 卸载mysql .快速删除 yum remove mysql mysql-serv ...
[Vue]组件——实现动态组件：keep-alive的使用
1.在app.vue中用一个 <keep-alive> 元素将其动态组件包裹起来: keepAlive为true时,第一次被创建的时候缓存下来,为false时,不会缓存 <keep- ...