【原创】大数据量时生成DataFrame避免使用效率低的append方法

转载请注明出处：https://www.cnblogs.com/oceanicstar/p/10900332.html

★append方法可以很方便地拼接两个DataFrame

 df1.append(df2)

 >    A  B

 > 1 A1 B1

 > 2 A2 B2

 > 3 A3 B3

 > 4 A4 B4

★但数据量大时生成DataFrame，应避免使用append方法

因为：

与python列表中的append和extend方法不同的是pandas的append方法不会改变原来的对象，而是创建一个新的对象。当然，这样的话会使效率变低而且会占用更多内存，所以如果你有很多数据需要append，建议使用列表，然后传给DataFrame。

建议直接用空列表依次装好各列的数据，再统一生成总的dataframe表，如下例所示。

 import pandas as pd

 import numpy as np

 from datetime import datetime

 # 模拟生成较大批次量的数据

 df_list = [pd.DataFrame({

     'a': [np.random.rand() for _ in range(20000)],

     'b': [np.random.rand() for _ in range(20000)]

 }) for i in range(800)]

 # %% 第一种方式（运行时间最长——1分钟，内存占用一般）

 start1 = datetime.now()

 res1 = pd.DataFrame()

 for df in df_list:

     res1 = res1.append(df)

 print('append耗时：%s秒' % (datetime.now() - start1))

 # %% 第二种方式（运行时间相对第一种少一些——46秒，但内存接近溢出）

 start2 = datetime.now()

 dict_list = [df.to_dict() for df in df_list]

 combine_dict = {}

 i = 0

 for dic in dict_list:

     length = len(list(dic.values())[0])

     for idx in range(length):

         combine_dict[i] = {k: dic[k][idx] for k in dic.keys()}

         i += 1

 res2 = pd.DataFrame.from_dict(combine_dict, 'index')

 print('dict合并方式耗时：%s秒' % (datetime.now() - start2))

 # %% 第三种方式：list装好所有值（运行时间最短——4秒多，内存占用低）

 start3 = datetime.now()

 columns = ['a', 'b']

 a_list = []

 b_list = []

 for df in df_list:

     a_list.extend(df['a'])

     b_list.extend(df['b'])

 res3 = pd.DataFrame({'a': a_list, 'b': b_list})

 print('list装好所有值方式耗时：%s秒' % (datetime.now() - start3))

【原创】大数据量时生成DataFrame避免使用效率低的append方法的更多相关文章

大数据量时Mysql的优化
(转自网络) 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB.对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求.这个时候NoSQL的出现暂时 ...
大数据量时 Mysql LIMIT如何正确对其进行优化（转载）
以下的文章主要是对Mysql LIMIT简单介绍,我们大家都知道LIMIT子句一般是用来限制SELECT语句返回的实际行数.LIMIT取1个或是2个数字参数,如果给定的是2个参数,第一个指定要返回的第 ...
Android, BaseAdapter 处理大数据量时的优化
Android优化最常见的就是ListView, Gallery, GridView, ViewPager 的大数据优化图片优化访问网络的优化优化的原则: 数据延迟加载分批加载本地缓 ...
.net WebService 大数据量时性能的提高
1.直接返回DataSet对象 [WebMethod(Description = "直接返回DataSet对象")] public DataSet GetUserListDateS ...
Kendo UI中TreeView 放入tabstrip中，大数据量时超过边框的解决方案。
参考http://www.kendoui.com/forums/ui/tabstrip/tabstip-with-treeview-treeview-breaking-out-of-tabstrip. ...
【转载】大数据量传输时配置WCF的注意事项
WCF传输数据量的能力受到许多因素的制约,如果程序中出现因需要传输的数据量较大而导致调用WCF服务失败的问题,应注意以下配置: 1.MaxReceivedMessageSize:获取或设置配置了此绑定 ...
大数据量传输时配置WCF的注意事项
原文:大数据量传输时配置WCF的注意事项 WCF传输数据量的能力受到许多因素的制约,如果程序中出现因需要传输的数据量较大而导致调用WCF服务失败的问题,应注意以下配置: 1.MaxReceivedMe ...
WCF大数据量传输配置
WCF传输数据量的能力受到许多因素的制约,如果程序中出现因需要传输的数据量较大而导致调用WCF服务失败的问题,应注意以下配置: 1.MaxReceivedMessageSize:获取或设置配置了此绑定 ...
SQL Server 使用bcp进行大数据量导出导入
转载:http://www.cnblogs.com/gaizai/archive/2010/04/17/1714389.html SQL Server的导出导入方式有: 在SQL Server中提供了 ...

随机推荐

Chapter11
package scala import scala.collection.mutable /** * Created by EX-CHENZECHAO001 on 2018-04-03. */cla ...
jsonignore的一个坑
import org.fasterxml.jackson.annotate.JsonIgnore; 和 import org.codehaus.jackson.annotate.JsonIgnore; ...
C++学习 - 虚表,虚函数,虚函数表指针学习笔记
http://blog.csdn.net/alps1992/article/details/45052403 虚函数虚函数就是用virtual来修饰的函数.虚函数是实现C++多态的基础. 虚表每个 ...
iOS开发 - 3D Touch 应用系列一 - Quick Actions 创建桌面 Icon 快捷方式
个言很久没发随笔了,有一年多了吧.期间也曾想继续去写随笔,但是因为各种原因而耽搁了.最近又想了一下,还是有很多东西想要写,想要分享,想要记录下来的东西.之后我也会不断写随笔,但不止于 iOS 的方向 ...
SVN的搭建（入门篇）
如果转载,请注明出处,谢谢 1.安装SVN # yum install subversion 2.创建一个仓库创建一个仓库svnrepos # svnadmin create /usr/svnrep ...
elasticsearch远程代码执行漏洞告警
es版本:1.7.2 最近在做es项目的时候出现,启动es一段时间系统就会报警,结果查询了一下,原来是es的漏洞: 官网描述: 大致意思就是: 漏洞出现在脚本查询模块,默认搜索引擎支持使用脚本代码(M ...
vue resource patch方法的传递数据 form data 为 [object Object]
今天在测试 iblog 登录时,传送过去的数据总是 [object Object],以至于后台识别不出来. vue 使用了 vueResource 组件,登录方法为 patch. 经过探索,终于在官网 ...
hibernate课程初探单表映射1-9 创建关系映射文件
创建关系映射文件:(把实体类映射成一个表) 1 右键src==>new==>other==>hibernate==>hbm.xml==>Student==>Fini ...
echarts折线图相关
optionJKDLine = { title: { text: '告警数量趋势图', textStyle:{ //标题样式 fontStyle:'normal', fontFamily:'sans- ...
Android学习笔记1——Android开发环境配置
一.JDK配置 Android是基于Java进行开发的,首先需要在电脑上配置JDK(Java Development Kit).在http://www.androiddevtools.cn/下载对应系 ...

【原创】大数据量时生成DataFrame避免使用效率低的append方法

【原创】大数据量时生成DataFrame避免使用效率低的append方法的更多相关文章

随机推荐

热门专题