Redis数据导入工具优化过程总结
Redis数据导入工具优化过程总结
背景
使用C++开发了一个Redis数据导入工具 
从oracle中将所有表数据导入到redis中;     
不是单纯的数据导入,每条oracle中的原有记录,需要经过业务逻辑处理,     
并添加索引(redis集合);     
工具完成后,性能是个瓶颈;
优化效果
使用了2个样本数据测试:    
样本数据a表8763 条记录;     
b表940279 条记录;
优化前,a表耗时11.417s;    
优化后,a表耗时1.883s;
用到的工具
gprof, pstrace,time
使用time工具查看每次执行的耗时,分别包含用户时间和系统时间;    
使用pstrace打印实时运行,查询进程主要的系统调用,发现耗时点;     
使用gprof统计程序的耗时汇总,集中精力优化最耗时的地方;     
使用简介:     
1.对g++的所有编辑和连接选项都必须要加上-pg(第一天由于没有在连接处加上-pg选项,导致无法出统计报告);     
2.执行完程序后,本目录会产生gmon.out文件;     
3.gprof redistool gmou.out > report,生成可读文件report,打开report集中优化最耗时的函数;
优化过程
优化前11.417s:
time ./redistool im a a.csv
real    0m11.417s
user    0m6.035s
sys     0m4.782s (发现系统调用时间过长)文件内存映射
系统调用时间过长,主要是文件读写,初步考虑是读取文件时,调用api次数过于频繁; 
读取样本采用的是文件fgets一行行的读取,采用文件内存映射mmap后,可直接使用指针操作整个文件内存快;
日志开关提前
改进了文件读写后,发现优化效果比较有限(提高了2s左右);fgets是C的文件读取库函数,相比系统read(),是带了缓冲区了,应该不会太慢(网上有人测试,文件内存映射相比fgets()能快上一个数量级,感觉场景应该比较特殊);
之后通过pstrace工具发现log.dat打开次数过多;原来是调试日志的开关写到了后面,导致 调试日志都是会打开日志文件open("log.dat");
  
将日志开关提前;改进后,3.53s
time ./redistool im a a.csv
real    0m3.530s
user    0m2.890s
sys     0m0.212svector空间预先分配
后续通过gprof分析,某个函数的vector内存分配次数多,并有不少复制次数: 
改进以下这行代码:
vector <string> vSegment;使用静态vector变量,并预先分配内存:
static vector <string> vSegment;
vSegment.clear();
static int nCount = 0;
if( 0 == nCount)
{
    vSegment.reserve(64);
}
++nCount;优化后,提升至2.286s
real    0m2.286s
user    0m1.601s
sys     0m0.222s同样,另外一个类中的成员vector也使用预先分配空间(在构造函数中):
m_vtPipecmd.reserve(256);优化后,提升至2.166s;
real    0m2.166s
user    0m1.396s
sys     0m0.204s函数改写 && 内联
继续执行程序,发现SqToolStrSplitByCh()函数消耗过大,改写整个函数逻辑,并将改写后的函数内联: 
优化后,提升至1.937s
real    0m1.937s
user    0m1.301s
sys     0m0.186s去除调试符和优化监测符号
最后,去掉debug和pg调试符号后,最终效果为1.883s;
real    0m1.883s
user    0m1.239s
sys     0m0.191s满足生产要求
以上最后几步看似毫秒级的提升,扩大到全表数据后,效果就很明显了; 
优化后,生产上a表为152w,导入耗时大约326s(~6分钟);
b表数据420w,导入耗时大约1103s(~18分钟)
Posted by: 大CC | 28JUN,2015
  
博客:blog.me115.com [订阅]
Github:大CC
Redis数据导入工具优化过程总结的更多相关文章
- CYS-Sqlite数据导入工具
		界面: 曹永思 下载地址:asp.net 2.0版 Sqlite数据导入工具.zip 欢迎转载,转载请注明出处,希望帮到更多人. 
- ImportTsv-HBase数据导入工具
		一.概述 HBase官方提供了基于Mapreduce的批量数据导入工具:Bulk load和ImportTsv.关于Bulk load大家可以看下我另一篇博文. 通常HBase用户会使用HBase A ... 
- graphql 数据导入工具
		graphql 是比 比较方便的工具,但是数据导入也是一个比较重要的工具类似prisma 包含一个seed 的功能,类似docker我们使用mysql 数据库的initdb.d,但是那个基本上就 是添 ... 
- redis数据查看工具
		Redis缓存数据库目前已大量的应用,广泛用于存储session信息,权限信息,交易作业等热数据.但是Redis存在的数据可视化不便.Redis的数据查看维护困难.Redis状态监控运维不易等问题.使 ... 
- oracle批量数据导入工具 sqlldr
		sqlldr工具参数: [oracle@server ~]$ sqlldr SQL*Loader: Release - Production on Wed Nov :: Copyright (c) , ... 
- Oracle SQL*Loader 数据导入工具
		SQL*Loader是一个向Orale大量倒数据的工具,可以从界定文件中导入数据如用 , 界定的,可以从定宽的文件导入数据, 
- 《java提高数据导入效率优化思路》
		写在前边的实现需求: 1.总共10万个电话号码: 2.电话号码中有重复和错误: 3.查找出正确的号码(不重复): 一.优化前的实现方式: 1.先用正则过滤一遍10万条数据,找出错误的: 2.用List ... 
- Redis 数据导入导出,redis-dump命令
		安装redis-dump 工具 yum install ruby rubygems ruby-devel# 修改为国内源gem sources --add http://gems.ruby-china ... 
- redis 数据导入导出,实例内db迁移
		源实例db0迁移至目标实例db1 [root@172.20.0.1 ~]# cat redis_mv.sh #!/bin/bash redis-cli -h -a password -n keys & ... 
随机推荐
- android 项目学习随笔七(ViewPagerIndicator与ViewPager)
			1.ViewPagerIndicator https://github.com/JakeWharton/ViewPagerIndicator package com.viewpagerindicato ... 
- SoupUI的使用
- du -sh
			评估文件空间利用率: [root@vm-xiluhua][/home]$ du -sh /home 409M /home --exclude选项,排除指定模式的文件的大小 [root@vm-xiluh ... 
- 通过HtmlEmail 发送邮件
			今天第一次来上海市虹口图书馆上自习,感觉还是很爽的.自己撸代码学会了发送邮件.啥都不说了,直接撸代码吧! 首先 必须引进来三个jar包: compile 'javax.mail:mail:1.4.7' ... 
- css 前景色与背景色
			前景色:color:#990000; 背景色:background-color:red; 可以用来设置文字的前景色与背景色 <!-- 作者:纤锐出处:http://www.cnblogs.com ... 
- hdu4932 Miaomiao's Geometry
			这是一道搜索题,我们很容易得到目标值的上下界,然后就只能枚举了. 就是将x轴上的点排序之后从左到右依次考察每个点,每个点要么在线段的左端点,要么在线段的右端点. 点编号从0到n-1,从编号为1的点开始 ... 
- Code(组合数学)
			Code Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 8766 Accepted: 4168 Description Tran ... 
- 分页sql
			/// <summary> /// 根据页数分页 /// </summary> /// <param name="page"></para ... 
- script中的if
			function isOK() { var isTrue = false; var value = $("#myTest1").val(); // if (value && ... 
- MBB类似jquery.bxslider插件轮播效果
			首先,如图一:当打开页面是,产品出现了淡入淡出切换轮播状态,当鼠标点击左边的小图时,就会切换出相对应的大图,当鼠标移开的时候,这个轮播就会停止自动轮播,只有人工手动才能进行切换:是一个不错的体验! 如 ... 
